npm package discovery and stats viewer.

Discover Tips

  • General search

    [free text search, go nuts!]

  • Package details

    pkg:[package-name]

  • User packages

    @[username]

Sponsor

Optimize Toolset

I’ve always been into building performant and accessible sites, but lately I’ve been taking it extremely seriously. So much so that I’ve been building a tool to help me optimize and monitor the sites that I build to make sure that I’m making an attempt to offer the best experience to those who visit them. If you’re into performant, accessible and SEO friendly sites, you might like it too! You can check it out at Optimize Toolset.

About

Hi, 👋, I’m Ryan Hefner  and I built this site for me, and you! The goal of this site was to provide an easy way for me to check the stats on my npm packages, both for prioritizing issues and updates, and to give me a little kick in the pants to keep up on stuff.

As I was building it, I realized that I was actually using the tool to build the tool, and figured I might as well put this out there and hopefully others will find it to be a fast and useful way to search and browse npm packages as I have.

If you’re interested in other things I’m working on, follow me on Twitter or check out the open source projects I’ve been publishing on GitHub.

I am also working on a Twitter bot for this site to tweet the most popular, newest, random packages from npm. Please follow that account now and it will start sending out packages soon–ish.

Open Software & Tools

This site wouldn’t be possible without the immense generosity and tireless efforts from the people who make contributions to the world and share their work via open source initiatives. Thank you 🙏

© 2026 – Pkg Stats / Ryan Hefner

@witty-ai/skill-insight

v0.7.0-beta

Published

Agent Skill 评估与观测平台 — 量化评估 Skills 在 Agent 上的实际运行效果

Readme

Skill-insight

Skill-insight 是一个开源的 Agent Skill 生成、优化、观测与分析平台,帮助开发者量化评估 Skills 在 Agent 上的实际运行效果。通过自动采集执行轨迹、智能评分、深度归因分析,让 Skill 的每一次迭代都有据可依。


🎯 我们在解决什么问题

在 AI 时代,Agent 正在成为新的生产力载体,而 Skill 作为 Agent 执行能力的最小可复用单元,正在快速膨胀。然而,随着Skill 数量增多,不同 Skill 间存在重复与相似内容,执行过程黑盒、评测结果不可追溯,导致 Skill 效果无法量化感知,难以持续优化。

核心挑战

| 挑战 | 描述 | | :--- | :--- | | 1. Skill 数量爆炸,召回率下降与 Token 成本飙升 | 基于大量文档生成的 Skill 往往语义高度相似,导致召回率从 95% 急剧下降至 30% 以下,Token 成本显著增加。 | | 2. 评测维度不全面,缺乏可解释与可追溯能力 | 当前评测大多停留在"成功或失败"的结果导向,缺乏 ROI、执行路径偏差等过程级评测,无法定位问题根因。 | | 3. Skill 优化缺乏执行过程数据输入 | 优化主要依赖"最终结果是否正确"这一单一信号,缺乏分步骤数据,无法判断瓶颈来源,影响优化效果。 |


✨ 三大核心能力

🤖 1. 基于语义聚合的模式抽取

核心思路:去冗余、合相似、抽模式

  • 去冗余:从海量案例文档中剔除重复描述、无关上下文与噪声信息
  • 合相似:基于文本聚类相似度算法结合大模型语义理解,合并语义高度相近的 Skill
  • 抽模式:提炼通用问题模式与标准解决路径,生成可复用的模式化 Skill

效果:将 Skill 数量降低至少一个数量级,提升召回率的同时有效降低 Token 消耗成本。

👉 了解详情:Skill 自动生成技术解析

📊 2. 多维评测与过程级可追溯

核心思路:构建多维评测体系 + 引入标准数据集 + 提供过程级可追溯能力

  • 多维评测指标体系:包括准确率、时延、Token 成本、ROI 等多维度评测方法
  • 内置标准评测数据集:集成 SkillsBench 等行业标准数据集,支持自定义扩展
  • 执行过程可追溯:实时生成动态执行流程图,清晰标识未按预期执行的步骤
  • 偏差定位与原因分析:逐步回溯执行路径,区分模型推理问题还是 Skill 定义不合理

效果:将评测从结果层提升到结果+过程的多维度评测,实现评测结果的全面客观分析。

👉 了解详情:多维观测与分析技术解析

🔄 3. 全链路数据驱动优化

核心思路:收集结果与执行过程的全链路数据,形成自动化反馈闭环

  • 执行链路全追踪:每一步操作、模型推理与工具调用都被记录,识别关键瓶颈
  • 数据驱动优化闭环:执行数据被结构化并反馈至 Skill 优化环节,支持问题定位和持续改进

效果:使 Skill 优化不再停留在"调文本、改结果"的浅层,而是基于执行数据的深度优化,数据驱动 Agent 自进化。

👉 了解详情:Skill 自优化技术解析


🎨 功能展示

执行详情钻取

耗时 & Token 分析

多维度指标对比


🚀 快速开始

前置要求

  • Node.js >= 18
  • npm >= 9

一键安装

npx @witty-ai/skill-insight install

快速体验

安装完成后,即可开始第一次观测(以OpenCode为例):

  1. 打开 OpenCode 终端
  2. 执行一个简单任务
    你好,请介绍一下你自己
  3. 打开浏览器 访问 http://localhost:3000,并登陆初始账号admin,在主页面可以看到刚才执行的记录

🎉 恭喜!您已完成第一次数据采集与观测。

更多功能,请参考用户手册


📂 项目结构

.
├── src/                          # 看板前端 + 后端 API
│   ├── app/api/                  # API 路由
│   │   ├── setup/                # 一键配置脚本生成
│   │   ├── skills/               # Skill CRUD、版本管理、上传下载
│   │   ├── sync/                 # Skill 同步与 Manifest
│   │   ├── upload/               # 执行数据上报
│   │   ├── auth/                 # API Key 用户认证
│   │   └── ...                   # 评估、配置、设置等
│   ├── components/               # React UI 组件
│   └── lib/                      # 核心逻辑
│       ├── auth.ts               # 通用认证模块
│       ├── judge.ts              # LLM 自动判题引擎
│       ├── data-service.ts       # 数据读写服务
│       └── prisma.ts             # 数据库客户端
├── prisma/schema.prisma          # 数据库模型定义
├── scripts/                      # 核心采集脚本
│   └── opencode_plugin.ts        # OpenCode 原生插件
├── public/sync_skills.ts         # 客户端 Skill 同步工具
├── skill/                        # 预置 Skill 示例库
├── docs/                         # 文档与架构图
└── .env.example                  # 环境变量模板

🗺️ Roadmap

当前已实现 ✅

  • [x] 无感采集与接入:OpenCode, Claude Code, OpenClaw 无侵入数据采集
  • [x] 多维指标监测与对比:跨模型/框架维度的 Latency, Token, Accuracy 对比
  • [x] LLM 自动评分与深度归因:基于标准的判题机制,精准区分模型能力缺失与 Skill 缺陷
  • [x] Skill 版本管理与同步:版本隔离、跨框架代码分发
  • [x] 数据集管理 — 统一管理和分享标准评测数据集
  • [x] Skill 自动生成:基于案例文档自动提取 Skill 并执行文本聚类合并相似项
  • [x] Skill 自优化:基于动静态评估反思机制,驱动 Agent 自动演化为高质量 Skill
  • [x] 用户管理:多用户隔离与 API Key 认证机制
  • [x] Skill 可视化 — 独立展示 Skill 的执行流程与控制流结构

计划中 🚧

  • [ ] 团队协作 — 团队资源共享、权限隔离与防并发冲突机制
  • [ ] 成本控制优化 — 细粒度 Token 消耗分布分析与改进建议
  • [ ] 多Skill关联分析 — 分析 Skill 之间的依赖关系,优化执行效率

📄 License

MIT