@witty-ai/skill-insight

v0.7.0-beta

Published

2 months ago

Agent Skill 评估与观测平台 — 量化评估 Skills 在 Agent 上的实际运行效果

0High
0Medium
0Low

Skill-insight

Skill-insight 是一个开源的 Agent Skill 生成、优化、观测与分析平台，帮助开发者量化评估 Skills 在 Agent 上的实际运行效果。通过自动采集执行轨迹、智能评分、深度归因分析，让 Skill 的每一次迭代都有据可依。

🎯 我们在解决什么问题

在 AI 时代，Agent 正在成为新的生产力载体，而 Skill 作为 Agent 执行能力的最小可复用单元，正在快速膨胀。然而，随着Skill 数量增多，不同 Skill 间存在重复与相似内容，执行过程黑盒、评测结果不可追溯，导致 Skill 效果无法量化感知，难以持续优化。

核心挑战

✨ 三大核心能力

🤖 1. 基于语义聚合的模式抽取

核心思路：去冗余、合相似、抽模式

去冗余：从海量案例文档中剔除重复描述、无关上下文与噪声信息
合相似：基于文本聚类相似度算法结合大模型语义理解，合并语义高度相近的 Skill
抽模式：提炼通用问题模式与标准解决路径，生成可复用的模式化 Skill

效果：将 Skill 数量降低至少一个数量级，提升召回率的同时有效降低 Token 消耗成本。

👉 了解详情：Skill 自动生成技术解析

📊 2. 多维评测与过程级可追溯

核心思路：构建多维评测体系 + 引入标准数据集 + 提供过程级可追溯能力

多维评测指标体系：包括准确率、时延、Token 成本、ROI 等多维度评测方法
内置标准评测数据集：集成 SkillsBench 等行业标准数据集，支持自定义扩展
执行过程可追溯：实时生成动态执行流程图，清晰标识未按预期执行的步骤
偏差定位与原因分析：逐步回溯执行路径，区分模型推理问题还是 Skill 定义不合理

效果：将评测从结果层提升到结果+过程的多维度评测，实现评测结果的全面客观分析。

👉 了解详情：多维观测与分析技术解析

🔄 3. 全链路数据驱动优化

核心思路：收集结果与执行过程的全链路数据，形成自动化反馈闭环

执行链路全追踪：每一步操作、模型推理与工具调用都被记录，识别关键瓶颈
数据驱动优化闭环：执行数据被结构化并反馈至 Skill 优化环节，支持问题定位和持续改进

效果：使 Skill 优化不再停留在"调文本、改结果"的浅层，而是基于执行数据的深度优化，数据驱动 Agent 自进化。

👉 了解详情：Skill 自优化技术解析

🎨 功能展示

执行详情钻取

耗时 & Token 分析

多维度指标对比

🚀 快速开始

前置要求

Node.js >= 18
npm >= 9

一键安装

npx @witty-ai/skill-insight install

快速体验

安装完成后，即可开始第一次观测（以OpenCode为例）：

打开 OpenCode 终端
执行一个简单任务：
```
你好，请介绍一下你自己
```
打开浏览器 访问 http://localhost:3000，并登陆初始账号admin，在主页面可以看到刚才执行的记录

🎉 恭喜！您已完成第一次数据采集与观测。

更多功能，请参考用户手册

📂 项目结构

.
├── src/                          # 看板前端 + 后端 API
│   ├── app/api/                  # API 路由
│   │   ├── setup/                # 一键配置脚本生成
│   │   ├── skills/               # Skill CRUD、版本管理、上传下载
│   │   ├── sync/                 # Skill 同步与 Manifest
│   │   ├── upload/               # 执行数据上报
│   │   ├── auth/                 # API Key 用户认证
│   │   └── ...                   # 评估、配置、设置等
│   ├── components/               # React UI 组件
│   └── lib/                      # 核心逻辑
│       ├── auth.ts               # 通用认证模块
│       ├── judge.ts              # LLM 自动判题引擎
│       ├── data-service.ts       # 数据读写服务
│       └── prisma.ts             # 数据库客户端
├── prisma/schema.prisma          # 数据库模型定义
├── scripts/                      # 核心采集脚本
│   └── opencode_plugin.ts        # OpenCode 原生插件
├── public/sync_skills.ts         # 客户端 Skill 同步工具
├── skill/                        # 预置 Skill 示例库
├── docs/                         # 文档与架构图
└── .env.example                  # 环境变量模板

🗺️ Roadmap

当前已实现 ✅

[x] 无感采集与接入：OpenCode, Claude Code, OpenClaw 无侵入数据采集
[x] 多维指标监测与对比：跨模型/框架维度的 Latency, Token, Accuracy 对比
[x] LLM 自动评分与深度归因：基于标准的判题机制，精准区分模型能力缺失与 Skill 缺陷
[x] Skill 版本管理与同步：版本隔离、跨框架代码分发
[x] 数据集管理 — 统一管理和分享标准评测数据集
[x] Skill 自动生成：基于案例文档自动提取 Skill 并执行文本聚类合并相似项
[x] Skill 自优化：基于动静态评估反思机制，驱动 Agent 自动演化为高质量 Skill
[x] 用户管理：多用户隔离与 API Key 认证机制
[x] Skill 可视化 — 独立展示 Skill 的执行流程与控制流结构

计划中 🚧

[ ] 团队协作 — 团队资源共享、权限隔离与防并发冲突机制
[ ] 成本控制优化 — 细粒度 Token 消耗分布分析与改进建议
[ ] 多Skill关联分析 — 分析 Skill 之间的依赖关系，优化执行效率

📄 License

MIT