astron-eval
v0.0.3
Published
星评测技能套件,致力于模型&应用评测的标准化建设与自动化革新
Maintainers
Readme
AstronEval
AI 模型评测工具集,用于评估模型输出质量和对比 Claude 模型在技能执行中的表现。
技能
| 技能 | 说明 | |------|------| | astron-eval | 评测路由 — AstronEval 的统一入口,根据用户意图自动路由到对应的评测子技能 | | model-evaluation | 模型质量评测 — 评测 AI 模型在真实业务任务上的输出质量,支持上传评测集、配置评测维度、提交任务、查看进度和结果 | | skill-driven-eval | 技能驱动评测 — 对比不同 Claude 模型(Opus vs Sonnet)执行同一技能时的效果、速度、token 消耗和成本收益,通过盲评生成数据驱动的对比报告 |
使用场景
模型质量评测(model-evaluation)
当你需要:
- 评测大模型在问答、文案生成、信息分析等业务场景的输出质量
- 上传评测集并配置评测维度
- 提交评测任务并查看进度和结果
- 恢复中断的评测任务
示例:
我有个 csv 文件,里面是大模型生成的 500 条文案。
老板让我评测一下质量,看看哪些维度表现好哪些不行。
文件在 ~/Downloads/marketing_outputs.csv技能驱动评测(skill-driven-eval)
当你需要:
- 对比不同 Claude 模型执行某个技能的效果
- 评估是否值得为某个技能升级到更贵的模型
- 了解质量、速度、token 消耗之间的权衡
示例:
帮我对比一下用 opus 和 sonnet 跑我们的 customer-service 技能,
哪个更划算?我们每天要处理 1000 个客服对话,
想看看成本和质量的 trade-off工作流
模型质量评测流程
初始化 → 构建配置 → 执行评测 → 查看结果- 初始化:环境检测、鉴权验证、会话目录创建
- 构建配置:场景识别、维度配置、评测集处理
- 执行评测:任务提交、状态监控
- 查看结果:结果展示、报告生成
技能驱动评测流程
理解技能 → 生成测试用例 → 执行测试 → 盲评打分 → 生成报告- 理解技能:读取目标技能的定义和要求
- 生成测试用例:创建覆盖不同场景的测试用例
- 执行测试:使用不同模型并行执行测试用例
- 盲评打分:评分者不知道模型身份,消除偏差
- 生成报告:汇总结果,生成可视化对比报告
安装
AstronEval 安装方式,将技能安装到 Claude Code 的技能目录。
npx 安装
# 安装到当前项目 ./.claude/skills/
npx astron-eval --local --claude
# 全局安装到 ~/.claude/skills/
npx astron-eval
# 指定版本
npx [email protected] --local技能触发测试
项目包含完整的技能触发验证用例,位于 tests/skill-triggering/:
astron-eval_triggers.json- astron-eval 路由技能的触发测试model_evaluation_triggers.json- model-evaluation 技能的触发测试skill_driven_eval_triggers.json- skill-driven-eval 技能的触发测试
目录结构
astron-eval/
├── skills/ # 技能定义
│ ├── astron-eval/ # 路由技能
│ ├── model-evaluation/ # 模型质量评测
│ └── skill-driven-eval/ # 技能驱动评测
│ ├── agents/ # 子智能体定义
│ ├── eval-viewer/ # 可视化报告生成器
│ ├── references/ # 参考文档
│ └── scripts/ # 评测脚本
└── tests/ # 测试用例
└── skill-triggering/ # 技能触发验证用例依赖
- Python 3.10+
- 评测服务 API 访问权限(用于 model-evaluation)
- Claude Code CLI(用于 skill-driven-eval)
贡献
欢迎提交 Issue 和 Pull Request。
