astron-eval

v0.0.3

Published

a month ago

星评测技能套件，致力于模型&应用评测的标准化建设与自动化革新

0High
0Medium
0Low

daocoder

evaluation model-testing ai-evaluation claude-code skills

AstronEval

AI 模型评测工具集，用于评估模型输出质量和对比 Claude 模型在技能执行中的表现。

技能

| 技能 | 说明 | |------|------| | astron-eval | 评测路由 — AstronEval 的统一入口，根据用户意图自动路由到对应的评测子技能 | | model-evaluation | 模型质量评测 — 评测 AI 模型在真实业务任务上的输出质量，支持上传评测集、配置评测维度、提交任务、查看进度和结果 | | skill-driven-eval | 技能驱动评测 — 对比不同 Claude 模型（Opus vs Sonnet）执行同一技能时的效果、速度、token 消耗和成本收益，通过盲评生成数据驱动的对比报告 |

使用场景

模型质量评测（model-evaluation）

当你需要：

评测大模型在问答、文案生成、信息分析等业务场景的输出质量
上传评测集并配置评测维度
提交评测任务并查看进度和结果
恢复中断的评测任务

示例：

我有个 csv 文件，里面是大模型生成的 500 条文案。
老板让我评测一下质量，看看哪些维度表现好哪些不行。
文件在 ~/Downloads/marketing_outputs.csv

技能驱动评测（skill-driven-eval）

当你需要：

对比不同 Claude 模型执行某个技能的效果
评估是否值得为某个技能升级到更贵的模型
了解质量、速度、token 消耗之间的权衡

示例：

帮我对比一下用 opus 和 sonnet 跑我们的 customer-service 技能，
哪个更划算？我们每天要处理 1000 个客服对话，
想看看成本和质量的 trade-off

工作流

模型质量评测流程

初始化 → 构建配置 → 执行评测 → 查看结果

初始化：环境检测、鉴权验证、会话目录创建
构建配置：场景识别、维度配置、评测集处理
执行评测：任务提交、状态监控
查看结果：结果展示、报告生成

技能驱动评测流程

理解技能 → 生成测试用例 → 执行测试 → 盲评打分 → 生成报告

理解技能：读取目标技能的定义和要求
生成测试用例：创建覆盖不同场景的测试用例
执行测试：使用不同模型并行执行测试用例
盲评打分：评分者不知道模型身份，消除偏差
生成报告：汇总结果，生成可视化对比报告

安装

AstronEval 安装方式，将技能安装到 Claude Code 的技能目录。

npx 安装

# 安装到当前项目 ./.claude/skills/
npx astron-eval --local --claude

# 全局安装到 ~/.claude/skills/
npx astron-eval

# 指定版本
npx [email protected] --local

技能触发测试

项目包含完整的技能触发验证用例，位于 tests/skill-triggering/：

astron-eval_triggers.json - astron-eval 路由技能的触发测试
model_evaluation_triggers.json - model-evaluation 技能的触发测试
skill_driven_eval_triggers.json - skill-driven-eval 技能的触发测试

目录结构

astron-eval/
├── skills/                          # 技能定义
│   ├── astron-eval/                 # 路由技能
│   ├── model-evaluation/            # 模型质量评测
│   └── skill-driven-eval/           # 技能驱动评测
│       ├── agents/                  # 子智能体定义
│       ├── eval-viewer/             # 可视化报告生成器
│       ├── references/              # 参考文档
│       └── scripts/                 # 评测脚本
└── tests/                           # 测试用例
    └── skill-triggering/            # 技能触发验证用例

依赖

Python 3.10+
评测服务 API 访问权限（用于 model-evaluation）
Claude Code CLI（用于 skill-driven-eval）

贡献

欢迎提交 Issue 和 Pull Request。

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme