npm package discovery and stats viewer.

Discover Tips

  • General search

    [free text search, go nuts!]

  • Package details

    pkg:[package-name]

  • User packages

    @[username]

Sponsor

Optimize Toolset

I’ve always been into building performant and accessible sites, but lately I’ve been taking it extremely seriously. So much so that I’ve been building a tool to help me optimize and monitor the sites that I build to make sure that I’m making an attempt to offer the best experience to those who visit them. If you’re into performant, accessible and SEO friendly sites, you might like it too! You can check it out at Optimize Toolset.

About

Hi, 👋, I’m Ryan Hefner  and I built this site for me, and you! The goal of this site was to provide an easy way for me to check the stats on my npm packages, both for prioritizing issues and updates, and to give me a little kick in the pants to keep up on stuff.

As I was building it, I realized that I was actually using the tool to build the tool, and figured I might as well put this out there and hopefully others will find it to be a fast and useful way to search and browse npm packages as I have.

If you’re interested in other things I’m working on, follow me on Twitter or check out the open source projects I’ve been publishing on GitHub.

I am also working on a Twitter bot for this site to tweet the most popular, newest, random packages from npm. Please follow that account now and it will start sending out packages soon–ish.

Open Software & Tools

This site wouldn’t be possible without the immense generosity and tireless efforts from the people who make contributions to the world and share their work via open source initiatives. Thank you 🙏

© 2026 – Pkg Stats / Ryan Hefner

astron-eval

v0.0.3

Published

星评测技能套件,致力于模型&应用评测的标准化建设与自动化革新

Readme

AstronEval

AI 模型评测工具集,用于评估模型输出质量和对比 Claude 模型在技能执行中的表现。

技能

| 技能 | 说明 | |------|------| | astron-eval | 评测路由 — AstronEval 的统一入口,根据用户意图自动路由到对应的评测子技能 | | model-evaluation | 模型质量评测 — 评测 AI 模型在真实业务任务上的输出质量,支持上传评测集、配置评测维度、提交任务、查看进度和结果 | | skill-driven-eval | 技能驱动评测 — 对比不同 Claude 模型(Opus vs Sonnet)执行同一技能时的效果、速度、token 消耗和成本收益,通过盲评生成数据驱动的对比报告 |

使用场景

模型质量评测(model-evaluation)

当你需要:

  • 评测大模型在问答、文案生成、信息分析等业务场景的输出质量
  • 上传评测集并配置评测维度
  • 提交评测任务并查看进度和结果
  • 恢复中断的评测任务

示例:

我有个 csv 文件,里面是大模型生成的 500 条文案。
老板让我评测一下质量,看看哪些维度表现好哪些不行。
文件在 ~/Downloads/marketing_outputs.csv

技能驱动评测(skill-driven-eval)

当你需要:

  • 对比不同 Claude 模型执行某个技能的效果
  • 评估是否值得为某个技能升级到更贵的模型
  • 了解质量、速度、token 消耗之间的权衡

示例:

帮我对比一下用 opus 和 sonnet 跑我们的 customer-service 技能,
哪个更划算?我们每天要处理 1000 个客服对话,
想看看成本和质量的 trade-off

工作流

模型质量评测流程

初始化 → 构建配置 → 执行评测 → 查看结果
  1. 初始化:环境检测、鉴权验证、会话目录创建
  2. 构建配置:场景识别、维度配置、评测集处理
  3. 执行评测:任务提交、状态监控
  4. 查看结果:结果展示、报告生成

技能驱动评测流程

理解技能 → 生成测试用例 → 执行测试 → 盲评打分 → 生成报告
  1. 理解技能:读取目标技能的定义和要求
  2. 生成测试用例:创建覆盖不同场景的测试用例
  3. 执行测试:使用不同模型并行执行测试用例
  4. 盲评打分:评分者不知道模型身份,消除偏差
  5. 生成报告:汇总结果,生成可视化对比报告

安装

AstronEval 安装方式,将技能安装到 Claude Code 的技能目录。

npx 安装

# 安装到当前项目 ./.claude/skills/
npx astron-eval --local --claude

# 全局安装到 ~/.claude/skills/
npx astron-eval

# 指定版本
npx [email protected] --local

技能触发测试

项目包含完整的技能触发验证用例,位于 tests/skill-triggering/

  • astron-eval_triggers.json - astron-eval 路由技能的触发测试
  • model_evaluation_triggers.json - model-evaluation 技能的触发测试
  • skill_driven_eval_triggers.json - skill-driven-eval 技能的触发测试

目录结构

astron-eval/
├── skills/                          # 技能定义
│   ├── astron-eval/                 # 路由技能
│   ├── model-evaluation/            # 模型质量评测
│   └── skill-driven-eval/           # 技能驱动评测
│       ├── agents/                  # 子智能体定义
│       ├── eval-viewer/             # 可视化报告生成器
│       ├── references/              # 参考文档
│       └── scripts/                 # 评测脚本
└── tests/                           # 测试用例
    └── skill-triggering/            # 技能触发验证用例

依赖

  • Python 3.10+
  • 评测服务 API 访问权限(用于 model-evaluation)
  • Claude Code CLI(用于 skill-driven-eval)

贡献

欢迎提交 Issue 和 Pull Request。