@talent-scout/data-processor
v0.1.1
Published
[](https://github.com/presence-io/talent-scout/actions/workflows/publish.yml) [ = 1 - \prod_i (1 - p_i) $$
这样做的好处是:
- 强信号可以直接拉高置信度
- 多个中弱信号可以自然叠加
- 没有信号时不会虚构高分
3. 规则评分只负责“稳定、可解释”的部分
scoring.ts 只做那些能从 profile 和 repo 特征中稳定算出的维度,例如:
- stars、followers、语言多样性、最近活跃月数
- fork 比例
- 热点追逐和批量 fork 这类反模式
灰区身份和深度技术判断留给 @talent-scout/ai-evaluator。
实现流
flowchart LR
A[raw signals] --> B[merge.ts]
B --> C[identity.ts]
C --> D[scoring.ts]
D --> E[processed/<timestamp>]算法取舍
- 合并阶段按信号来源去重,避免同一事件在多个采集器里重复加分
- 身份识别保留灰区区间,交给 AI 再判断,而不是强行二分类
- 评分优先保证解释性,避免在规则层引入难以维护的黑盒模型
调试建议
- 身份误判优先跑
validate:identity看规则层命中情况 - 如果某类候选人被系统性低估,先检查 merge 和特征提取,再讨论阈值
- 修改评分公式时,要同时关注
ai-evaluator的最终排序是否发生不合理漂移
