@cyberlangke/tokkit-llm360
v1.11.0
Published
LLM360 tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-llm360
LLM360 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
snowflake-arctic-base- 复用现有 canonical family
- 覆盖
LLM360/Amber - 也聚合
LLM360/AmberChat
crystal- 覆盖
LLM360/Crystal - 也聚合
LLM360/CrystalChat
- 覆盖
k2- 覆盖
LLM360/K2
- 覆盖
k2-chat- 覆盖
LLM360/K2-Chat
- 覆盖
mimo-7b-rl-0530- 复用现有 canonical family
- 覆盖
LLM360/K2-Think
k2-think-v2- 覆盖
LLM360/K2-Think-V2
- 覆盖
当前不纳入:
LLM360/AmberSafe
说明:
- 当前纳入范围只包含
LLM360官方组织下公开可下载、apache-2.0、非 gated、且落在纯文本 BPE 范围内的文本主线。 Amber/AmberChat的tokenizer.jsonSHA256 与Snowflake/snowflake-arctic-base一致,因此复用snowflake-arctic-base。K2-Think的tokenizer.jsonSHA256 与XiaomiMiMo/MiMo-7B-RL-0530一致,因此复用mimo-7b-rl-0530。Crystal/CrystalChat、K2、K2-Chat、K2-Think-V2当前都需要独立 canonical family。AmberSafe当前没有tokenizer.json,因此不纳入这一批。
使用方法
npm install @cyberlangke/tokkit-llm360import { getTokenizer } from "@cyberlangke/tokkit-llm360"
const amber = await getTokenizer("LLM360/Amber")
const crystal = await getTokenizer("LLM360/Crystal")
const k2Think = await getTokenizer("LLM360/K2-Think")
console.log(amber !== crystal)
console.log(k2Think)