@cyberlangke/tokkit-moonshotai
v1.11.0
Published
moonshotai tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-moonshotai
moonshotai 官方文本 tokenizer 的 tokkit 子包。
这是一个独立特殊协议子包,不包含在 @cyberlangke/tokkit 总包里。
当前内置 family:
kimi-k2- 覆盖
moonshotai/Kimi-K2-Base - 覆盖
moonshotai/Kimi-K2-Instruct - 覆盖
moonshotai/Kimi-K2-Instruct-0905 - 也聚合当前确认在 BPE / added token 行为上完全一致的:
moonshotai/Kimi-Linear-48B-A3B-Basemoonshotai/Kimi-Linear-48B-A3B-Instruct
- 覆盖
kimi-k2-thinking- 覆盖
moonshotai/Kimi-K2-Thinking - 该线额外引入了
<think>/</think>added tokens,因此与普通kimi-k2分开
- 覆盖
moonlight- 覆盖
moonshotai/Moonlight-16B-A3B - 也聚合当前确认完全复用同一 tokenizer 行为的
moonshotai/Moonlight-16B-A3B-Instruct - 该线的 added tokens 少于
kimi-k2,因此单独保留 family
- 覆盖
kimi-dev- 覆盖
moonshotai/Kimi-Dev-72B
- 覆盖
说明:
Kimi-K2-*、Moonlight-*、Kimi-Linear-*虽然共享同一份tiktoken.model,但tokenizer_config.json里的 added token 集不同,不能粗暴压成一个 family。kimi-k2的模型之间当前只观察到chat_template差异;本项目不支持 chat template,因此仍可收口到同一个 family。moonshotai/Kimi-Dev-72B当前是独立 tokenizer,不命中现有仓库 family。
使用方法
npm install @cyberlangke/tokkit-moonshotaiimport { getTokenizer } from "@cyberlangke/tokkit-moonshotai"
const shared = await getTokenizer("moonshotai/Kimi-K2-Instruct-0905")
const thinking = await getTokenizer("kimi-k2-thinking")
console.log(shared === thinking) // false