@cyberlangke/tokkit-openbmb
v1.11.0
Published
OpenBMB tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-openbmb
OpenBMB 官方 tokenizer 的 tokkit 子包,当前包含 OpenBMB 官方纯文本主线里已确认复用的 tokenizer family。
支持的模型
minicpm-s-1b- 历史兼容 family
openbmb/MiniCPM-S-1B-sft
minicpm-salaminicpm3minicpm4
说明
MiniCPM4/MiniCPM4.1/BitCPM4/NOSA当前官方tokenizer.jsonhash 完全一致,因此统一复用minicpm4family。MiniCPM4-Survey、MiniCPM4-MCP、AgentCPM-*这类专用派生线不作为当前主线支持目标。
使用方法
npm install @cyberlangke/tokkit-openbmbimport { getTokenizer } from "@cyberlangke/tokkit-openbmb"
const tokenizer = await getTokenizer("bitcpm4")
console.log(tokenizer.vocabSize)