@cyberlangke/tokkit-huggingface-tb
v1.11.0
Published
HuggingFaceTB tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-huggingface-tb
HuggingFaceTB 官方 tokenizer 的 tokkit 子包,当前包含 cosmo、SmolLM、SmolLM2、SmolLM3 主线文本模型内置 family。
支持的模型
HuggingFaceTB/cosmo-1bHuggingFaceTB/SmolLM-135MHuggingFaceTB/SmolLM2-1.7BHuggingFaceTB/SmolLM2-1.7B-Instruct-16kHuggingFaceTB/SmolLM3-3BHuggingFaceTB/SmolLM3-3B-Base
cosmo-1b 的 tokenizer.json 与 mistralai/Mixtral-8x7B-v0.1 完全同 hash,但这里仍保留为 huggingface-tb 子包内的本地 family,以保持厂商包自洽。
使用方法
npm install @cyberlangke/tokkit-huggingface-tbimport { getTokenizer } from "@cyberlangke/tokkit-huggingface-tb"
const tokenizer = await getTokenizer("smollm")
const sameTokenizer = await getTokenizer("HuggingFaceTB/SmolLM2-1.7B")
console.log(tokenizer === sameTokenizer) // true