@cyberlangke/tokkit
v1.11.0
Published
A tokenizer library for counting tokens.
Readme
@cyberlangke/tokkit
tokkit 就是用来分词和计 token 数的库。
支持的模型
01-ai/Yi-6B01-ai/Yi-1.5-9B-Chat01-ai/Yi-Coder-9B01-ai/Yi-Coder-9B-ChatEleutherAI/gpt-j-6bEleutherAI/gpt-neox-20bHuggingFaceTB/cosmo-1bQwen/Qwen3.5-0.8BQwen/Qwen3.5-27BQwen/Qwen3.5-397B-A17BQwen/Qwen3-Coder-Nextdeepseek-ai/DeepSeek-V3.1deepseek-ai/DeepSeek-V3.2zai-org/GLM-4.7zai-org/GLM-5zai-org/GLM-Z1-32B-0414stepfun-ai/Step-3.5-Flash
使用方法
npm install @cyberlangke/tokkitimport { countTokens, encode, decode } from "@cyberlangke/tokkit"
// 直接按 family 名编码文本。
const ids = await encode("Hello, world!", "qwen3.5", {
addSpecialTokens: false,
})
// 再把 token ids 还原成文本。
const text = await decode(ids, "qwen3.5")
// 统计 token 数量。
const count = await countTokens("Hello, world!", "qwen3.5", {
addSpecialTokens: false,
})
console.log(ids, text, count)import { getTokenizer } from "@cyberlangke/tokkit"
// 用 family 名获取 tokenizer。
const familyTokenizer = await getTokenizer("qwen3.5")
// 用具体模型名获取同一个 tokenizer family。
const modelTokenizer = await getTokenizer("Qwen/Qwen3.5-27B")
console.log(familyTokenizer === modelTokenizer) // true