@cyberlangke/tokkit

v1.11.0

Published

3 months ago

A tokenizer library for counting tokens.

0High
0Medium
0Low

cyberlangke

@cyberlangke/tokkit

tokkit 就是用来分词和计 token 数的库。

支持的模型

01-ai/Yi-6B
01-ai/Yi-1.5-9B-Chat
01-ai/Yi-Coder-9B
01-ai/Yi-Coder-9B-Chat
EleutherAI/gpt-j-6b
EleutherAI/gpt-neox-20b
HuggingFaceTB/cosmo-1b
Qwen/Qwen3.5-0.8B
Qwen/Qwen3.5-27B
Qwen/Qwen3.5-397B-A17B
Qwen/Qwen3-Coder-Next
deepseek-ai/DeepSeek-V3.1
deepseek-ai/DeepSeek-V3.2
zai-org/GLM-4.7
zai-org/GLM-5
zai-org/GLM-Z1-32B-0414
stepfun-ai/Step-3.5-Flash

使用方法

npm install @cyberlangke/tokkit

import { countTokens, encode, decode } from "@cyberlangke/tokkit"

// 直接按 family 名编码文本。
const ids = await encode("Hello, world!", "qwen3.5", {
  addSpecialTokens: false,
})

// 再把 token ids 还原成文本。
const text = await decode(ids, "qwen3.5")

// 统计 token 数量。
const count = await countTokens("Hello, world!", "qwen3.5", {
  addSpecialTokens: false,
})

console.log(ids, text, count)

import { getTokenizer } from "@cyberlangke/tokkit"

// 用 family 名获取 tokenizer。
const familyTokenizer = await getTokenizer("qwen3.5")

// 用具体模型名获取同一个 tokenizer family。
const modelTokenizer = await getTokenizer("Qwen/Qwen3.5-27B")

console.log(familyTokenizer === modelTokenizer) // true

Pkg
Stats

Discover Tips

General search

Package details

User packages

Sponsor

About

Twitter

GitHub

Twitter

GitHub

Site

Open Software & Tools

Framework

Server

Data Store

Caching

CSS / Styling

Typeface

Avatars

Data Viz

Date formatting

Infinite scrolling

Markdown rendering

Repository url parsing

User data

Compiling

Types

Odds & Ends

@cyberlangke/tokkit

v1.11.0

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme

@cyberlangke/tokkit

支持的模型

使用方法