@cyberlangke/tokkit-gsai-ml
v1.11.0
Published
GSAI-ML tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-gsai-ml
GSAI-ML 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
llada- 覆盖
GSAI-ML/LLaDA-8B-Instruct - 也聚合当前确认完全复用同一 tokenizer 的
GSAI-ML/LLaDA-1.5
- 覆盖
llada-base- 覆盖
GSAI-ML/LLaDA-8B-Base
- 覆盖
refusion- 覆盖
GSAI-ML/ReFusion
- 覆盖
说明:
LLaDA-8B-Instruct与LLaDA-1.5的导出tokenizer.jsonSHA256 一致,因此收口到同一个lladafamily。LLaDA-8B-Base的tokenizer.jsonSHA256 与llada不同,因此保留独立的llada-basefamily。ReFusion官方仓库不直接公开tokenizer.json,当前快照来自官方AutoTokenizer.from_pretrained(...).save_pretrained()基于仓库内vocab.json/merges.txt/added_tokens.json导出的标准tokenizer.json。
使用方法
npm install @cyberlangke/tokkit-gsai-mlimport { getTokenizer } from "@cyberlangke/tokkit-gsai-ml"
const llada = await getTokenizer("llada")
const refusion = await getTokenizer("GSAI-ML/ReFusion")
console.log(llada.encode("Hello, GSAI!"))
console.log(refusion.encode("Hello, GSAI!"))