@cyberlangke/tokkit-zyphra
v1.11.0
Published
Zyphra tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-zyphra
Zyphra 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
zamba-7b-v1- 覆盖
Zyphra/Zamba-7B-v1
- 覆盖
zamba2-1.2b- 覆盖
Zyphra/Zamba2-1.2B
- 覆盖
zamba2-2.7b- 覆盖
Zyphra/Zamba2-2.7B
- 覆盖
zamba2-instruct- 覆盖
Zyphra/Zamba2-1.2B-instruct - 也聚合当前确认完全复用同一 tokenizer 的
Zyphra/Zamba2-2.7B-instruct - 也聚合当前确认完全复用同一 tokenizer 的
Zyphra/Zamba2-7B-Instruct
- 覆盖
zamba2-instruct-v2- 覆盖
Zyphra/Zamba2-1.2B-Instruct-v2 - 也聚合当前确认完全复用同一 tokenizer 的
Zyphra/Zamba2-2.7B-Instruct-v2 - 也聚合当前确认完全复用同一 tokenizer 的
Zyphra/Zamba2-7B-Instruct-v2
- 覆盖
zr1-1.5b- 覆盖
Zyphra/ZR1-1.5B
- 覆盖
zaya1- 覆盖
Zyphra/ZAYA1-base - 也聚合当前确认完全复用同一 tokenizer 的
Zyphra/ZAYA1-reasoning-base
- 覆盖
当前不纳入:
Zyphra/Zamba-7B-v1-phase1Zyphra/Zamba2-7BZyphra/BlackMamba-*Zyphra/Mamba-370MZyphra/ZUNA
说明:
Zamba2当前存在多组彼此不同的 tokenizer,不能先验假设整个系列只复用一个 family。Zyphra/Zamba2-7B当前是 gated 模型,匿名环境下无法稳定取得公开 tokenizer 快照,因此暂不并入当前公开子包。Zyphra/ZR1-1.5B虽然model_type是qwen2,但tokenizer.jsonhash 与当前仓库内已有qwen2family 不同,因此单独保留zr1-1.5bfamily。Zyphra/ZAYA1-base与Zyphra/ZAYA1-reasoning-base的tokenizer.jsonSHA256 一致,因此收口到同一个zaya1family。
使用方法
npm install @cyberlangke/tokkit-zyphraimport { getTokenizer } from "@cyberlangke/tokkit-zyphra"
const zamba = await getTokenizer("zamba-7b-v1")
const zaya = await getTokenizer("Zyphra/ZAYA1-reasoning-base")
console.log(zamba.encode("Hello, Zyphra!"))
console.log(zaya.encode("Hello, Zyphra!"))