@cyberlangke/tokkit-skt
v1.11.0
Published
SKT tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-skt
SKT 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
ax-3.1- 覆盖
skt/A.X-3.1
- 覆盖
ax-light- 覆盖
skt/A.X-3.1-Light - 也聚合当前确认完全复用同一 tokenizer 的
skt/A.X-4.0-Light
- 覆盖
ax-k1- 覆盖
skt/A.X-K1
- 覆盖
当前不纳入:
skt/A.X-4.0skt/kogpt2-base-v2skt/ko-gpt-trinity-1.2B-v0.5
说明:
A.X-3.1-Light与A.X-4.0-Light的tokenizer.jsonSHA256 一致,因此收口到同一个ax-lightfamily。A.X-3.1、A.X-K1的tokenizer.jsonSHA256 都与ax-light不同,因此分别保留独立 family。A.X-4.0当前模型页许可证是other,不进入当前 Apache-2.0 子包。kogpt2-base-v2与ko-gpt-trinity-1.2B-v0.5当前模型页许可证是cc-by-nc-sa-4.0,不进入当前 Apache-2.0 子包。
使用方法
npm install @cyberlangke/tokkit-sktimport { getTokenizer } from "@cyberlangke/tokkit-skt"
const base = await getTokenizer("ax-3.1")
const light = await getTokenizer("skt/A.X-4.0-Light")
console.log(base.encode("Hello, SKT!"))
console.log(light.encode("Hello, SKT!"))