@cyberlangke/tokkit-baidu
v1.11.0
Published
baidu tokenizer families for tokkit.
Downloads
68
Readme
@cyberlangke/tokkit-baidu
baidu 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
ernie-4.5- 覆盖
baidu/ERNIE-4.5-0.3B-PT - 覆盖
baidu/ERNIE-4.5-0.3B-Base-PT - 覆盖
baidu/ERNIE-4.5-21B-A3B-PT - 覆盖
baidu/ERNIE-4.5-21B-A3B-Base-PT - 覆盖
baidu/ERNIE-4.5-300B-A47B-PT - 覆盖
baidu/ERNIE-4.5-300B-A47B-Base-PT
- 覆盖
ernie-4.5-thinking- 覆盖
baidu/ERNIE-4.5-21B-A3B-Thinking
- 覆盖
说明:
- 当前只纳入
baidu官方组织下公开tokenizer.json、license: apache-2.0的官方 PT 主线。 - 上述
6个PT / Base-PT官方模型的tokenizer.jsonSHA256 都是4e5b4d49475d27c7ef7a61eea2d675f9cc013e91e3ddb5e06d964f5027c1814a,因此收口为同一个ernie-4.5family。 baidu/ERNIE-4.5-21B-A3B-Thinking的tokenizer.jsonSHA256 是93a291ef6e5c89e6c0f2d5d004734ff429faa8ab925e39d71d2374b3d0daf49e,当前收口为ernie-4.5-thinkingfamily。baidu/*Paddle*当前是导出格式变体,且没有当前流水线要求的标准tokenizer.json,不进入当前文本 BPE 主线。
使用方法
npm install @cyberlangke/tokkit-baiduimport { getEncoding } from "@cyberlangke/tokkit-baidu"
const tokenizer = await getEncoding("baidu/ERNIE-4.5-21B-A3B-PT")
const sameTokenizer = await getEncoding("ernie-4.5")
console.log(tokenizer === sameTokenizer)