@cyberlangke/tokkit-deci
v1.11.0
Published
Deci tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-deci
Deci 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
decicoder-1b- 覆盖
Deci/DeciCoder-1b
- 覆盖
mistral-7b-v0.1- 额外接受
Deci/DeciLM-7B - 额外接受
Deci/DeciLM-7B-instruct
- 额外接受
说明:
- 当前只纳入
Deci官方组织下公开tokenizer.json、非 gated 且license: apache-2.0的文本主线。 DeciLM-6b、DeciLM-6b-instruct当前是license: llama2,不纳入。DeciCoder-6B当前缺少tokenizer.json,不纳入。DeciLM-7B、DeciLM-7B-instruct的tokenizer.jsonSHA256 与现有mistral-7b-v0.1一致,因此作为模型别名复用。DeciCoder-1b的tokenizer.jsonSHA256 未命中当前仓库已有快照,因此单独保留为decicoder-1bfamily。
使用方法
npm install @cyberlangke/tokkit-deciimport { getTokenizer } from "@cyberlangke/tokkit-deci"
const coder = await getTokenizer("Deci/DeciCoder-1b")
const lm = await getTokenizer("Deci/DeciLM-7B-instruct")
console.log(coder !== lm)