@cyberlangke/tokkit-cerebras
v1.11.0
Published
Cerebras tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-cerebras
Cerebras 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
cerebras-gpt- 覆盖
cerebras/Cerebras-GPT-111M - 也聚合当前确认完全复用同一 tokenizer 的
cerebras/Cerebras-GPT-256M - 也聚合当前确认完全复用同一 tokenizer 的
cerebras/Cerebras-GPT-590M - 也聚合当前确认完全复用同一 tokenizer 的
cerebras/Cerebras-GPT-1.3B - 也聚合当前确认完全复用同一 tokenizer 的
cerebras/Cerebras-GPT-2.7B - 也聚合当前确认完全复用同一 tokenizer 的
cerebras/Cerebras-GPT-6.7B - 也聚合当前确认完全复用同一 tokenizer 的
cerebras/Cerebras-GPT-13B - 也聚合当前确认完全复用同一 tokenizer 的
cerebras/btlm-3b-8k-base
- 覆盖
btlm-3b-8k-chat- 覆盖
cerebras/btlm-3b-8k-chat
- 覆盖
当前不纳入:
cerebras/REAP-*cerebras/Cerebras-LLaVA-*cerebras/DocChat*cerebras/Llama-*CBHybrid*cerebras/Cerebras-GPT-Intermediate
说明:
cerebras/Cerebras-GPT-*与cerebras/btlm-3b-8k-base的tokenizer.jsonSHA256 一致,因此统一收口到cerebras-gpt。cerebras/btlm-3b-8k-chat使用另一组 tokenizer,因此单独保留btlm-3b-8k-chatfamily。- 为了兼容按模型线调用,
btlm-3b-8k作为cerebras-gpt的 family alias 保留。
使用方法
npm install @cyberlangke/tokkit-cerebrasimport { getTokenizer } from "@cyberlangke/tokkit-cerebras"
const gpt = await getTokenizer("cerebras/Cerebras-GPT-13B")
const btlmBase = await getTokenizer("btlm-3b-8k")
const btlmChat = await getTokenizer("cerebras/btlm-3b-8k-chat")
console.log(gpt === btlmBase)
console.log(btlmChat.encode("Hello from Cerebras"))