@cyberlangke/tokkit-eleutherai
v1.11.0
Published
EleutherAI tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-eleutherai
EleutherAI 官方 tokenizer 的 tokkit 子包,当前包含 GPT-Neo、GPT-J、GPT-NeoX、Pythia、Polyglot 主线文本模型。
支持的模型
EleutherAI/gpt-neo-125mEleutherAI/gpt-j-6bEleutherAI/gpt-neox-20bEleutherAI/pythia-14mEleutherAI/pythia-12bEleutherAI/polyglot-ko-12.8b
使用方法
npm install @cyberlangke/tokkit-eleutheraiimport { getTokenizer } from "@cyberlangke/tokkit-eleutherai"
const gptNeo = await getTokenizer("gpt-neo")
const gptJ = await getTokenizer("EleutherAI/gpt-j-6b")
console.log(gptNeo === gptJ) // true
const pythia = await getTokenizer("pythia")
const gptNeox = await getTokenizer("EleutherAI/gpt-neox-20b")
console.log(pythia === gptNeox) // true