@cyberlangke/tokkit-lightonai
v1.11.0
Published
LightOn model tokenizers for tokkit.
Downloads
81
Readme
@cyberlangke/tokkit-lightonai
LightOn 官方文本模型的 tokkit 子包。
当前纳入的官方主线模型:
lightonai/pagnol-smalllightonai/pagnol-mediumlightonai/pagnol-largelightonai/pagnol-xllightonai/alfred-40b-0723lightonai/alfred-40b-1023
当前不纳入:
lightonai/RITA_slightonai/RITA_mlightonai/RITA_llightonai/RITA_xllightonai/FastVLM-*
说明:
pagnol-small、pagnol-medium、pagnol-large共享同一 tokenizer,当前收口为pagnolfamily。pagnol-xl使用独立 tokenizer,当前收口为pagnol-xlfamily。alfred-40b-0723复用现有falcon-7bfamily。alfred-40b-1023使用独立 tokenizer,当前收口为alfred-40b-1023family。RITA_*当前是蛋白质序列模型,且模型页没有稳定的 MIT / Apache-2.0 许可证信号,不进入当前文本 BPE 主线。FastVLM-*是多模态路线,不进入当前纯文本 BPE 主线。
使用方法
npm install @cyberlangke/tokkit-lightonaiimport { getEncoding } from "@cyberlangke/tokkit-lightonai"
const tokenizer = await getEncoding("lightonai/pagnol-small")
console.log(tokenizer.encode("Bonjour LightOn"))