@cyberlangke/tokkit-ibm-research
v1.11.0
Published
IBM Research tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-ibm-research
IBM Research 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
powerlm- 覆盖
ibm-research/PowerLM-3b - 也聚合当前确认完全复用同一 tokenizer 的
ibm-research/PowerMoE-3b
- 覆盖
molm- 覆盖
ibm-research/MoLM-350M-4B - 也聚合当前确认完全复用同一 tokenizer 的:
ibm-research/MoLM-700M-4Bibm-research/MoLM-700M-8B
- 覆盖
当前不纳入:
ibm-research/gpt2-medium-multiexitibm-research/gpt-neo-125m-multiexitibm-research/mpt-7b-instruct2ibm-research/merlinite-7bGGUF等量化 / 导出对象
说明:
PowerLM-3b与PowerMoE-3b的tokenizer.jsonSHA256 一致,因此收口到同一个powerlmfamily。MoLM-350M-4B、MoLM-700M-4B与MoLM-700M-8B的tokenizer.jsonSHA256 一致,因此收口到同一个molmfamily。
使用方法
npm install @cyberlangke/tokkit-ibm-researchimport { getTokenizer } from "@cyberlangke/tokkit-ibm-research"
const powerlm = await getTokenizer("powerlm")
const molm = await getTokenizer("ibm-research/MoLM-700M-8B")
console.log(powerlm.encode("Hello, IBM Research!"))
console.log(molm.encode("Hello, IBM Research!"))