@cyberlangke/tokkit-mosaicml
v1.11.0
Published
MosaicML model aliases for tokkit.
Readme
@cyberlangke/tokkit-mosaicml
MosaicML 官方文本模型的 tokkit 子包。
当前纳入的官方主线模型:
mosaicml/mpt-7bmosaicml/mpt-7b-8kmosaicml/mpt-7b-storywritermosaicml/mpt-30b
当前不纳入:
mosaicml/mpt-7b-instructmosaicml/mpt-7b-8k-instructmosaicml/mpt-30b-instructmosaicml/mpt-7b-chatmosaicml/mpt-7b-8k-chatmosaicml/mpt-30b-chatmosaicml/mpt-1b-redpajama-200b
说明:
- 当前纳入模型按公开说明与本地 hash 核对,复用
EleutherAI/gpt-neox-20b对应的pythiafamily。 - 该子包不重复分发 tokenizer 快照,只注册 MosaicML 的官方模型别名。
使用方法
npm install @cyberlangke/tokkit-mosaicmlimport { getEncoding } from "@cyberlangke/tokkit-mosaicml"
const tokenizer = await getEncoding("mosaicml/mpt-7b")
console.log(tokenizer.encode("Hello, MosaicML!"))