@cyberlangke/tokkit-aidc-ai
v1.11.0
Published
AIDC-AI tokenizer families for tokkit.
Readme
@cyberlangke/tokkit-aidc-ai
AIDC-AI 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
marco-o1- 覆盖
AIDC-AI/Marco-o1
- 覆盖
当前复用的既有 family:
qwen2- 覆盖
AIDC-AI/Marco-LLM-ES
- 覆盖
qwen2.5- 覆盖
AIDC-AI/Marco-Nano-Instruct - 覆盖
AIDC-AI/Marco-Mini-Global-Base - 覆盖
AIDC-AI/Marco-Mini-Base - 覆盖
AIDC-AI/Marco-Nano-Base - 覆盖
AIDC-AI/Marco-LLM-SEA - 覆盖
AIDC-AI/Marco-LLM-AR-V4 - 覆盖
AIDC-AI/Marco-LLM-AR-V2
- 覆盖
说明:
- 当前只纳入
AIDC-AI官方组织下公开tokenizer.json、非 gated、license: apache-2.0且model.type = BPE的文本模型。 Marco-Nano-Instruct、Marco-Mini-Global-Base、Marco-Mini-Base、Marco-Nano-Base、Marco-LLM-SEA、Marco-LLM-AR-V4、Marco-LLM-AR-V2的tokenizer.jsonSHA256 一致,因此复用qwen2.5。Marco-LLM-ES的tokenizer.jsonSHA256 与qwen2一致,因此复用qwen2。Marco-o1的tokenizer.jsonSHA256 未命中仓库现有快照,因此单独提供marco-o1family。
使用方法
npm install @cyberlangke/tokkit-aidc-aiimport { getTokenizer } from "@cyberlangke/tokkit-aidc-ai"
const marcoO1 = await getTokenizer("AIDC-AI/Marco-o1")
const marcoEs = await getTokenizer("AIDC-AI/Marco-LLM-ES")
console.log(marcoO1 !== marcoEs)