@cyberlangke/tokkit-dream-org
v1.11.0
Published
Dream-org tokenizer families for tokkit.
Downloads
16
Readme
@cyberlangke/tokkit-dream-org
Dream-org 官方文本 tokenizer 的 tokkit 子包。
当前内置 family:
dream-v0- 覆盖
Dream-org/Dream-v0-Base-7B - 也聚合当前确认完全复用同一 tokenizer 的:
Dream-org/Dream-v0-Instruct-7BDream-org/Dream-Coder-v0-Base-7BDream-org/Dream-Coder-v0-Instruct-7B
- 覆盖
dreamon-v0- 覆盖
Dream-org/DreamOn-v0-7B
- 覆盖
说明:
- 当前纳入范围只包含
Dream-org官方组织下公开的纯文本主线模型。 Dream-v0-*与Dream-Coder-v0-*官方仓库没有直接提供tokenizer.json;当前快照由官方vocab.json、merges.txt、added_tokens.json、tokenizer_config.json按官方 slow tokenizer 规则组装成 HF 风格tokenizer.json后压缩入库。DreamOn-v0-7B在同一条 regex / ByteLevel 规则上使用独立vocab与added_tokens,因此单独保留为dreamon-v0family。
使用方法
npm install @cyberlangke/tokkit-dream-orgimport { getTokenizer } from "@cyberlangke/tokkit-dream-org"
const dream = await getTokenizer("Dream-org/Dream-Coder-v0-Instruct-7B")
const dreamon = await getTokenizer("dreamon-v0")
console.log(dream === dreamon)