lindera-nodejs

v3.0.7

Published

a month ago

Node.js bindings for Lindera morphological analysis engine

Downloads

148

0High
0Medium
0Low

mosuka

morphological analysis tokenizer japanese korean chinese lindera napi

lindera-nodejs

Node.js binding for Lindera, a Japanese morphological analysis engine.

Overview

lindera-nodejs provides a comprehensive Node.js interface to the Lindera morphological analysis engine, supporting Japanese, Korean, and Chinese text analysis. This implementation includes all major features:

Multi-language Support: Japanese (IPADIC, IPADIC-NEologd, UniDic), Korean (ko-dic), Chinese (CC-CEDICT, Jieba)
Character Filters: Text preprocessing with mapping, regex, Unicode normalization, and Japanese iteration mark handling
Token Filters: Post-processing filters including lowercase, length filtering, stop words, and Japanese-specific filters
Flexible Configuration: Configurable tokenization modes and penalty settings
Metadata Support: Complete dictionary schema and metadata management
TypeScript Support: Full type definitions included out of the box

Features

Core Components

TokenizerBuilder: Fluent API for building customized tokenizers
Tokenizer: High-performance text tokenization with integrated filtering
CharacterFilter: Pre-processing filters for text normalization
TokenFilter: Post-processing filters for token refinement
Metadata & Schema: Dictionary structure and configuration management
Training & Export (optional): Train custom morphological analysis models from corpus data

Supported Dictionaries

Japanese: IPADIC, IPADIC-NEologd, UniDic
Korean: ko-dic
Chinese: CC-CEDICT, Jieba
Custom: User dictionary support

Pre-built dictionaries are available from GitHub Releases. Download a dictionary archive (e.g. lindera-ipadic-*.zip) and specify the extracted path when loading.

Filter Types

Character Filters:

Mapping filter (character replacement)
Regex filter (pattern-based replacement)
Unicode normalization (NFKC, etc.)
Japanese iteration mark normalization

Token Filters:

Text case transformation (lowercase, uppercase)
Length filtering (min/max character length)
Stop words filtering
Japanese-specific filters (base form, reading form, etc.)
Korean-specific filters

Install project dependencies

Node.js 18+ : https://nodejs.org/
Rust : https://www.rust-lang.org/tools/install
@napi-rs/cli : npm install -g @napi-rs/cli

Setup repository

# Clone lindera project repository
git clone [email protected]:lindera/lindera.git
cd lindera

Install lindera-nodejs

This command builds the library with development settings (debug build).

cd lindera-nodejs
npm install
npm run build

Quick Start

Basic Tokenization

const { loadDictionary, Tokenizer } = require("lindera-nodejs");

// Load dictionary
// Load dictionary from a local path (download from GitHub Releases)
const dictionary = loadDictionary("/path/to/ipadic");

// Create a tokenizer
const tokenizer = new Tokenizer(dictionary, "normal");

// Tokenize Japanese text
const text = "すもももももももものうち";
const tokens = tokenizer.tokenize(text);

for (const token of tokens) {
  console.log(`Text: ${token.surface}, Position: ${token.byteStart}-${token.byteEnd}`);
}

Using Character Filters

const { TokenizerBuilder } = require("lindera-nodejs");

// Create tokenizer builder
const builder = new TokenizerBuilder();
builder.setMode("normal");
builder.setDictionary("/path/to/ipadic");

// Add character filters
builder.appendCharacterFilter("mapping", { mapping: { "ー": "-" } });
builder.appendCharacterFilter("unicode_normalize", { kind: "nfkc" });

// Build tokenizer with filters
const tokenizer = builder.build();
const text = "テストー１２３";
const tokens = tokenizer.tokenize(text); // Will apply filters automatically

Using Token Filters

const { TokenizerBuilder } = require("lindera-nodejs");

// Create tokenizer builder
const builder = new TokenizerBuilder();
builder.setMode("normal");
builder.setDictionary("/path/to/ipadic");

// Add token filters
builder.appendTokenFilter("lowercase");
builder.appendTokenFilter("length", { min: 2, max: 10 });
builder.appendTokenFilter("japanese_stop_tags", { tags: ["助詞", "助動詞"] });

// Build tokenizer with filters
const tokenizer = builder.build();
const tokens = tokenizer.tokenize("テキストの解析");

Integrated Pipeline

const { TokenizerBuilder } = require("lindera-nodejs");

// Build tokenizer with integrated filters
const builder = new TokenizerBuilder();
builder.setMode("normal");
builder.setDictionary("/path/to/ipadic");

// Add character filters
builder.appendCharacterFilter("mapping", { mapping: { "ー": "-" } });
builder.appendCharacterFilter("unicode_normalize", { kind: "nfkc" });

// Add token filters
builder.appendTokenFilter("lowercase");
builder.appendTokenFilter("japanese_base_form");

// Build and use
const tokenizer = builder.build();
const tokens = tokenizer.tokenize("コーヒーショップ");

Working with Metadata

const { Metadata } = require("lindera-nodejs");

// Create metadata with default values
const metadata = new Metadata();
console.log(`Name: ${metadata.name}`);
console.log(`Encoding: ${metadata.encoding}`);

// Create metadata from a JSON file
const loaded = Metadata.fromJsonFile("metadata.json");
console.log(loaded.toObject());

Advanced Usage

Filter Configuration Examples

Character filters and token filters accept configuration as object arguments:

const { TokenizerBuilder } = require("lindera-nodejs");

const builder = new TokenizerBuilder();
builder.setDictionary("/path/to/ipadic");

// Character filters with object configuration
builder.appendCharacterFilter("unicode_normalize", { kind: "nfkc" });
builder.appendCharacterFilter("japanese_iteration_mark", {
  normalize_kanji: true,
  normalize_kana: true,
});
builder.appendCharacterFilter("mapping", {
  mapping: { "リンデラ": "lindera", "トウキョウ": "東京" },
});

// Token filters with object configuration
builder.appendTokenFilter("japanese_katakana_stem", { min: 3 });
builder.appendTokenFilter("length", { min: 2, max: 10 });
builder.appendTokenFilter("japanese_stop_tags", {
  tags: ["助詞", "助動詞", "記号"],
});

// Filters without configuration can omit the object
builder.appendTokenFilter("lowercase");
builder.appendTokenFilter("japanese_base_form");

const tokenizer = builder.build();

See examples/ directory for comprehensive examples including:

tokenize.js: Basic tokenization
tokenize_with_filters.js: Using character and token filters
tokenize_with_userdict.js: Custom user dictionary
train_and_export.js: Train and export custom dictionaries (requires train feature)
tokenize_with_decompose.js: Decompose mode tokenization

Dictionary Support

Japanese

IPADIC: Default Japanese dictionary, good for general text
UniDic: Academic dictionary with detailed morphological information

Korean

ko-dic: Standard Korean dictionary for morphological analysis

Chinese

CC-CEDICT: Community-maintained Chinese-English dictionary

Custom Dictionaries

User dictionary support for domain-specific terms
CSV format for easy customization

Dictionary Training (Experimental)

lindera-nodejs supports training custom morphological analysis models from annotated corpus data when built with the train feature.

Building with Training Support

npm run build -- --features train

Training a Model

const { train } = require("lindera-nodejs");

// Train a model from corpus
train({
  seed: "path/to/seed.csv",
  corpus: "path/to/corpus.txt",
  charDef: "path/to/char.def",
  unkDef: "path/to/unk.def",
  featureDef: "path/to/feature.def",
  rewriteDef: "path/to/rewrite.def",
  output: "model.dat",
  lambda: 0.01,
  maxIter: 100,
});

Exporting Dictionary Files

const { exportModel } = require("lindera-nodejs");

// Export trained model to dictionary files
exportModel({
  model: "model.dat",
  output: "exported_dict/",
  metadata: "metadata.json",
});

This will create:

lex.csv: Lexicon file
matrix.def: Connection cost matrix
unk.def: Unknown word definitions
char.def: Character definitions
metadata.json: Dictionary metadata (if provided)

See examples/train_and_export.js for a complete example.

API Reference

Core Classes

TokenizerBuilder: Fluent builder for tokenizer configuration
Tokenizer: Main tokenization engine
Token: Individual token with text, position, and linguistic features
Metadata: Dictionary metadata and configuration
Schema: Dictionary schema definition

Training Functions (requires `train` feature)

train(): Train a morphological analysis model from corpus
exportModel(): Export trained model to dictionary files

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme

lindera-nodejs

Overview

Features

Core Components

Supported Dictionaries

Filter Types

Install project dependencies

Setup repository

Install lindera-nodejs

Quick Start

Basic Tokenization

Using Character Filters

Using Token Filters

Integrated Pipeline

Working with Metadata

Advanced Usage

Filter Configuration Examples

Dictionary Support

Japanese

Korean

Chinese

Custom Dictionaries

Dictionary Training (Experimental)

Building with Training Support

Training a Model

Exporting Dictionary Files

API Reference

Core Classes

Training Functions (requires train feature)

Training Functions (requires `train` feature)