@kokiito0926/justtext
v0.0.4
Published
HTMLから記事本文や主要なテキストのみを抽出するコマンドラインのツールです。
Downloads
364
Maintainers
Readme
justtext
justtextは、HTMLから記事本文や主要なテキストのみを抽出するコマンドラインのツールです。
ウェブサイトをクロールしたあとに、そのHTMLから記事本文や主要なテキストのみを抽出すると、大規模言語モデルに与えやすくなります。
インストール
$ npm install --global @kokiito0926/justtext使用方法
curlなどで取得したHTMLをパイプでjusttextに流し込みます。
$ curl -sSL https://example.com/ | justtext