web-crawler-ai

v0.0.5

Published

a year ago

一个用于爬取产品需求文档并转换为Markdown格式的AI+Node.js工具

Downloads

0High
0Medium
0Low

hechaofeng

AI crawler markdown documentation product-docs

产品需求文档网页转换工具

这是一个将产品需求文档网页转换为 Markdown 格式的工具。它使用爬虫技术抓取网页内容，并将其转换为易于阅读和编辑的 Markdown 文件。

特性

支持自定义配置文件
可设置爬取深度和并发数量
支持最大重试次数
自动下载网页中的图片并保存为本地文件
生成的 Markdown 文件结构清晰
支持登录认证以访问受保护的文档
使用 AI 处理和优化文档内容
支持子页面截图和内容整合

安装

请确保您已安装 Node.js 和 npm。然后，您可以通过以下命令安装依赖：

npm install

配置

在使用工具前，您需要创建一个配置文件。您可以复制 doc-crawler.config.example.js 并根据需要进行修改：

cp doc-crawler.config.example.js doc-crawler.config.js

配置文件包含以下主要部分：

爬虫设置（深度、并发数、超时等）
浏览器配置
输出目录设置
认证信息（如需访问受保护内容）
AI 处理参数（如使用 OpenAI 优化内容）

使用方法

node bin/doc-crawler.mjs <url> [options]

参数

: 需要爬取的网页 URL（必需）

选项

-c, --config : 配置文件路径（默认: ./doc-crawler.config.js）
-o, --output : 输出目录路径
-d, --depth : 链接爬取深度
--maxRetries : 最大重试次数
--concurrency : 并发数量
-v, --version: 显示版本号
-h, --help: 显示帮助信息

示例

# 使用默认配置爬取文档

** crawler https://example.com/product-doc**

# 指定配置文件和输出目录

crawlernode ** https://example.com/product-doc** -c ./my-config.js -o ./output

# 设置爬取深度和并发数

crawler https://example.com/product-doc -d 2 --concurrency 5

工作原理

工具首先爬取指定的主页面内容
如果配置了认证信息，会先进行登录获取 cookies
根据设置的深度爬取相关子页面
下载页面中的图片并保存到本地
使用 AI 处理和优化内容（如已配置）
生成结构化的 Markdown 文件

许可证

MIT

这是一个将产品需求文档网页转换为 Markdown 格式的工具。它使用爬虫技术抓取网页内容，并将其转换为易于阅读和编辑的 Markdown 文件。

特性

支持自定义配置文件
可设置爬取深度和并发数量
支持最大重试次数
自动下载网页中的图片并保存为本地文件
生成的 Markdown 文件结构清晰

安装

请确保您已安装 Node.js 和 npm。然后，您可以通过以下命令安装依赖：

```

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme

产品需求文档网页转换工具

产品需求文档网页转换工具

特性

安装

配置

使用方法

参数

选项

示例

工作原理

许可证

特性

安装