@123pzy/web-scraper
v1.0.0
Published
网页爬取MCP服务器 - 获取和解析网页内容
Readme
@123pzy/web-scraper
一个基于 Model Context Protocol (MCP) 的网页爬取服务器,提供获取和解析网页内容的工具。
功能特性
- 🔍 获取和解析网页内容
- 📝 提取结构化数据(标题、段落、链接、图片)
- 🛡️ 内置安全限制(超时控制、大小限制)
- 🚀 支持作为 MCP 服务器使用
- 📦 提供 CLI 命令
安装
npm install @123pzy/web-scraper使用方法
作为 MCP 服务器
在 MCP 客户端配置文件中添加:
{
"mcpServers": {
"web-scraper": {
"command": "npx",
"args": ["-y", "@123pzy/web-scraper"]
}
}
}或使用全局安装:
npm install -g @123pzy/web-scraper配置文件中使用:
{
"mcpServers": {
"web-scraper": {
"command": "web-scraper-server"
}
}
}提供的工具
fetch_webpage
获取网页并返回结构化内容。
输入参数:
url(string): 要获取的网页 URL
返回内容:
- 页面标题
- 所有段落文本
- 所有链接(包括 href 和文本)
- 所有图片(包括 src 和 alt)
示例:
{
"url": "https://example.com"
}fetch_webpage_raw
获取网页的纯文本内容(移除脚本和样式)。
输入参数:
url(string): 要获取的网页 URL
返回内容:
- 页面的纯文本内容(最多 2000 字符)
安全限制
- ✅ 仅支持 HTTP/HTTPS 协议
- ⏱️ 请求超时:5 秒
- 📏 响应大小限制:10MB
- 🤖 使用标准浏览器 User-Agent
提供的资源
docs://guide
通过 MCP 访问的使用指南文档。
技术栈
- Model Context Protocol SDK - MCP 协议实现
- Cheerio - HTML 解析
- Zod - 输入验证
许可证
MIT
作者
123pzy
