@123pzy/web-scraper

v1.0.0

Published

a month ago

网页爬取MCP服务器 - 获取和解析网页内容

0High
0Medium
0Low

123pzy

mcp model-context-protocol

@123pzy/web-scraper

一个基于 Model Context Protocol (MCP) 的网页爬取服务器，提供获取和解析网页内容的工具。

功能特性

🔍 获取和解析网页内容
📝 提取结构化数据（标题、段落、链接、图片）
🛡️ 内置安全限制（超时控制、大小限制）
🚀 支持作为 MCP 服务器使用
📦 提供 CLI 命令

安装

npm install @123pzy/web-scraper

使用方法

作为 MCP 服务器

在 MCP 客户端配置文件中添加：

{
  "mcpServers": {
    "web-scraper": {
      "command": "npx",
      "args": ["-y", "@123pzy/web-scraper"]
    }
  }
}

或使用全局安装：

npm install -g @123pzy/web-scraper

配置文件中使用：

{
  "mcpServers": {
    "web-scraper": {
      "command": "web-scraper-server"
    }
  }
}

提供的工具

fetch_webpage

获取网页并返回结构化内容。

输入参数:

url (string): 要获取的网页 URL

返回内容:

页面标题
所有段落文本
所有链接（包括 href 和文本）
所有图片（包括 src 和 alt）

示例:

{
  "url": "https://example.com"
}

fetch_webpage_raw

获取网页的纯文本内容（移除脚本和样式）。

输入参数:

url (string): 要获取的网页 URL

返回内容:

页面的纯文本内容（最多 2000 字符）

安全限制

✅ 仅支持 HTTP/HTTPS 协议
⏱️ 请求超时：5 秒
📏 响应大小限制：10MB
🤖 使用标准浏览器 User-Agent

提供的资源

docs://guide

通过 MCP 访问的使用指南文档。

技术栈

Model Context Protocol SDK - MCP 协议实现
Cheerio - HTML 解析
Zod - 输入验证

许可证

MIT

作者

123pzy

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme

@123pzy/web-scraper

功能特性

安装

使用方法

作为 MCP 服务器

提供的工具

fetch_webpage

fetch_webpage_raw

安全限制

提供的资源

docs://guide

技术栈

许可证

作者

相关链接