@leoyoge/pdf-mcp

v0.1.1

Published

9 months ago

PDF阅读MCP服务器，支持从本地文件和URL读取PDF内容

0High
0Medium
0Low

leoyoge

pdf reader mcp model-context-protocol ai typescript

PDF MCP 服务器

这是一个基于 Model Context Protocol (MCP) 的PDF阅读工具，支持从本地文件和URL读取PDF内容。

功能特性

📖 多源读取: 支持从本地文件和URL读取PDF内容
📄 文本提取: 提取PDF中的文本内容供智能体分析
📊 元数据获取: 获取PDF文件的基本信息（页数、作者、标题等）
🎯 页面选择: 支持指定页面范围或特定页面进行提取
🔧 智能体集成: 专为智能体设计的MCP协议接口

安装和设置

安装依赖：

npm install

构建项目：

npm run build

启动MCP服务器：

npm start

可用工具

read_pdf

读取PDF文件内容，支持本地文件和URL

参数：

sources (必需): PDF源数组，每个源包含：
- path (可选): 本地PDF文件路径
- url (可选): PDF文件的URL链接
- pages (可选): 要提取的页面，支持：
  - 数组: [1, 3, 5] - 指定页面
  - 字符串: "1-3,5,7-" - 页面范围
include_full_text (可选): 是否包含完整文本，默认false
include_metadata (可选): 是否包含元数据，默认true
include_page_count (可选): 是否包含页数，默认true

示例：

{
  "name": "read_pdf",
  "arguments": {
    "sources": [
      {
        "url": "https://example.com/document.pdf",
        "pages": "1-5"
      }
    ],
    "include_full_text": true,
    "include_metadata": true
  }
}

智能体配置

在您的智能体配置中添加以下MCP服务器配置：

{
  "mcpServers": {
    "pdf-mcp": {
      "command": "node",
      "args": ["dist/index.js"],
      "cwd": "/path/to/pdf-mcp"
    }
  }
}

使用场景

📚 学术论文阅读: 智能体可以读取学术PDF论文并进行分析
📰 新闻文章处理: 处理在线PDF格式的新闻文章
📋 文档分析: 分析各种PDF格式的文档内容
🔍 内容搜索: 在PDF文档中搜索特定信息

技术特性

基于MCP协议，与智能体无缝集成
支持大文件处理（流式读取）
自动处理各种PDF格式
错误处理和超时保护
TypeScript实现，类型安全

注意事项

确保PDF URL可公开访问
大文件可能需要较长处理时间
某些PDF可能包含图片或复杂格式，文本提取效果可能有限
建议在使用前先用 get_pdf_info 检查文件信息

开发

# 开发模式
npm run dev

# 构建
npm run build

# 启动
npm start

许可证

MIT License

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme

PDF MCP 服务器

功能特性

安装和设置

可用工具

read_pdf

智能体配置

使用场景

技术特性

注意事项

开发

许可证