@mcpcn/mcp-image-ocr-mcp
v1.0.1
Published
使用阿里云百炼 Qwen OCR 进行图片文字识别提取
Readme
图片文字识别 MCP
使用阿里云百炼 Qwen OCR 进行图片文字识别提取的 MCP 服务器。
功能特性
- 基于阿里云百炼的 qwen-vl-ocr-2025-04-13 模型
- 高精度文字提取和识别
- 支持自定义识别提示词
- 可配置像素阈值
- 完善的错误处理和友好的中文提示
- TypeScript 类型安全
环境变量
DASHSCOPE_API_KEY:阿里云百炼 API Key(必需)
安装与构建
npm install
npm run build运行
# 直接运行已构建的入口
npm start
# 或作为可执行命令
image-ocr-mcp在 MCP 客户端中配置
以 Claude Desktop 为例,在其 MCP 配置中添加:
{
"mcpServers": {
"image-ocr": {
"command": "node",
"args": ["/绝对路径/到/本项目/dist/index.js"],
"env": {
"DASHSCOPE_API_KEY": "your-dashscope-key"
}
}
}
}暴露的工具
ocr_extract_text
使用 OCR 识别提取图片中的文字。
参数:
image_url(必需): 图片URLcustom_prompt(可选): 自定义识别提示词min_pixels(可选): 最小像素阈值,默认 3136max_pixels(可选): 最大像素阈值,默认 229376
示例:
{
"image_url": "https://example.com/image.jpg",
"custom_prompt": "请识别图片中的所有文字,包括表格内容"
}目录结构
src/
├── index.ts # MCP 服务器主入口
├── config.ts # 配置信息
├── types.ts # 类型定义
└── tool.ts # OCR 工具实现技术细节
- 使用 OpenAI SDK 通过兼容接口调用阿里云 DashScope API
- 默认温度设置为 0.1,确保识别结果稳定
- 最大 tokens 设置为 4000,适合大量文字提取
- 自动处理常见 HTTP 错误(401、403、429、500等)
兼容性
- Node.js >= 18
@modelcontextprotocol/sdkv1 接口
