@mcpcn/image-recognition-mcp
v1.0.4
Published
MCP服务器用于图片识别和信息提取
Downloads
63
Readme
通用图片识别 MCP 服务器
基于阿里云百炼平台千问视觉模型的通用图片识别 MCP 服务器,支持识别图片中的文字和信息内容。
功能特性
- 通用图片识别: 识别图片中的所有文字内容和关键信息
- 自定义提示词: 支持自定义识别提示词,满足不同需求
- 多种图片格式: 支持URL和base64两种图片输入方式
- 灵活配置: 支持自定义图片像素参数
安装配置
1. 安装依赖
npm install2. 环境变量配置
设置阿里云百炼API Key:
export DASHSCOPE_API_KEY="your-api-key-here"或在使用时临时设置:
DASHSCOPE_API_KEY="your-api-key" npm start3. 构建项目
npm run build使用方法
启动服务器
npm start在 Claude Desktop 中配置
在 Claude Desktop 的配置文件中添加:
{
"mcpServers": {
"image-recognition": {
"command": "node",
"args": ["/path/to/image-recognition-mcp/dist/index.js"],
"env": {
"DASHSCOPE_API_KEY": "your-api-key-here"
}
}
}
}工具说明
recognize_image - 通用图片识别工具
支持识别各种类型的图片内容:
参数说明:
- image_url: 图片URL地址
- image_data: 图片base64数据(可选)
- custom_prompt: 自定义识别提示词(可选)
- min_pixels/max_pixels: 图片像素参数(可选)
使用示例
📝 基本文字识别
请识别这张图片中的文字:https://example.com/image.jpg🎯 自定义识别需求
请识别这张名片并提取联系信息,图片:https://example.com/business-card.jpg📋 发票信息提取
请提取这张发票的详细信息,包括金额、税额、开票日期等:https://example.com/invoice.jpg📊 表格数据识别
请识别这个表格的所有数据:https://example.com/table.jpg🆔 证件信息识别
请识别这张身份证的信息:https://example.com/id-card.jpg技术栈
- MCP SDK: Model Context Protocol 框架
- OpenAI SDK: 兼容阿里云百炼API
- TypeScript: 类型安全开发
- 千问视觉模型: qwen-vl-ocr-latest
开发说明
项目结构
src/
├── index.ts # 主服务器文件
├── tools/
│ └── image-recognition.ts # 图片识别工具实现
└── types/
└── index.ts # 类型定义开发模式
npm run dev # 监听文件变化并自动重新构建注意事项
- API密钥: 需要有效的阿里云百炼API Key
- 图片访问: 图片URL需要可公开访问
- Base64格式: Base64图片数据需要包含数据头(data:image/...)
- 图片大小: 模型对图片大小有限制,建议合理设置像素参数
更新日志
v1.0.0
- ✨ 通用图片识别功能
- 🛠️ 自定义提示词支持
- 📤 多种图片输入方式
- ⚙️ 灵活参数配置
