@mcpcn/image-vision-mcp
v1.0.6
Published
合并版 MCP:图片文字提取 + 图片内容理解
Readme
合并版 MCP:图片文字提取 + 图片内容理解
本项目将原有两个 MCP:
图片文字提取(阿里云百炼 Qwen OCR)图片内容理解(智谱 GLM 视觉模型)
合并为一个 MCP 服务器,统一暴露两个工具,便于在同一次连接中调用。
环境变量
DASHSCOPE_API_KEY:阿里云百炼 API Key(用于图片文字提取)ZHIPU_API_KEY或GLM_API_KEY:智谱 AI API Key(用于图片内容理解)GLM_VISION_MODEL:可选,自定义默认视觉模型(默认GLM-4V-Plus-0111)
未配置对应密钥时,相关工具会返回友好错误,不影响服务器启动。
安装与构建
npm install
npm run build运行
# 直接运行已构建的入口
npm start
# 或作为可执行命令(安装到全局/本地 bin 后)
image-vision-mcp在 MCP 客户端中配置
以 Claude Desktop 为例,在其 MCP 配置中添加:
{
"mcpServers": {
"image-vision": {
"command": "node",
"args": ["/绝对路径/到/本项目/dist/index.js"],
"env": {
"DASHSCOPE_API_KEY": "your-dashscope-key",
"ZHIPU_API_KEY": "your-zhipu-key"
}
}
}
}暴露的工具
- 工具名:
ocr_extract_text- 参数:
image_url,custom_prompt?,min_pixels?,max_pixels? - 功能:使用阿里云百炼Qwen OCR提取图片文字。
- 参数:
- 工具名:
image_understanding- 参数:
imageUrl,prompt?,model?,temperature?,maxTokens? - 功能:使用智谱视觉模型进行图片内容理解与分析。
- 参数:
目录结构
src/index.ts:单一 MCP 服务器入口,同时注册两个工具。src/tools/ocr-qwen.ts:图片文字提取工具实现(Qwen OCR)。src/tools/understanding-glm.ts:图片内容理解工具实现(GLM)。src/types.ts:通用类型定义。src/config.ts:模型默认值与枚举。
兼容性
- Node.js >= 18
@modelcontextprotocol/sdkv1 接口
迁移说明
源项目:
- /Users/fengjinchao/Desktop/mcp/skills/typescript/图片文字提取
- /Users/fengjinchao/Desktop/mcp/skills/typescript/图片内容理解
两者的核心逻辑已整合并最小改动保留;若后续要合并更多模型,只需在 src/tools 下新增实现,并在 src/index.ts 增加工具注册即可。
