@mcpcn/image-vision-mcp

v1.0.6

Published

8 months ago

合并版 MCP：图片文字提取 + 图片内容理解

0High
0Medium
0Low

mcp image ocr vision qwen glm

合并版 MCP：图片文字提取 + 图片内容理解

本项目将原有两个 MCP：

图片文字提取（阿里云百炼 Qwen OCR）
图片内容理解（智谱 GLM 视觉模型）

合并为一个 MCP 服务器，统一暴露两个工具，便于在同一次连接中调用。

环境变量

DASHSCOPE_API_KEY：阿里云百炼 API Key（用于图片文字提取）
ZHIPU_API_KEY 或 GLM_API_KEY：智谱 AI API Key（用于图片内容理解）
GLM_VISION_MODEL：可选，自定义默认视觉模型（默认 GLM-4V-Plus-0111）

未配置对应密钥时，相关工具会返回友好错误，不影响服务器启动。

安装与构建

npm install
npm run build

运行

# 直接运行已构建的入口
npm start
# 或作为可执行命令（安装到全局/本地 bin 后）
image-vision-mcp

在 MCP 客户端中配置

以 Claude Desktop 为例，在其 MCP 配置中添加：

{
  "mcpServers": {
    "image-vision": {
      "command": "node",
      "args": ["/绝对路径/到/本项目/dist/index.js"],
      "env": {
        "DASHSCOPE_API_KEY": "your-dashscope-key",
        "ZHIPU_API_KEY": "your-zhipu-key"
      }
    }
  }
}

暴露的工具

工具名：ocr_extract_text
- 参数：image_url，custom_prompt?，min_pixels?，max_pixels?
- 功能：使用阿里云百炼Qwen OCR提取图片文字。
工具名：image_understanding
- 参数：imageUrl，prompt?，model?，temperature?，maxTokens?
- 功能：使用智谱视觉模型进行图片内容理解与分析。

目录结构

src/index.ts：单一 MCP 服务器入口，同时注册两个工具。
src/tools/ocr-qwen.ts：图片文字提取工具实现（Qwen OCR）。
src/tools/understanding-glm.ts：图片内容理解工具实现（GLM）。
src/types.ts：通用类型定义。
src/config.ts：模型默认值与枚举。

兼容性

Node.js >= 18
@modelcontextprotocol/sdk v1 接口

迁移说明

源项目：

/Users/fengjinchao/Desktop/mcp/skills/typescript/图片文字提取
/Users/fengjinchao/Desktop/mcp/skills/typescript/图片内容理解

两者的核心逻辑已整合并最小改动保留；若后续要合并更多模型，只需在 src/tools 下新增实现，并在 src/index.ts 增加工具注册即可。

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme

合并版 MCP：图片文字提取 + 图片内容理解

环境变量

安装与构建

运行

在 MCP 客户端中配置

暴露的工具

目录结构

兼容性

迁移说明