@guorui99/vision-mcp

v1.0.1

Published

7 days ago

MCP server for image analysis - gives LLMs vision via external visual API

0High
0Medium
0Low

guorui99

mcp vision image-analysis claude model-context-protocol ai

🖼️ Vision MCP

让没有原生识图能力的模型（如 DeepSeek）也能"看图"——通过调用外部视觉 API 获取图片的文字描述。

提供 MCP Server 和 CLI 两种使用方式。

MCP Server（推荐）

工具

| 工具 | 说明 | 注解 | |------|------|------| | vision_analyze | 分析图片 — 本地路径或 URL，1-5 张，自定义 prompt | 只读 | | vision_get_config | 查看当前 API 配置（Key 脱敏） | 只读 | | vision_update_config | 更新 API Key / 模型 / 地址 | — |

快速开始

# 1. 安装依赖
npm install

# 2. 构建
npm run build

# 3. 配置 MCP（在 Claude Desktop / claude.json 中添加）

{
  "mcpServers": {
    "vision": {
      "command": "npx",
      "args": ["-y", "@guorui99/vision-mcp"]
    }
  }
}

首次配置

启动后，通过 MCP 工具配置 API Key：

vision_update_config api_key="sk-xxx"

或直接编辑 config.json：

{
  "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
  "api_key": "你的API Key",
  "model": "qwen3.5-omni-plus",
  "language": "zh"
}

支持的视觉服务

| 服务 | 模型 | 备注 | |------|------|------| | 阿里云百炼（推荐） | qwen3.5-omni-plus | 新用户 100 万 token 免费 | | 阿里云百炼 | qwen-vl-max | 同上 | | OpenAI | gpt-4o-mini | 需海外支付 | | 其他 | 任何 OpenAI 兼容格式 | 改 base_url + model 名 |

支持格式

jpg, jpeg, png, gif, webp, bmp（单次最多 5 张，单文件最大 20MB）

工作原理

读取图片 → base64 编码
调用 OpenAI 兼容视觉 API
返回文字描述

CLI 模式（legacy）

# 单张图片
node scripts/vision.cjs photo.jpg "描述这张图片"

# 网络图片
node scripts/vision.cjs --url https://example.com/img.png "这是什么？"

# 多张图片
node scripts/vision.cjs img1.jpg img2.jpg "比较这两张图"

# 配置
node scripts/vision.cjs --setup
node scripts/vision.cjs --config

项目结构

vision-mcp/
├── src/                 # MCP Server 源码 (TypeScript)
├── dist/                # 编译产物
├── scripts/vision.cjs   # CLI 工具 (legacy)
├── config.json          # 共享配置文件
├── package.json
└── tsconfig.json

环境要求

Node.js >= 18
视觉 API 的 Key（阿里云百炼 / OpenAI 等）

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme