multi-modal-mcp
v0.0.9
Published
multi-modal MCP server
Maintainers
Readme
multi-modal-mcp
基于智谱 AI 的多模态 MCP (Model Context Protocol) 服务器,提供文本生成、图片生成、视频生成和多模态理解等功能。
功能特性
- 文本生成: 基于 GLM-4.7-Flash 模型,支持对话、写作、翻译、代码生成等多种文本生成任务
- 多模态理解: 基于 GLM-4.6V-Flash 模型,支持图片、视频、文档等多种媒体类型的智能分析与理解
- 图片生成: 基于 Cogview-3-Flash 模型,根据文本描述生成高质量图片
- 视频生成: 基于 CogVideoX-Flash 模型,根据文本描述生成高质量视频,支持图生视频
技术栈
- 语言: TypeScript (ESNext)
- 运行时: Node.js (>=18.19.0)
- 框架: mcp-framework (v0.2.2)
- HTTP 客户端: Axios (v1.13.2)
- 数据验证: Zod (v3.22.4)
安装
全局安装
npm install -g multi-modal-mcp使用 npx 直接运行
npx multi-modal-mcp@latest配置
在使用前,需要设置智谱 AI 的 API 密钥:
export KEY="your-api-key"或在 MCP Inspector 中配置环境变量。
使用方法
标准输入输出 (stdio) 模式
适用于本地开发和 MCP 客户端集成。
npx multi-modal-mcp@latestHTTP Stream 模式
适用于 Web 应用和远程访问,服务器将在 http://localhost:3000/mcp 上运行。
npx multi-modal-mcp@latest http或使用环境变量:
TRANSPORT_TYPE=http npx multi-modal-mcp@latest使用 MCP Inspector 调试
调试 stdio 模式:
npx @modelcontextprotocol/inspector npx multi-modal-mcp@latest调试 HTTP 模式:
npx @modelcontextprotocol/inspector npx multi-modal-mcp@latest http在 MCP 客户端中配置
stdio 模式配置
在 Claude Desktop 或其他 MCP 客户端的配置文件中添加:
{
"mcpServers": {
"multi-modal": {
"command": "npx",
"args": ["-y", "multi-modal-mcp@latest"],
"env": {
"KEY": "your-api-key"
}
}
}
}HTTP 模式配置
如果使用 HTTP 模式,客户端需要连接到 http://localhost:3000/mcp 端点。具体配置方式取决于客户端的实现。
工具列表
1. text_generation
基于 GLM-4.7-Flash 模型的文本生成工具,支持对话、写作、翻译、代码生成等多种文本生成任务。支持思考模式,可展示模型思考过程。通过温度参数控制生成文本的随机性和创造性。
参数:
messages(string, 必填): 消息文本thinking(enum, 可选): 是否启用思考模式,可选值enabled/disabled,默认disabledtemperature(number, 可选): 温度参数,控制生成文本的随机性,范围 0-1,默认 1
2. multi_modal_understanding
基于 GLM-4.6V-Flash 模型的多模态理解工具,支持图片、视频、文档等多种媒体类型的智能分析与理解。可执行 OCR 文字识别、表格解析、内容分析、缺陷检测、图像转提示词、视频标签提取、关键帧提取、时间线生成、脚本生成、视频问答、文档问答、文档对比等多种任务。支持同时处理多种媒体类型。
参数:
media_content(array, 必填): 媒体内容列表,支持混合图片、视频、文档type(enum): 媒体类型,可选值image_url/video_url/file_urlurl(string): 媒体资源的 URL 地址
question(string, 必填): 用自然语言描述您的需求thinking(enum, 可选): 是否启用思考模式,可选值enabled/disabled,默认disabledtemperature(number, 可选): 温度参数,控制生成文本的随机性,范围 0-1,默认 1
3. image_generation
基于 Cogview-3-Flash 模型的图片生成工具,根据文本描述生成高质量图片。支持多种尺寸选择,包括横屏、竖屏和方形等多种比例。可选择是否添加水印。适用于插画、设计素材、场景生成等多种应用场景。
参数:
prompt(string, 必填): 图片的文本描述size(string, 可选): 图片尺寸,推荐1024x1024(默认)、768x1344、864x1152、1344x768、1152x864、1440x720、720x1440。自定义尺寸需满足 512px-2048px 之间,被 16 整除,最大像素数不超过 2^21pxwatermark_enabled(boolean, 可选): 是否添加水印,默认false
4. video_generation
基于 CogVideoX-Flash 模型的视频生成工具,根据文本描述生成高质量视频。支持多种分辨率选择,包括 720p、1080p、2K、4K 等多种规格。支持质量优先和速度优先两种输出模式。可选择是否生成 AI 音效和添加水印。支持基于基础图像生成视频。采用异步处理机制,自动轮询任务状态直至完成。
参数:
prompt(string, 必填): 视频的文本描述,最大输入长度为 512 个字符quality(enum, 可选): 输出模式,可选值quality/speed,默认speedwithAudio(boolean, 可选): 是否生成 AI 音效,默认falsewatermarkEnabled(boolean, 可选): 是否添加水印,默认falseimageUrl(string, 可选): 用于内容生成的基础图像,支持 URL 或 Base64 编码图像size(enum, 可选): 视频分辨率,可选值720x480/1024x1024/1280x960/960x1280/1920x1080/1080x1920/2048x1080/3840x2160,默认1024x1024fps(enum, 可选): 视频帧率,可选值30/60,默认30
开发
克隆项目
git clone https://gitee.com/juzijuzijuzi/multi-modal-mcp.git
cd multi-modal-mcp安装依赖
npm install构建项目
npm run build监听模式编译
npm run watch启动服务器
npm start调试模式
npm run debugAPI 密钥获取
- 访问 智谱 AI 开放平台
- 注册并登录账号
- 在控制台创建 API 密钥
许可证
MIT License
作者
橘子
