mimo-mcp-server

v0.1.2

Published

12 days ago

MCP Server for MiMo multimodal capabilities (image, audio, video understanding, ASR, TTS)

0High
0Medium
0Low

alionsss

mcp mimo multimodal asr tts

MiMo MCP Server

一个为 MiMo 多模态模型能力提供统一的 Model Context Protocol (MCP) 接口的服务器，支持图像理解、音频理解、视频理解、语音识别和语音合等功能成等功能。
当你使用的模型不支持多模态时，可以使用该方式获得多模态能力。 例如 mimo-v2.5-pro 没有多模态能力，但是可以通过该 MCP Server 调用拥有多模态能力的 mimo-v2.5 模型。

功能特性

| 功能模块 | 特性说明 | 支持格式/场景 | 对话图例 | | ------------- | --------------------------------------------------------------------------------------- | ----------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------- | | 🖼️ 图像理解 | 支持图像 URL、Base64 编码、本地文件路径等多种输入方式。支持单张或多张图像分析。支持图像描述、OCR 文字提取、场景识别等。 | JPEG、PNG、GIF、WebP、BMP | 图像理解示例 | | 🎵 音频理解 | 支持音频 URL、Base64 编码、本地文件路径等多种输入方式。支持音频内容分析、情感识别、语言检测等。 | MP3、WAV、FLAC、M4A、OGG | 音频理解示例 | | 🎬 视频理解 | 支持视频 URL、Base64 编码、本地文件路径等多种输入方式。支持视频内容分析、场景描述、动作识别等。 | MP4、MOV、AVI、WMV | 视频理解示例 | | 🎤 语音识别 (ASR) | 支持中文、英文及自动语言检测。支持方言识别（粤语、吴语、闽南语、四川话等）。 | 会议转写、歌词识别、嘈杂环境录音 | 语音识别示例 | | 🔊 语音合成 (TTS) | 预置音色：提供多种预置音色（冰糖、茉莉、苏打、白桦等）。音色设计：通过文本描述自定义音色特征。音色复刻：基于音频样本克隆音色。支持情感控制和风格指令。 | 多种预置音色 + 自定义音色设计 + 音频克隆 | 使用预置音色、使用文本设计音色、使用文本设计音色（智能润色）、音色复刻 |

Tips:

工具参数说明
MIMO 模型更多参数、功能见底部“相关链接”
MIMO Studio https://aistudio.xiaomimimo.com/

快速开始

请先确保你的环境中已安装 NodeJS，建议版本 >= 22

方式一：直接使用 NPM 上发行的包 mimo-mcp-server

MCP Server 配置

{
  "mcpServers": {
    "mimo-mcp-server": {
      "command": "npx",
      "args": [
        "mimo-mcp-server",
        "-y"
      ],
      "env": {
        "MIMO_API_KEY": "your-api-key-here"
      }
    }
  }
}

方式二：从 GitHub 下载项目文件

下载、安装、构建项目

# 下载项目文件
git clone https://github.com/AlionSSS/mimo-mcp-server.git
cd mimo-mcp-server

# 安装依赖
npm install
# 构建
npm run build

MCP Server 配置

{
  "mcpServers": {
    "mimo-mcp-server": {
      "command": "node",
      "args": [
        "<PATH_TO>/mimo-mcp-server/dist/index.js"
      ],
      "env": {
        "MIMO_API_KEY": "your-api-key-here"
      }
    }
  }
}

可用的环境变量 env

# 必需：MiMo API Key
MIMO_API_KEY="your-api-key-here"

# 可选：自定义 API 端点（默认为小米官方端点）
MIMO_API_URL="https://token-plan-cn.xiaomimimo.com/v1/chat/completions"

# 可选：自定义模型 ID
MIMO_MODEL_MULTIMODAL="mimo-v2.5"
MIMO_MODEL_ASR="mimo-v2.5-asr"
MIMO_MODEL_TTS="mimo-v2.5-tts"
MIMO_MODEL_TTS_VOICE_DESIGN="mimo-v2.5-tts-voicedesign"
MIMO_MODEL_TTS_VOICE_CLONE="mimo-v2.5-tts-voiceclone"

项目结构

mimo-mcp-server/
├── src/
│   ├── services/
│   │   └── mimo-client.ts          # MiMo API 客户端
│   ├── tools/
│   │   ├── audio-understanding.ts   # 音频理解工具
│   │   ├── image-understanding.ts   # 图像理解工具
│   │   ├── speech-recognition.ts    # 语音识别工具
│   │   ├── speech-synthesis.ts      # 语音合成工具
│   │   └── video-understanding.ts   # 视频理解工具
│   ├── constants.ts                 # 常量定义
│   ├── index.ts                     # 主入口
│   └── types.ts                     # 类型定义
├── resources/                       # 示例资源
├── docs/                            # 文档
├── package.json
└── tsconfig.json

技术栈

运行时: Node.js 22+
语言: TypeScript
构建工具: esbuild
MCP SDK: @modelcontextprotocol/sdk
HTTP 客户端: axios
数据验证: zod

开发

下载，克隆项目

git clone https://github.com/AlionSSS/mimo-mcp-server.git
cd mimo-mcp-server

安装依赖 $ npm install
开发模式 $ npm run dev
构建 $ npm run build
代码检查 $ npx tsc --noEmit

许可证

MIT License

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme