@ww_nero/media
v1.3.4
Published
MCP server for media processing, including ASR speech recognition and TTS speech synthesis
Readme
Media MCP Server
媒体处理 MCP 服务,提供语音识别和语音合成功能。
功能
asr - 语音识别
将音频文件转换为带时间戳的 SRT 字幕文件。
参数:
working_directory: 工作目录的绝对路径,识别结果将保存到此目录audio_file: 音频文件的相对路径(相对于工作目录),支持 mp3/wav 格式
限制:
- 音频长度最大 30 分钟
- 文件大小不超过 120MB
- 超出限制需要外部分段处理后逐段识别
输出:
- 识别结果保存到工作目录下的
asr_<timestamp>.srt文件
tts - 语音合成
将文本转换为音频文件。
参数:
working_directory: 工作目录的绝对路径,合成的音频文件将保存到此目录text: 需要合成语音的文本内容
输出:
- 合成结果保存到工作目录下的
tts_<timestamp>.mp3文件
环境变量
| 变量名 | 说明 | 必填 |
|--------|------|------|
| DASHSCOPE_API_KEY | 阿里云 DashScope API Key | 是 |
安装
npm install配置示例
{
"mcpServers": {
"media": {
"command": "node",
"args": ["/path/to/media/index.js"],
"env": {
"DASHSCOPE_API_KEY": "your-api-key"
}
}
}
}