mcp-speech-recognition
v1.0.23
Published
语音识别MCP服务 - 基于豆包语音识别API的音频文件转文字工具
Maintainers
Readme
语音识别 MCP 服务
基于豆包语音识别API的MCP服务,支持音频文件转文字功能。
功能特性
- 支持多种音频格式:wav、mp3、ogg
- 支持多种语言识别:中英文、上海话、闽南语、四川话、陕西话、粤语等
- 异步任务处理,完成后自动推送通知
- 完整的错误处理和参数验证
- 结果以“文本文件URL”形式返回,不直接返回原始文本内容
环境变量
在使用前需要设置以下环境变量:
VOLCENGINE_API_KEY: 豆包语音识别API的Access TokenVOLCENGINE_APP_ID: 豆包语音识别API的App IDVOLC_BIGASR_PRICE_PER_MIN_YUAN(可选): 每分钟计费单价(元)。用于在进度查询完成时换算本次消耗金额。
工具列表
speech_recognition
提交音频文件进行语音识别
参数:
audioUrl(必需): 音频文件的URL地址language(可选): 指定识别语言,如 "en-US", "ja-JP" 等format(必需): 音频容器格式 (raw/wav/mp3/ogg)enableItn(可选): 是否启用文本规范化,默认trueenablePunc(可选): 是否启用标点符号,默认falseenableSpeakerInfo(可选): 是否启用说话人聚类分离,默认false
query_recognition_progress
查询语音识别任务进度(可选)
💡 提示:任务处理完成后,系统会自动推送通知,您无需主动轮询查询。此工具仅在需要手动检查任务状态时使用。
参数:
taskId(必需): 任务ID
返回约定:
- 当识别完成时,结果以“文本文件URL”的形式返回(内容类型为
resource_link,包含name,uri,mimeType: text/plain),可直接下载查看。 - 进度的JSON信息会同时返回,但不包含原始文本,仅包含
text_file_url、utterances、duration、model_name与cost等字段。 - 费用计算基于音频时长向上取整到分钟,并乘以
VOLC_BIGASR_PRICE_PER_MIN_YUAN(单位:元/分钟)。
使用示例
# 安装依赖
npm install
# 构建项目
npm run build
# 启动服务
npm startAPI文档
详细API文档请参考:https://www.volcengine.com/docs/6561/1354868
