npm package discovery and stats viewer.

Discover Tips

  • General search

    [free text search, go nuts!]

  • Package details

    pkg:[package-name]

  • User packages

    @[username]

Sponsor

Optimize Toolset

I’ve always been into building performant and accessible sites, but lately I’ve been taking it extremely seriously. So much so that I’ve been building a tool to help me optimize and monitor the sites that I build to make sure that I’m making an attempt to offer the best experience to those who visit them. If you’re into performant, accessible and SEO friendly sites, you might like it too! You can check it out at Optimize Toolset.

About

Hi, 👋, I’m Ryan Hefner  and I built this site for me, and you! The goal of this site was to provide an easy way for me to check the stats on my npm packages, both for prioritizing issues and updates, and to give me a little kick in the pants to keep up on stuff.

As I was building it, I realized that I was actually using the tool to build the tool, and figured I might as well put this out there and hopefully others will find it to be a fast and useful way to search and browse npm packages as I have.

If you’re interested in other things I’m working on, follow me on Twitter or check out the open source projects I’ve been publishing on GitHub.

I am also working on a Twitter bot for this site to tweet the most popular, newest, random packages from npm. Please follow that account now and it will start sending out packages soon–ish.

Open Software & Tools

This site wouldn’t be possible without the immense generosity and tireless efforts from the people who make contributions to the world and share their work via open source initiatives. Thank you 🙏

© 2026 – Pkg Stats / Ryan Hefner

@hsiehchenwei/mcp-gemini-transcriber

v1.1.1

Published

MCP 音訊轉逐字稿工具(使用 Gemini API)- 支援語者識別與情緒分析

Readme

MCP Gemini Transcriber

音訊轉逐字稿 MCP 工具(使用 Gemini API),支援語者識別與情緒分析。

功能特色

🎵 音訊轉逐字稿

  • 自動分段:長音檔自動切割成 5 分鐘區塊
  • 平行處理:最多 25 個任務同時進行
  • 時間戳調整:自動調整各段時間戳,確保連續
  • 語者識別:識別不同發言者並自動命名
  • 情緒分析:分析對話情緒流動與關鍵時刻
  • 失敗重試:自動重試失敗片段(2 次)

🖼️ 圖片描述

  • 多詳細程度:簡單/一般/詳細三種模式
  • Markdown 輸出:結構化描述

支援格式

音訊

.mp3, .m4a, .wav, .webm, .ogg, .flac, .aiff, .aac

圖片

.png, .jpg, .jpeg, .webp, .heic, .heif

快速開始(推薦:使用 npx)

無需下載或安裝,直接使用 npx 執行:

1. 設定 Cursor MCP

編輯 ~/.cursor/mcp.json

{
  "mcpServers": {
    "gemini-transcriber": {
      "command": "npx",
      "args": [
        "-y",
        "@hsiehchenwei/mcp-gemini-transcriber"
      ],
      "env": {
        "GEMINI_API_KEY": "你的-Gemini-API-Key",
        "CURSOR_WORKSPACE_ROOT": "${workspaceFolder}"
      }
    }
  }
}

2. 重啟 Cursor

完成!工具會自動下載並執行,無需本地安裝。

環境變數說明

  • GEMINI_API_KEY(必填):你的 Gemini API 金鑰
  • CURSOR_WORKSPACE_ROOT(選填):工作區根目錄,用於解析相對路徑
  • DEFAULT_MODE(選填):預設轉錄模式,可設定為 fastspeaker
    • 未設定時預設為 fast(快速模式)
    • 設定為 speaker 時,預設使用語者識別+情緒分析模式
    • 在對話中仍可指定 mode 參數覆蓋預設值

本地安裝(可選)

如果你想在本地安裝:

npm install -g @hsiehchenwei/mcp-gemini-transcriber

然後在 mcp.json 中使用:

{
  "mcpServers": {
    "gemini-transcriber": {
      "command": "mcp-gemini-transcriber",
      "env": {
        "GEMINI_API_KEY": "你的-Gemini-API-Key",
        "CURSOR_WORKSPACE_ROOT": "${workspaceFolder}",
        "DEFAULT_MODE": "fast"
      }
    }
  }
}

系統需求

需要 FFmpeg

# macOS
brew install ffmpeg

# Ubuntu/Debian
sudo apt install ffmpeg

# Windows
# 下載並安裝:https://ffmpeg.org/download.html

使用方式

音訊轉逐字稿

請轉錄這個音檔:/path/to/audio.m4a

speaker 模式輸出包含

  • 摘要
  • 情緒流動(簡短段落,包含經典句子)
  • 語者資訊(辨識出的名字和特徵)
  • 逐字稿(已替換為辨識出的名字,含情緒轉折標記)

圖片描述

請描述這張圖片:/path/to/image.jpg

列出支援格式

請列出支援的檔案格式

分析特定語者

分析音頻中 01:18 處的語者資訊

工具說明

transcribe_audio

| 參數 | 必填 | 說明 | |------|------|------| | audio_path | ✅ | 音訊檔案路徑 | | output_path | ❌ | 輸出路徑(預設同目錄 .md) | | model | ❌ | 模型(預設 gemini-3-flash-preview) | | mode | ❌ | 模式:fast(快速,預設)或 speaker(語者識別+情緒分析) |

模式說明

  • fast(預設):快速模式,平行轉錄,不進行語者識別和情緒分析
  • speaker:逐段處理,同時進行語者識別和情緒分析,輸出包含語者資訊、情緒流動摘要和逐字稿(含情緒轉折標記)

預設模式設定

  • 預設模式為 fast
  • 可透過環境變數 DEFAULT_MODE 設定預設模式(fastspeaker
  • 在對話中指定 mode 參數可覆蓋預設值

describe_image

| 參數 | 必填 | 說明 | |------|------|------| | image_path | ✅ | 圖片路徑 | | output_path | ❌ | 輸出路徑 | | detail_level | ❌ | simple/normal/detailed |

處理流程

原始音訊
    ↓
ffprobe 取得總時長
    ↓
ffmpeg 分割(每段 5 分鐘)
    ↓
平行上傳 Gemini Files API
    ↓
平行轉錄(最多 25 並行)
    ↓
調整時間戳 + 合併
    ↓
產生摘要 + 關鍵字
    ↓
輸出 Markdown

可用模型

| 模型 | 說明 | |------|------| | gemini-3-flash-preview | 預設,速度快 | | gemini-2.5-flash | Flash 系列 | | gemini-2.5-pro | 高品質 |

發布狀態

✅ 已發布到 npm:@chenwei/mcp-gemini-transcriber

使用 npx 即可直接使用,無需本地安裝:

{
  "mcpServers": {
    "gemini-transcriber": {
      "command": "npx",
      "args": ["-y", "@chenwei/mcp-gemini-transcriber"],
      "env": {
        "GEMINI_API_KEY": "your-key"
      }
    }
  }
}

授權

MIT License