gemini-screenshot-mcp
v0.1.0
Published
Gemini CLI için ekran görüntüsü alabilen ve OCR analizi yapabilen bir MCP aracı.
Maintainers
Readme
Gemini CLI Screenshot MCP
Bu proje, Gemini CLI için ekran görüntüsü alabilen ve OCR/Vision işlemleri yapabilen bir MCP (Model Context Protocol) aracıdır. Windows üzerinde çalışacak şekilde tasarlanmıştır.
Kurulum
- Python Kurulumu: Python 3.11 veya üzerinin sisteminizde yüklü olduğundan emin olun.
- Bağımlılıklar:
python -m venv venv .\venv\Scripts\activate pip install -r requirements.txt - Tesseract OCR: Projenin metin okuyabilmesi için sisteminizde Tesseract OCR kurulu olması gerekir. Kurduktan sonra,
.env.exampledosyasını.envolarak kopyalayıp Tesseract yolunu güncelleyin. - (Opsiyonel) Türkçe dil desteği için Tesseract kurulumu sırasında Türkçe (tur) paketini seçtiğinizden emin olun.
Kullanım
Proje iki ana bileşenden oluşur: MCP Server ve Hotkey Listener.
1. Hotkey Listener'ı Başlatmak
Ekran yakalama kısayollarını (örn. Ctrl+Alt+G) dinlemek için bu scripti çalıştırın. Windows'ta global hotkey için yönetici izni gerekebilir.
python scripts/run_hotkey_listener.py2. MCP Server'ı Başlatmak (Gemini CLI için)
Gemini CLI'nin bu aracı bir tool olarak tanıması için MCP sunucusunu başlatın:
python scripts/run_mcp_server.pyNot: Gemini CLI konfigürasyonunuzda bu script'i çalıştıran komutu MCP server olarak eklemelisiniz.
Mimari & Özellikler (MVP)
mssile tam ekran görüntüsü alma.pytesseractile OCR okuma.opencvile basit görüntü işleme presetleri (terminal, dialog).- Alınan ekran görüntülerini
cache/dizininde saklama ve JSON sonuçlarını tutma. screenshot.capture,screenshot.lastvescreenshot.ocraraçları MCP üzerinden expose edilmiştir.
