npm package discovery and stats viewer.

Discover Tips

  • General search

    [free text search, go nuts!]

  • Package details

    pkg:[package-name]

  • User packages

    @[username]

Sponsor

Optimize Toolset

I’ve always been into building performant and accessible sites, but lately I’ve been taking it extremely seriously. So much so that I’ve been building a tool to help me optimize and monitor the sites that I build to make sure that I’m making an attempt to offer the best experience to those who visit them. If you’re into performant, accessible and SEO friendly sites, you might like it too! You can check it out at Optimize Toolset.

About

Hi, 👋, I’m Ryan Hefner  and I built this site for me, and you! The goal of this site was to provide an easy way for me to check the stats on my npm packages, both for prioritizing issues and updates, and to give me a little kick in the pants to keep up on stuff.

As I was building it, I realized that I was actually using the tool to build the tool, and figured I might as well put this out there and hopefully others will find it to be a fast and useful way to search and browse npm packages as I have.

If you’re interested in other things I’m working on, follow me on Twitter or check out the open source projects I’ve been publishing on GitHub.

I am also working on a Twitter bot for this site to tweet the most popular, newest, random packages from npm. Please follow that account now and it will start sending out packages soon–ish.

Open Software & Tools

This site wouldn’t be possible without the immense generosity and tireless efforts from the people who make contributions to the world and share their work via open source initiatives. Thank you 🙏

© 2025 – Pkg Stats / Ryan Hefner

n8n-nodes-gemini-ai

v0.6.8

Published

n8n community node for Google Gemini AI integration with text generation, file upload & analysis, and TTS (Text-to-Speech) support

Downloads

216

Readme

Banner image

n8n-nodes-gemini-ai

n8n community node for Google Gemini AI integration

Version 0.6.7 - Critical TTS Fix

What's New

  • Critical TTS Structure Fix: תיקון מבנה הבקשה לפי הדוקומנטציה הרשמית החדשה של Google
  • Fixed Request Format: שינוי מבנה speechConfig לפי הפורמט הנכון של Gemini API
  • Stable Audio Generation: TTS אמור לעבוד כעת בצורה מושלמת

TTS API Changes Fixed

  • Correct speechConfig Structure: שימוש במבנה הנכון speechConfig.voiceConfig.prebuiltVoiceConfig
  • Proper responseModalities: שימוש ב-["AUDIO"] במקום ["audio"]
  • Removed Extra model Field: הסרת שדה model מיותר מגוף הבקשה

Previous Versions

  • 0.6.6: תיקון המרת PCM ל-WAV + WAV header
  • 0.6.5: שיפור טיפול בשגיאות TTS ועיצוב SVG חדש
  • 0.6.4: הוספת 30 קולות + מודלים חדשים + מחיקת יצירת תמונות

תכונות

יצירת טקסט - שליחת שאילתות טקסט ל-Gemini AI עם מודלים מתקדמים
העלאת קבצים - העלאת קבצים באמצעות binary data מנודים קודמים
ניתוח קבצים - ניתוח תמונות, אודיו, PDF ועוד באמצעות AI
יצירת TTS - המרת טקסט לקול באיכות גבוהה עם 30 קולות שונים
תמיכה בפורמטים מרובים - אודיו (MP3, WAV, OGG, OGA), תמונות (JPEG, PNG), PDF, וידאו ועוד
העבודה עם זרימות n8n - קבלת קבצים מנודים קודמים ללא צורך בנתיבים
מודלים מתקדמים - תמיכה במודלים החדשים של Gemini 2.5 ו-2.0

התקנה

npm install n8n-nodes-gemini-ai

או חיפוש ב-n8n Community Nodes: n8n-nodes-gemini-ai

הגדרה

  1. צור מפתח API ב-Google AI Studio
  2. ב-n8n, הוסף את ה-Credentials החדש: "Gemini API"
  3. הזן את ה-API Key שיצרת

שימוש

🔤 יצירת טקסט

פעולה בסיסית לשליחת שאילתות טקסט ל-Gemini AI.

פרמטרים:

  • Prompt - השאילתה הראשית
  • System Prompt - הוראות מערכת (אופציונלי)
  • Model - בחירת מודל Gemini:
    • Gemini 2.5 Flash Preview - מודל מתקדם עם חשיבה דינמית
    • Gemini 2.5 Pro Preview - חשיבה מתקדמת והבנה מולטימדיה משופרת
    • Gemini 2.0 Flash - תכונות דור הבא, מהירות וזמן אמת
    • Gemini 2.0 Flash-Lite - חסכוני עם זמן אחזור קצר
    • Gemini 1.5 Flash - מהיר ויעיל
    • Gemini 1.5 Flash-8B - למשימות בנפח גבוה עם אינטליגנציה נמוכה יותר
    • Gemini 1.5 Pro - למשימות מורכבות הדורשות יותר אינטליגנציה
  • Temperature - רמת היצירתיות (0-2)
  • Max Output Tokens - מספר מקסימלי של מילים בתגובה
  • Response Format - פורמט התגובה (Text/JSON)

📁 העלאת קבצים

מעלה קבצים מנודים קודמים ל-Gemini Files API.

שימוש:

  1. השתמש בנוד שמייצר קובץ בינארי (כמו "Read Binary File", "HTTP Request", "Google Drive" וכו')
  2. חבר את הנוד הזה אחרי הנוד שיצר את הקובץ
  3. בחר את שם ה-Binary Property (בדרך כלל "data")
  4. הזן שם תצוגה לקובץ (אופציונלי)

פרמטרים:

  • Binary Property - שם המאפיין הבינארי (בדרך כלל "data")
  • Display Name - שם לתצוגה בGemini (אופציונלי, יחזור לשם הקובץ המקורי)

פלט:

  • fileUri - URI של הקובץ המועלה (לשימוש בפעולת ניתוח)
  • fileName - שם הקובץ
  • mimeType - סוג הקובץ
  • sizeBytes - גודל הקובץ

🔍 ניתוח קבצים

מנתח קבצים שהועלו עם Gemini AI.

פרמטרים:

  • File URI - URI של הקובץ (מפעולת ההעלאה)
  • File MIME Type - סוג הקובץ (שדה חופשי לכתיבה - תוכל להזין כל MIME type)
  • Prompt - מה תרצה לדעת על הקובץ
  • Model - מודל Gemini לניתוח (כל המודלים הזמינים כמו ביצירת טקסט)

סוגי קבצים נתמכים:

  • אודיו: MP3, WAV, OGG, OGA
  • תמונות: JPEG, PNG
  • מסמכים: PDF
  • וידאו: MP4, MOV
  • אחר: קבצים נוספים

🎤 יצירת TTS (Text-to-Speech)

המרת טקסט לאודיו באיכות גבוהה עם 30 קולות שונים.

פרמטרים:

  • Text to Speak - הטקסט שתרצה להמיר לקול (תוכל לכלול הנחיות סגנון כמו "Say cheerfully:")
  • TTS Model - בחירת מודל TTS:
    • Gemini 2.5 Flash Preview TTS - מהיר עם זמן אחזור קצר
    • Gemini 2.5 Pro Preview TTS - איכות גבוהה עם שליטה משופרת
  • Voice - בחירת הקול מתוך 30 אפשרויות:
    • Zephyr (Bright), Puck (Upbeat), Charon (Informative)
    • Kore (Firm), Fenrir (Enthusiastic), Leda (Young)
    • Orus (Friendly), Aoede (Breezy), Callirrhoe (Light)
    • Autonoe (Bright), Enceladus (Breathy), Iapetus (Clear)
    • Umbriel (Calm), Algieba (Smooth), Despina (Smooth)
    • Erinome (Clean), Algenib (Gravelly), Rasalgethi (Informative)
    • Laomedeia (Upbeat), Achernar (Soft), Alnilam (Firm)
    • Schedar (Even), Gacrux (Mature), Pulcherrima (Expressive)
    • Achird (Friendly), Zubenelgenubi (Casual), Vindemiatrix (Gentle)
    • Sadachbia (Energetic), Sadaltager (Expert), Sulafat (Warm)

פלט:

  • Binary Audio File - קובץ אודיו בפורמט WAV
  • Metadata - מידע על המודל, הקול וגודל הקובץ

דוגמאות זרימות עבודה

📸 ניתוח תמונה

Read Binary File → Upload File → Analyze File

🎵 תמלול אודיו

HTTP Request (download audio) → Upload File → Analyze File

📄 סיכום PDF

Google Drive (download PDF) → Upload File → Analyze File

🔗 ניתוח קובץ מURL

HTTP Request (binary=true) → Upload File → Analyze File

🎤 יצירת אודיו מטקסט

Manual Trigger → Gemini (Generate TTS) → Write Binary File

🔄 זרימה מורכבת - טקסט לאודיו לתמלול

Manual Trigger → Gemini (Generate TTS) → Gemini (Upload File) → Gemini (Analyze File)

הערות טכניות

  • מגבלות גודל: עד 20MB לקובץ (מגבלת Google)
  • זמן תפוגה: קבצים נמחקים אוטומטית אחרי 48 שעות
  • עלויות: חיוב לפי גודל הקובץ ומורכבות הניתוח
  • זמן עיבוד: קבצים גדולים יכולים לקחת יותר זמן
  • Binary Data: הנוד מצפה לקבל קבצים בפורמט binary מנודים קודמים
  • TTS: נוצר אודיו בפורמט WAV באיכות גבוהה עם תמיכה ב-30 קולות שונים
  • מודלים מתקדמים: תמיכה מלאה במודלים החדשים של Gemini 2.5 ו-2.0

דוגמאות ספציפיות

תמלול שיחה מקובץ אודיו

Prompt לניתוח: "תמלל את השיחה הזו ותן לי סיכום של הנקודות העיקריות"

ניתוח תמונה רפואית

Prompt לניתוח: "תאר את התמונה הזו ותן התרעות על ממצאים חשובים"

סיכום מסמך PDF ארוך

Prompt לניתוח: "תן לי סיכום של 3 נקודות עיקריות במסמך הזה"

יצירת TTS עם הנחיות סגנון

Text to Speak: "Say cheerfully: Have a wonderful day!"
TTS Model: Gemini 2.5 Flash Preview TTS
Voice: Kore (Firm)

יצירת אודיו ספרותי

Text to Speak: "Say in a spooky whisper: By the pricking of my thumbs... Something wicked this way comes"
Voice: Umbriel (Calm)

תמיכה וקישורים

רישיון

MIT License

🛠️ פיתוח

הגדרת סביבת פיתוח

git clone <repository-url>
cd n8n-nodes-gemini-ai
npm install
npm run dev  # עבור watching mode

בנייה

npm run build

Linting

npm run lint
npm run lintfix  # תיקון אוטומטי

פורמט קוד

npm run format

🔍 פתרון בעיות

שגיאות נפוצות

"API Key not found"

  • ודא שיצרת credential עם API Key תקין
  • בדק שה-credential מחובר לנוד

"Model not found"

  • ודא שאתה משתמש במודל תקין
  • בדק שה-API Key שלך תומך במודל הנבחר

"Rate limit exceeded"

  • המתן מספר דקות לפני ניסיון חוזר
  • בדק את ה-quota ב-Google Cloud Console

"Invalid response format"

  • ודא שהפרומפט תקין
  • בדק שלא חורגים ממגבלות הטוקנים

📋 API Reference

Gemini API Endpoints

  • Base URL: https://generativelanguage.googleapis.com/v1beta
  • Generate Content: /models/{model}:generateContent

מודלים נתמכים

מודלי טקסט וניתוח קבצים:

  • gemini-2.5-flash-preview-05-20 - מודל מתקדם עם חשיבה דינמית
  • gemini-2.5-pro-preview-05-06 - חשיבה מתקדמת והבנה מולטימדיה משופרת
  • gemini-2.0-flash - תכונות דור הבא, מהירות וזמן אמת
  • gemini-2.0-flash-lite - חסכוני עם זמן אחזור קצר
  • gemini-1.5-flash - מהיר ויעיל
  • gemini-1.5-flash-8b - למשימות בנפח גבוה עם אינטליגנציה נמוכה יותר
  • gemini-1.5-pro - למשימות מורכבות הדורשות יותר אינטליגנציה

מודלי TTS:

  • gemini-2.5-flash-preview-tts - מהיר עם זמן אחזור קצר
  • gemini-2.5-pro-preview-tts - איכות גבוהה עם שליטה משופרת

🤝 תרומה

מוזמנים לתרום לפרויקט!

  1. Fork את הפרויקט
  2. צרו branch חדש (git checkout -b feature/amazing-feature)
  3. Commit השינויים (git commit -m 'Add amazing feature')
  4. Push ל-branch (git push origin feature/amazing-feature)
  5. פתחו Pull Request

📝 רישיון

MIT License - ראו קובץ LICENSE לפרטים

🔗 קישורים

📞 תמיכה

יש בעיה? פתחו issue ב-GitHub או צרו קשר דרך:


נוצר עם ❤️ עבור קהילת n8n