Gemini Live API מאפשר אינטראקציות קוליות ווידאו עם Gemini בזמן אמת עם זמן טעינה נמוך. הוא מעבד זרמים רציפים של אודיו, סרטונים או טקסט כדי לספק תשובות מיידיות שמנוסחות כמו תשובות של בני אדם. כך נוצרת חוויה טבעית של שיחה עם המשתמשים.
איך מנסים את Gemini Live API ב-Agent Platform Studio
תרחישים לדוגמה
אפשר להשתמש ב-Gemini Live API כדי ליצור סוכנים קוליים וסוכני וידאו בזמן אמת למגוון תעשיות, כולל:
- מסחר אלקטרוני וקמעונאות: עוזרים לקניות שמציעים המלצות מותאמות אישית וסוכני תמיכה שפותרים בעיות של לקוחות.
- גיימינג: דמויות אינטראקטיביות שאי אפשר לשחק איתן (NPC), עזרה במשחק, ותרגום בזמן אמת של תוכן במשחק.
- ממשקי הדור הבא: חוויות מבוססות קול ווידאו ברובוטיקה, במשקפיים חכמים ובכלי רכב.
- שירותי בריאות: עוזרים בתחום הבריאות לתמיכה במטופלים ולחינוך שלהם.
- שירותים פיננסיים: יועצים מבוססי-AI לניהול כספים ולייעוץ בנושא השקעות.
- Education: מנטורים מבוססי-AI ועוזרי למידה שמספקים הדרכה ומשוב בהתאמה אישית.
תכונות עיקריות
Gemini Live API מציע קבוצה מקיפה של תכונות ליצירת סוכני קול ווידאו חזקים:
- איכות אודיו גבוהה: Gemini Live API מספק דיבור טבעי שנשמע מציאותי בכמה שפות.
- תמיכה בשפות רבות: אפשר לנהל שיחה ב-24 שפות נתמכות.
- התפרצות לשיחה: המשתמשים יכולים להפריע למודל בכל שלב כדי לנהל אינטראקציות דינמיות.
- שיחה מותאמת-רגש: התאמת סגנון התגובה והטון שלהם לביטוי הקלט של המשתמש.
- שימוש בכלים: משלב כלים כמו קריאה לפונקציות וחיפוש Google כדי ליצור אינטראקציות דינמיות.
- תמלילי אודיו: מספק תמלילי טקסט של קלט של משתמשים והפלט מהמודל.
- שמע פרואקטיבי: (גרסת Preview) מאפשר לכם לשלוט מתי המודל מגיב ובאילו הקשרים.
מפרטים טכניים
בטבלה הבאה מפורט המפרט הטכני של Gemini Live API:
| קטגוריה | פרטים |
|---|---|
| אופני קלט | אודיו (אודיו PCM גולמי באיכות 16 ביט, 16kHz, little-endian), תמונות/וידאו (JPEG 1FPS), טקסט |
| אופנויות פלט | אודיו (אודיו PCM גולמי של 16 ביט, 24kHz, little-endian), טקסט |
| פרוטוקול | חיבור WebSocket עם שמירת מצב (WSS) |
מודלים נתמכים
המודלים הבאים תומכים ב-Gemini Live API. בוחרים את המודל המתאים בהתאם לדרישות האינטראקציה.
| מזהה המודל | זמינות | תרחיש שימוש | תכונות עיקריות |
|---|---|---|---|
gemini-live-2.5-flash-native-audio |
זמינות לכלל המשתמשים (GA) | מומלץ. סוכנים קוליים עם זמן אחזור נמוך. תמיכה במעבר חלק בין שפות ובטון רגשי. |
|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
גרסת טרום-השקה ציבורית | יעילות בעלויות של סוכנים קוליים בזמן אמת. |
|
קדימה, מתחילים
בוחרים את המדריך שמתאים לסביבת הפיתוח:
מדריך ל-Gen AI SDK
מתחברים ל-Gemini Live API באמצעות Gen AI SDK כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם קצה עורפי (backend) ב-Python.
WebSocket tutorial
אפשר להתחבר ל-Gemini Live API באמצעות WebSockets כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם ממשק קצה ב-JavaScript ובקצה העורפי ב-Python.
מדריך ל-ADK
יצירת סוכן ושימוש בסטרימינג של ערכת פיתוח סוכנים (ADK) כדי להפעיל תקשורת קולית ווידאו.
שילובים עם שותפים
אם אתם רוצים לבצע שילוב עם חלק מהשותפים שלנו, הפלטפורמות האלה כבר שילבו את Gemini Live API באמצעות פרוטוקול WebRTC כדי לייעל את הפיתוח של אפליקציות אודיו ווידאו בזמן אמת.
