Gemini Live API מאפשר אינטראקציות קוליות ווידאו עם Gemini בזמן אמת עם זמן טעינה נמוך. הוא מעבד זרמים רציפים של אודיו, סרטונים או טקסט כדי לספק תשובות מיידיות בדיבור שנשמע כמו דיבור אנושי. כך נוצרת חוויה טבעית של שיחה עם המשתמשים.
התנסות ב-Gemini Live API ב-Vertex AI Studio
תרחישים לדוגמה
אפשר להשתמש ב-Gemini Live API כדי ליצור סוכנים קוליים וסוכני וידאו בזמן אמת למגוון תעשיות, כולל:
- מסחר אלקטרוני וקמעונאות: עוזרים לקניות שמציעים המלצות מותאמות אישית וסוכני תמיכה שפותרים בעיות של לקוחות.
- גיימינג: דמויות אינטראקטיביות שאי אפשר לשחק איתן (NPC), עוזרים במשחק ותרגום בזמן אמת של תוכן במשחק.
- ממשקי דור הבא: חוויות שכוללות קול ווידאו ברובוטיקה, במשקפיים חכמים ובכלי רכב.
- שירותי בריאות: עוזרים בתחום הבריאות לתמיכה במטופלים ולחינוך שלהם.
- שירותים פיננסיים: יועצים מבוססי-AI לניהול כספים ולייעוץ בנושא השקעות.
- Education: מנטורים מבוססי-AI ועוזרי למידה שמספקים הדרכה ומשוב בהתאמה אישית.
תכונות עיקריות
Gemini Live API מציע קבוצה מקיפה של תכונות לבניית סוכני קול ווידאו חזקים:
- איכות אודיו גבוהה: Gemini Live API מספק דיבור טבעי שנשמע מציאותי בכמה שפות.
- תמיכה בכמה שפות: אפשר לנהל שיחה ב-24 שפות נתמכות.
- התפרצות לשיחה: המשתמשים יכולים לקטוע את המודל בכל שלב כדי לנהל אינטראקציות דינמיות.
- שיחה מותאמת-רגש: התאמת סגנון התגובה והטון שלה לביטוי הקלט של המשתמש.
- שימוש בכלים: משלב כלים כמו קריאה לפונקציות וחיפוש Google כדי ליצור אינטראקציות דינמיות.
- תמלילי אודיו: מספק תמלילי טקסט של קלט של משתמשים ופלט המודל.
- שמע פרואקטיבי: (גרסת Preview) מאפשר לכם לקבוע מתי המודל יגיב ובאילו הקשרים.
מפרטים טכניים
בטבלה הבאה מפורט המפרט הטכני של Gemini Live API:
| קטגוריה | פרטים |
|---|---|
| אופני קלט | אודיו (אודיו PCM גולמי של 16 ביט, 16kHz, little-endian), תמונות/סרטון (JPEG 1FPS), טקסט |
| אופנויות פלט | אודיו (אודיו PCM גולמי של 16 ביט, 24kHz, little-endian), טקסט |
| פרוטוקול | חיבור WebSocket עם שמירת מצב (WSS) |
מודלים נתמכים
המודלים הבאים תומכים ב-Gemini Live API. בוחרים את המודל המתאים בהתאם לדרישות האינטראקציה.
| מזהה הדגם | זמינות | תרחיש לדוגמה | תכונות עיקריות |
|---|---|---|---|
gemini-live-2.5-flash-native-audio |
זמינות לכלל המשתמשים (GA) | מומלץ. סוכנים קוליים עם זמן אחזור נמוך. תמיכה במעבר חלק בין שפות שונות ובטון רגשי. |
|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
גרסת טרום-השקה ציבורית | יעילות בעלויות של סוכני קול בזמן אמת. |
|
קדימה, מתחילים
בוחרים את המדריך שמתאים לסביבת הפיתוח:
הדרכה בנושא Gen AI SDK
מתחברים אל Gemini Live API באמצעות Gen AI SDK כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם קצה עורפי של Python.
WebSocket tutorial
אפשר להתחבר ל-Gemini Live API באמצעות WebSockets כדי לפתח אפליקציה מולטי-מודאלית בזמן אמת עם קצה קדמי ב-JavaScript ובק-אנד ב-Python.
מדריך ל-ADK
יוצרים סוכן ומשתמשים ב-ADK Streaming כדי להפעיל תקשורת קולית ווידאו.
שילובים עם שותפים
אם אתם רוצים לבצע שילוב עם חלק מהשותפים שלנו, הפלטפורמות האלה כבר שילבו את Gemini Live API באמצעות פרוטוקול WebRTC כדי לייעל את הפיתוח של אפליקציות אודיו ווידאו בזמן אמת.
