סקירה כללית על Gemini Live API

‫Gemini Live API מאפשר אינטראקציות קוליות ווידאו עם Gemini בזמן אמת עם זמן טעינה נמוך. הוא מעבד זרמים רציפים של אודיו, סרטונים או טקסט כדי לספק תשובות מיידיות שמנוסחות כמו תשובות של בני אדם. כך נוצרת חוויה טבעית של שיחה עם המשתמשים.

איך מנסים את Gemini Live API ב-Agent Platform Studio

תרחישים לדוגמה

אפשר להשתמש ב-Gemini Live API כדי ליצור סוכנים קוליים וסוכני וידאו בזמן אמת למגוון תעשיות, כולל:

  • מסחר אלקטרוני וקמעונאות: עוזרים לקניות שמציעים המלצות מותאמות אישית וסוכני תמיכה שפותרים בעיות של לקוחות.
  • גיימינג: דמויות אינטראקטיביות שאי אפשר לשחק איתן (NPC), עזרה במשחק, ותרגום בזמן אמת של תוכן במשחק.
  • ממשקי הדור הבא: חוויות מבוססות קול ווידאו ברובוטיקה, במשקפיים חכמים ובכלי רכב.
  • שירותי בריאות: עוזרים בתחום הבריאות לתמיכה במטופלים ולחינוך שלהם.
  • שירותים פיננסיים: יועצים מבוססי-AI לניהול כספים ולייעוץ בנושא השקעות.
  • Education: מנטורים מבוססי-AI ועוזרי למידה שמספקים הדרכה ומשוב בהתאמה אישית.

תכונות עיקריות

‫Gemini Live API מציע קבוצה מקיפה של תכונות ליצירת סוכני קול ווידאו חזקים:

מפרטים טכניים

בטבלה הבאה מפורט המפרט הטכני של Gemini Live API:

קטגוריה פרטים
אופני קלט אודיו (אודיו PCM גולמי באיכות 16 ביט, 16kHz, little-endian), תמונות/וידאו (JPEG 1FPS), טקסט
אופנויות פלט אודיו (אודיו PCM גולמי של 16 ביט, 24kHz, little-endian), טקסט
פרוטוקול חיבור WebSocket עם שמירת מצב (WSS)

מודלים נתמכים

המודלים הבאים תומכים ב-Gemini Live API. בוחרים את המודל המתאים בהתאם לדרישות האינטראקציה.

מזהה המודל זמינות תרחיש שימוש תכונות עיקריות
gemini-live-2.5-flash-native-audio זמינות לכלל המשתמשים (GA) מומלץ. סוכנים קוליים עם זמן אחזור נמוך. תמיכה במעבר חלק בין שפות ובטון רגשי.
  • אודיו מותאם
  • תמלולי אודיו
  • זיהוי פעילות קולית
  • שיחה מותאמת-רגש
  • אודיו פרואקטיבי
  • שימוש בכלי
gemini-live-2.5-flash-preview-native-audio-09-2025 גרסת טרום-השקה ציבורית יעילות בעלויות של סוכנים קוליים בזמן אמת.
  • אודיו מותאם
  • תמלולי אודיו
  • זיהוי פעילות קולית
  • שיחה מותאמת-רגש
  • אודיו פרואקטיבי
  • שימוש בכלי

קדימה, מתחילים

בוחרים את המדריך שמתאים לסביבת הפיתוח:

מומלץ לשימוש קל

מתחברים ל-Gemini Live API באמצעות Gen AI SDK כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם קצה עורפי (backend) ב-Python.

Raw protocol control

אפשר להתחבר ל-Gemini Live API באמצעות WebSockets כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם ממשק קצה ב-JavaScript ובקצה העורפי ב-Python.

Agent development kit

יצירת סוכן ושימוש בסטרימינג של ערכת פיתוח סוכנים (ADK) כדי להפעיל תקשורת קולית ווידאו.

שילובים עם שותפים

אם אתם רוצים לבצע שילוב עם חלק מהשותפים שלנו, הפלטפורמות האלה כבר שילבו את Gemini Live API באמצעות פרוטוקול WebRTC כדי לייעל את הפיתוח של אפליקציות אודיו ווידאו בזמן אמת.