סקירה כללית על Gemini Live API

‫Gemini Live API מאפשר אינטראקציות קוליות ווידאו עם Gemini בזמן אמת עם זמן טעינה נמוך. הוא מעבד זרמים רציפים של אודיו, סרטונים או טקסט כדי לספק תשובות מיידיות בדיבור שנשמע כמו דיבור אנושי. כך נוצרת חוויה טבעית של שיחה עם המשתמשים.

התנסות ב-Gemini Live API ב-Vertex AI Studio

תרחישים לדוגמה

אפשר להשתמש ב-Gemini Live API כדי ליצור סוכנים קוליים וסוכני וידאו בזמן אמת למגוון תעשיות, כולל:

  • מסחר אלקטרוני וקמעונאות: עוזרים לקניות שמציעים המלצות מותאמות אישית וסוכני תמיכה שפותרים בעיות של לקוחות.
  • גיימינג: דמויות אינטראקטיביות שאי אפשר לשחק איתן (NPC), עוזרים במשחק ותרגום בזמן אמת של תוכן במשחק.
  • ממשקי דור הבא: חוויות שכוללות קול ווידאו ברובוטיקה, במשקפיים חכמים ובכלי רכב.
  • שירותי בריאות: עוזרים בתחום הבריאות לתמיכה במטופלים ולחינוך שלהם.
  • שירותים פיננסיים: יועצים מבוססי-AI לניהול כספים ולייעוץ בנושא השקעות.
  • Education: מנטורים מבוססי-AI ועוזרי למידה שמספקים הדרכה ומשוב בהתאמה אישית.

תכונות עיקריות

‫Gemini Live API מציע קבוצה מקיפה של תכונות לבניית סוכני קול ווידאו חזקים:

מפרטים טכניים

בטבלה הבאה מפורט המפרט הטכני של Gemini Live API:

קטגוריה פרטים
אופני קלט אודיו (אודיו PCM גולמי של 16 ביט, 16kHz, little-endian), תמונות/סרטון (JPEG 1FPS), טקסט
אופנויות פלט אודיו (אודיו PCM גולמי של 16 ביט, 24kHz, ‏ little-endian), טקסט
פרוטוקול חיבור WebSocket עם שמירת מצב (WSS)

מודלים נתמכים

המודלים הבאים תומכים ב-Gemini Live API. בוחרים את המודל המתאים בהתאם לדרישות האינטראקציה.

מזהה הדגם זמינות תרחיש לדוגמה תכונות עיקריות
gemini-live-2.5-flash-native-audio זמינות לכלל המשתמשים (GA) מומלץ. סוכנים קוליים עם זמן אחזור נמוך. תמיכה במעבר חלק בין שפות שונות ובטון רגשי.
  • אודיו מותאם
  • תמלולי אודיו
  • זיהוי פעילות קולית
  • שיחה מותאמת-רגש
  • אודיו פרואקטיבי
  • שימוש בכלים
gemini-live-2.5-flash-preview-native-audio-09-2025 גרסת טרום-השקה ציבורית יעילות בעלויות של סוכני קול בזמן אמת.
  • אודיו מותאם
  • תמלולי אודיו
  • זיהוי פעילות קולית
  • שיחה מותאמת-רגש
  • אודיו פרואקטיבי
  • שימוש בכלים

קדימה, מתחילים

בוחרים את המדריך שמתאים לסביבת הפיתוח:

מומלץ לשימוש קל

מתחברים אל Gemini Live API באמצעות Gen AI SDK כדי ליצור אפליקציה מולטי-מודאלית בזמן אמת עם קצה עורפי של Python.

Raw protocol control

אפשר להתחבר ל-Gemini Live API באמצעות WebSockets כדי לפתח אפליקציה מולטי-מודאלית בזמן אמת עם קצה קדמי ב-JavaScript ובק-אנד ב-Python.

Agent development kit

יוצרים סוכן ומשתמשים ב-ADK Streaming כדי להפעיל תקשורת קולית ווידאו.

שילובים עם שותפים

אם אתם רוצים לבצע שילוב עם חלק מהשותפים שלנו, הפלטפורמות האלה כבר שילבו את Gemini Live API באמצעות פרוטוקול WebRTC כדי לייעל את הפיתוח של אפליקציות אודיו ווידאו בזמן אמת.