Gemini Live API 總覽

Gemini Live API 可與 Gemini 進行低延遲的即時語音和視訊互動。這項技術會處理連續的音訊、影片或文字串流,並立即提供擬真的口語回覆。這可為使用者提供自然的對話體驗。

在 Vertex AI Studio 中試用 Gemini Live API

應用實例

Gemini Live API 可用於建構即時語音和視訊代理程式,適用於各種產業,包括:

  • 電子商務和零售業:提供個人化建議的購物助理,以及解決顧客問題的支援服務專員。
  • 遊戲:互動式非玩家角色 (NPC)、遊戲內說明助理,以及遊戲內容的即時翻譯。
  • 新一代介面:支援語音和視訊的機器人、智慧眼鏡和車輛體驗。
  • 醫療照護:為病患提供支援和教育資訊的健康夥伴。
  • 金融服務:提供財富管理和投資建議的 AI 顧問。
  • 教育:AI 導師和學習夥伴,提供個人化指導和意見回饋。

主要功能與特色

Gemini Live API 提供全方位功能,可建構強大的語音和視訊代理程式:

  • 高品質音訊: Gemini Live API 支援多種語言,可提供自然逼真的語音。
  • 支援多種語言: 支援 24 種語言。
  • 插話: 使用者隨時可以打斷模型,進行回應式互動。
  • 情感對話: 根據使用者輸入內容的措辭調整回覆風格和語氣。
  • 使用工具: 整合函式呼叫和 Google 搜尋等工具,進行動態互動。
  • 音訊轉錄稿: 提供使用者輸入內容和模型輸出內容的文字轉錄稿。
  • 語音對語音翻譯:(私人實驗功能) 專為語言間的低延遲翻譯而設計。
  • 主動式語音 (預覽版): 可控制模型回覆的時間和情境。

技術規格

下表列出 Gemini Live API 的技術規格:

類別 詳細資料
輸入模態 音訊 (原始 16 位元 PCM 音訊,16 kHz,小端序)、圖片/影片 (JPEG 1FPS)、文字
輸出模態 音訊 (原始 16 位元 PCM 音訊,24 kHz,小端序)、文字
通訊協定 具狀態的 WebSocket 連線 (WSS)

支援的模型

下列模型支援 Gemini Live API。根據互動需求選取適當模型。

模型 ID 可用性 用途 主要功能與特色
gemini-live-2.5-flash-native-audio 正式發布版 建議做法:低延遲語音代理。支援流暢切換語言和情緒基調。
  • 原生音訊
  • 音訊轉錄稿
  • 語音活動偵測
  • 情緒感知對話
  • 主動式音訊
  • 使用工具
gemini-live-2.5-flash-preview-native-audio-09-2025 公開預先發布版 即時語音代理的成本效益。
  • 原生音訊
  • 音訊轉錄稿
  • 語音活動偵測
  • 情緒感知對話
  • 主動式音訊
  • 使用工具
gemini-2.5-flash-s2st-exp-11-2025 私人實驗 語音轉語音翻譯。專為即時語音翻譯工作最佳化。
  • 語音翻譯

開始使用

選取與開發環境相符的指南:

建議使用,操作簡單

使用 Gen AI SDK 連線至 Gemini Live API,透過 Python 後端建構即時多模態應用程式。

原始通訊協定控制項

使用 WebSockets 連線至 Gemini Live API,建構即時多模態應用程式,其中包含 JavaScript 前端和 Python 後端。

Agent Development Kit

建立代理程式,並使用 Agent Development Kit (ADK) 串流功能啟用語音和視訊通訊。

與合作夥伴整合

如果您想與部分合作夥伴整合,這些平台已透過 WebRTC 協定整合 Gemini Live API,簡化即時音訊和視訊應用程式的開發作業。