Live API 總覽

透過 Live API,您可以與 Gemini 進行低延遲的即時語音和視訊互動。這項技術會處理連續的音訊、影片或文字串流,並立即提供擬真的口語回覆。這可為使用者提供自然的對話體驗。

主要功能與特色

Live API 提供完整的功能,可建構強大的語音代理程式:

  • 原生音訊: 提供自然逼真的語音,並提升多語言效能。
  • 支援多種語言: 支援 24 種語言的對話。
  • 語音活動偵測 (VAD): 自動處理中斷和輪流說話的情況。
  • 情感對話:根據使用者輸入內容的措辭調整回覆風格和語氣。
  • 主動式語音: 可控制模型回覆的時機和情境。
  • 思考: 針對複雜查詢,先使用隱藏的推理權杖「思考」,再開始說話。
  • 工具 用途: 整合函式呼叫和 Google 搜尋等工具,進行動態互動。
  • 音訊轉錄稿: 提供使用者輸入內容和模型輸出內容的文字轉錄稿。
  • 語音轉語音翻譯: 針對語言間的低延遲翻譯進行最佳化。

技術規格

下表列出 Live API 的技術規格:

類別 詳細資料
輸入模態 音訊 (PCM 16kHz)、影片 (1FPS)、文字
輸出模態 音訊 (PCM 24kHz)、文字
通訊協定 具狀態的 WebSocket 連線 (WSS)
延遲時間 即時串流,提供即時意見回饋

支援的模型

下列機型支援 Live API。根據互動需求選取適當模型。

模型 ID 可用性 用途 主要功能與特色
gemini-live-2.5-flash-preview-native-audio-09-2025 公開預先發布版 即時語音代理程式的成本效益。 原生音訊
音訊轉錄
語音活動偵測
情感對話
主動式音訊
工具使用
gemini-2.5-flash-s2st-exp-11-2025 公開實驗 語音轉語音翻譯 (實驗功能)。專為翻譯工作最佳化。 原生音訊
音訊轉錄
工具用途
語音轉語音翻譯

架構與整合

將 Live API 整合至應用程式的方式主要有兩種:伺服器對伺服器用戶端對伺服器。選擇符合安全性與平台需求的選項。

伺服器對伺服器

建議在正式環境 (例如行動應用程式、安全企業工具和電話整合) 中使用伺服器對伺服器架構。用戶端應用程式會將音訊串流傳輸至安全的後端伺服器。接著,伺服器會管理與 Google 的 WebSocket 連線。

這個方法可確保 API 金鑰安全無虞,並讓您在將音訊傳送至 Gemini 前修改音訊或新增邏輯。不過,這會增加少許網路延遲。

用戶端到伺服器

用戶端對伺服器架構適用於網頁應用程式、快速展示和內部工具。網頁瀏覽器會使用 WebSocket 直接連線至 Live API。

這個方法可將延遲時間降至最低,並簡化展示架構。請注意,這種做法會將 API 金鑰公開給前端使用者,因此有安全風險。在實際工作環境中,您必須謹慎使用 Proxy 或暫時性權杖管理。

開始使用

請選取與開發環境相符的指南:

建議使用,操作簡單

使用 Gen AI SDK 連線至 Live API,然後將音訊檔案傳送至 Gemini,並接收音訊回覆。

原始通訊協定控制項

使用 WebSockets 連線至 Live API,然後將音訊檔案傳送至 Gemini,並接收音訊回應。

Agent Development Kit

建立代理程式,並使用 Agent Development Kit (ADK) 串流功能啟用語音和視訊通訊。

React/js 整合

設定及執行網頁應用程式,透過 Live API 使用語音和攝影機與 Gemini 對話。

與合作夥伴整合

如果偏好簡化開發程序,可以使用 DailyLiveKitVoximplant。這些是第三方合作夥伴平台,已透過 WebRTC 通訊協定整合 Gemini Live API,可簡化即時音訊和視訊應用程式的開發作業。