Gemini Live API 總覽

Gemini Live API 可與 Gemini 進行低延遲的即時語音和視訊互動。這項技術會處理連續的音訊、影片或文字串流,並立即提供擬真的口語回覆。這可為使用者提供自然的對話體驗。

在 Google Cloud 控制台中試用 Gemini Live API

主要功能與特色

Gemini Live API 提供全方位功能,可建構強大的語音和視訊代理程式:

  • 音訊品質優異: Gemini Live API 可生成自然逼真的語音,支援多種語言。
  • 支援多種語言: 支援 24 種語言的對話。
  • 插話: 使用者隨時可以打斷模型,進行回應式互動。
  • 情感對話:根據使用者輸入內容的措辭調整回覆風格和語氣。
  • 主動式語音: 可控制模型回覆的時機和情境。
  • 工具 用途: 整合函式呼叫和 Google 搜尋等工具,進行動態互動。
  • 音訊轉錄稿: 提供使用者輸入內容和模型輸出內容的文字轉錄稿。
  • 語音對語音翻譯 (實驗功能): 專為語言間的低延遲翻譯而設計。

技術規格

下表列出 Gemini Live API 的技術規格:

類別 詳細資料
輸入模態 音訊 (原始 16 位元 PCM 音訊,16 kHz,小端序)、圖片/影片 (JPEG 1FPS)、文字
輸出模態 音訊 (原始 16 位元 PCM 音訊,24 kHz,小端序)、文字
通訊協定 具狀態的 WebSocket 連線 (WSS)

支援的模型

下列模型支援 Gemini Live API。根據互動需求選取適當模型。

模型 ID 可用性 用途 主要功能與特色
gemini-live-2.5-flash-preview-native-audio-09-2025 公開預先發布版 即時語音代理程式的成本效益。 原生音訊
音訊轉錄
語音活動偵測
情感對話
主動式音訊
工具使用
gemini-2.5-flash-s2st-exp-11-2025 私人實驗 語音轉語音翻譯 (實驗功能)。專為翻譯工作最佳化。 原生音訊
音訊轉錄
工具用途
語音轉語音翻譯

架構與整合

將 Gemini Live API 整合至應用程式的主要方式有兩種:伺服器對伺服器用戶端對伺服器。選擇符合安全性與平台需求的選項。

伺服器對伺服器

建議在正式環境 (例如行動應用程式、安全企業工具和電話整合) 中使用伺服器對伺服器架構。用戶端應用程式會將音訊串流傳輸至安全的後端伺服器。接著,伺服器會管理與 Google 的 WebSocket 連線。

這個方法可確保 API 金鑰安全無虞,並讓您在將音訊傳送至 Gemini 前修改音訊或新增邏輯。不過,這會增加少許網路延遲。

用戶端到伺服器

用戶端對伺服器架構適用於網頁應用程式、快速展示和內部工具。網頁瀏覽器會使用 WebSocket 直接連線至 Gemini Live API。

這個方法可將延遲時間降至最低,並簡化展示架構。請注意,這種做法會將 API 金鑰公開給前端使用者,因此有安全風險。在實際工作環境中,您必須謹慎使用 Proxy 或暫時性權杖管理。

開始使用

請選取與開發環境相符的指南:

建議使用,操作簡單

使用 Gen AI SDK 連線至 Gemini Live API,然後將音訊檔案傳送至 Gemini,並接收音訊回覆。

原始通訊協定控制項

使用 WebSockets 連線至 Gemini Live API,然後將音訊檔案傳送至 Gemini,並接收音訊回應。

Agent Development Kit

建立代理程式,並使用 Agent Development Kit (ADK) 串流功能啟用語音和視訊通訊。

與合作夥伴整合

如要簡化開發程序,可以使用我們的合作夥伴平台。這些平台已透過 WebRTC 通訊協定整合 Gemini Live API,簡化即時音訊和視訊應用程式的開發作業。