Gemini Live API 可與 Gemini 進行低延遲的即時語音和視訊互動。這項技術會處理連續的音訊、影片或文字串流,並立即提供擬真的口語回覆。這可為使用者提供自然的對話體驗。
在 Google Cloud 控制台中試用 Gemini Live API
主要功能與特色
Gemini Live API 提供全方位功能,可建構強大的語音和視訊代理程式:
- 音訊品質優異: Gemini Live API 可生成自然逼真的語音,支援多種語言。
- 支援多種語言: 支援 24 種語言的對話。
- 插話: 使用者隨時可以打斷模型,進行回應式互動。
- 情感對話:根據使用者輸入內容的措辭調整回覆風格和語氣。
- 主動式語音: 可控制模型回覆的時機和情境。
- 工具 用途: 整合函式呼叫和 Google 搜尋等工具,進行動態互動。
- 音訊轉錄稿: 提供使用者輸入內容和模型輸出內容的文字轉錄稿。
- 語音對語音翻譯 (實驗功能): 專為語言間的低延遲翻譯而設計。
技術規格
下表列出 Gemini Live API 的技術規格:
| 類別 | 詳細資料 |
|---|---|
| 輸入模態 | 音訊 (原始 16 位元 PCM 音訊,16 kHz,小端序)、圖片/影片 (JPEG 1FPS)、文字 |
| 輸出模態 | 音訊 (原始 16 位元 PCM 音訊,24 kHz,小端序)、文字 |
| 通訊協定 | 具狀態的 WebSocket 連線 (WSS) |
支援的模型
下列模型支援 Gemini Live API。根據互動需求選取適當模型。
| 模型 ID | 可用性 | 用途 | 主要功能與特色 |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
公開預先發布版 | 即時語音代理程式的成本效益。 |
原生音訊 音訊轉錄 語音活動偵測 情感對話 主動式音訊 工具使用 |
gemini-2.5-flash-s2st-exp-11-2025 |
私人實驗 | 語音轉語音翻譯 (實驗功能)。專為翻譯工作最佳化。 |
原生音訊 音訊轉錄 工具用途 語音轉語音翻譯 |
架構與整合
將 Gemini Live API 整合至應用程式的主要方式有兩種:伺服器對伺服器和用戶端對伺服器。選擇符合安全性與平台需求的選項。
伺服器對伺服器
建議在正式環境 (例如行動應用程式、安全企業工具和電話整合) 中使用伺服器對伺服器架構。用戶端應用程式會將音訊串流傳輸至安全的後端伺服器。接著,伺服器會管理與 Google 的 WebSocket 連線。
這個方法可確保 API 金鑰安全無虞,並讓您在將音訊傳送至 Gemini 前修改音訊或新增邏輯。不過,這會增加少許網路延遲。
用戶端到伺服器
用戶端對伺服器架構適用於網頁應用程式、快速展示和內部工具。網頁瀏覽器會使用 WebSocket 直接連線至 Gemini Live API。
這個方法可將延遲時間降至最低,並簡化展示架構。請注意,這種做法會將 API 金鑰公開給前端使用者,因此有安全風險。在實際工作環境中,您必須謹慎使用 Proxy 或暫時性權杖管理。
開始使用
請選取與開發環境相符的指南:
與合作夥伴整合
如要簡化開發程序,可以使用我們的合作夥伴平台。這些平台已透過 WebRTC 通訊協定整合 Gemini Live API,簡化即時音訊和視訊應用程式的開發作業。
