Gemini 2.5 Flash Live API 原生音訊

Gemini 2.5 Flash 搭配 Live API 原生音訊功能,可為 Live API 提供最先進的原生音訊功能。除了標準 Live API 功能外,這個預覽版模型還包含:

  • 提升音質:體驗大幅提升的音質,彷彿與真人對話。
  • 提升語音品質和適應性:Live API 原生音訊提供更豐富、更自然的語音互動,支援 30 種 HD 語音24 種語言
  • 推出主動式音訊 啟用主動式音訊後,模型只會在適當的時機回覆。模型只會主動為導向裝置的查詢生成文字轉錄稿和語音回覆,不會回應非導向裝置的查詢。
  • 推出 Affective Dialog:使用 Live API 原生音訊的模型可以理解使用者的情緒表達,並適當回應,進行更細膩的對話。
  • 更流暢的插話功能:即使在吵雜的環境中,也能更自然可靠地打斷 Gemini 的回覆。
  • 強大的函式呼叫功能:我們提升了觸發率,讓 Gemini 能夠成功執行您定義的函式,支援您的用途。
  • 準確的轉錄內容:音訊轉文字的轉錄準確度大幅提升。
  • 流暢的多語言支援:以多種語言與 Gemini 對話,Gemini 會輕鬆切換語言,無需預先設定。語言不再是障礙。

如要進一步瞭解 Live API,請參閱:

Vertex AI 中試用

模型 ID gemini-live-2.5-flash-preview-native-audio-09-2025
支援的輸入和輸出
  • 輸入內容:
    文字圖片音訊影片
  • 輸出內容:
    文字音訊
權杖限制
  • 輸入內容符記數量上限:128,000 個
  • 輸出內容符記數量上限:64,000
  • 脈絡窗口:3.2 萬個詞元 (預設),可升級至 12.8 萬個詞元
功能
用途類型
技術規格
圖片
  • 每個提示的圖片數量上限: 3,000 張
  • 透過控制台內嵌資料或直接上傳的檔案大小上限: 7 MB
  • 從 Google Cloud Storage 上傳的檔案大小上限: 30 MB
  • 支援的 MIME 類型:
    image/pngimage/jpegimage/webpimage/heicimage/heif
影片
  • 標準解析度: 768 x 768
  • 支援的 MIME 類型:
    video/x-flvvideo/quicktimevideo/mpegvideo/mpegsvideo/mpgvideo/mp4video/webmvideo/wmvvideo/3gpp
音訊
  • 對話長度上限: 預設為 10 分鐘,可延長
  • 必要音訊輸入格式: 16 kHz 的原始 16 位元 PCM 音訊,小端序
  • 必要音訊輸出格式: 24 kHz 的原始 16 位元 PCM 音訊,小端序
  • 支援的 MIME 類型:
    audio/x-aacaudio/flacaudio/mp3audio/m4aaudio/mpegaudio/mpgaaudio/mp4audio/oggaudio/pcmaudio/wavaudio/webm
參數預設值
  • 語音感測起始處:低
  • 語音感測結束處:高
  • 前置靜音充填:0
  • 脈絡長度上限:128,000 個符記
支援的地區

模型供應情形

  • 美國
    • us-central1
詳情請參閱「資料落地」。
知識截點日期 2025 年 1 月
版本
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • 推出階段:公開測試
    • 發布日期:2025 年 9 月 18 日
  • gemini-live-2.5-flash-preview-native-audio
    • 推出階段:公開測試
    • 發布日期:2025 年 6 月 17 日
    • 終止日期:2025 年 10 月 18 日
安全性控管
詳情請參閱安全控管措施
支援的語言 請參閱「支援的語言」。
定價 請參閱定價