Gemini 2.5 Flash 和 Gemini Live API

Gemini 2.5 Flash 搭配 Gemini Live API 原生音訊功能，可為 Gemini Live API 提供最先進的原生音訊功能。除了標準 Gemini Live API 功能，這個模型還包含：

提升音質：體驗大幅提升的音質，彷彿與真人對話。
提升語音品質和適應性：Gemini Live API 原生音訊提供更豐富、更自然的語音互動，支援 30 種 HD 語音和 24 種語言。
推出主動式音訊： (預覽版) 啟用主動式音訊後，模型只會在適當的時機回覆。模型只會主動針對導向裝置的查詢生成文字轉錄稿和語音回覆，不會回應非導向裝置的查詢。
推出情感對話：模型使用 Gemini Live API 原生音訊，可理解使用者的情緒表達並適當回應，進行更細膩的對話。
更流暢的插話功能：即使在吵雜的環境中，也能更自然流暢地插話，並可靠地打斷 Gemini。
強大的函式呼叫功能：我們提升了觸發率，讓 Gemini 能夠成功執行您定義的函式，支援您的用途。
準確的轉錄結果：音訊轉文字的準確度大幅提升。
順暢支援多種語言：以多種語言與 Gemini 對話，Gemini 就能輕鬆切換語言，無需預先設定。語言不再是障礙。

如要進一步瞭解 Gemini Live API，請參閱：

Live 2.5 Flash Native Audio

在 Vertex AI 中試用

技術規格
模型 ID	`gemini-live-2.5-flash-native-audio`
支援的輸入和輸出	輸入內容：文字、圖片、音訊、影片輸出內容：文字、音訊
權杖限制	輸入權杖上限：32,000 個 (預設值)，可升級至 128,000 個輸出內容符記數量上限：64,000 個
並行工作階段數上限	1000
功能	支援以 Google 搜尋建立基準系統指示函式呼叫 Gemini Live API 不支援程式碼執行調整結構化輸出內容思考隱含脈絡快取顯性脈絡快取 Vertex AI RAG 引擎 Chat completions
用途類型	支援不支援佈建輸送量標準隨用隨付批次預測
	圖片	每個提示的圖片數量上限： 3,000 張透過控制台內嵌資料或直接上傳的檔案大小上限： 7 MB 從 Google Cloud Storage 上傳的檔案大小上限： 30 MB 支援的 MIME 類型： `image/png`、 `image/jpeg`、 `image/webp`、 `image/heic`、 `image/heif`
	影片	標準解析度： 768 x 768 支援的 MIME 類型： `video/x-flv`、 `video/quicktime`、 `video/mpeg`、 `video/mpegs`、 `video/mpg`、 `video/mp4`、 `video/webm`、 `video/wmv`、 `video/3gpp`
	音訊	對話長度上限：預設為 10 分鐘，可延長。必要音訊輸入格式： 16 kHz 的原始 16 位元 PCM 音訊，小端序必要音訊輸出格式： 24 kHz 的原始 16 位元 PCM 音訊，小端序支援的 MIME 類型： `audio/x-aac`、 `audio/flac`、 `audio/mp3`、 `audio/m4a`、 `audio/mpeg`、 `audio/mpga`、 `audio/mp4`、 `audio/ogg`、 `audio/pcm`、 `audio/wav`、 `audio/webm`
	參數預設值	語音感測起始處：低語音感測結束處：高前置靜音充填：0 脈絡長度上限：128K
支援的地區
	模型供應情形	美國 us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 歐洲 europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	詳情請參閱「部署作業和端點」。
版本	`gemini-live-2.5-flash-native-audio` 推出階段：正式發行發布日期：2025 年 12 月 12 日終止日期：2026 年 12 月 13 日
安全性控管
	線上預測	資料落地 CMEK VPC-SC AXT
	詳情請參閱安全控管措施。
支援的語言	請參閱「支援的語言」。
定價	請參閱「定價」。

Live 2.5 Flash 原生音訊預覽

在 Vertex AI 中試用

技術規格
模型 ID	`gemini-live-2.5-flash-preview-native-audio-09-2025`
支援的輸入和輸出	輸入內容：文字、圖片、音訊、影片輸出內容：文字、音訊
權杖限制	輸入符記數量上限：128,000 個輸出內容符記數量上限：64,000 個脈絡窗口：3.2 萬個詞元 (預設)，可升級至 12.8 萬個詞元
並行工作階段數上限	1000
功能	支援以 Google 搜尋建立基準系統指示函式呼叫 Gemini Live API 不支援程式碼執行調整結構化輸出內容思考隱含脈絡快取顯性脈絡快取 Vertex AI RAG 引擎 Chat completions
用途類型	支援佈建輸送量不支援標準隨用隨付批次預測
	圖片	每個提示的圖片數量上限： 3,000 張透過控制台內嵌資料或直接上傳的檔案大小上限： 7 MB 從 Google Cloud Storage 上傳的檔案大小上限： 30 MB 支援的 MIME 類型： `image/png`、 `image/jpeg`、 `image/webp`、 `image/heic`、 `image/heif`
	影片	標準解析度： 768 x 768 支援的 MIME 類型： `video/x-flv`、 `video/quicktime`、 `video/mpeg`、 `video/mpegs`、 `video/mpg`、 `video/mp4`、 `video/webm`、 `video/wmv`、 `video/3gpp`
	音訊	對話長度上限：預設為 10 分鐘，可延長。必要音訊輸入格式： 16 kHz 的原始 16 位元 PCM 音訊，小端序必要音訊輸出格式： 24 kHz 的原始 16 位元 PCM 音訊，小端序支援的 MIME 類型： `audio/x-aac`、 `audio/flac`、 `audio/mp3`、 `audio/m4a`、 `audio/mpeg`、 `audio/mpga`、 `audio/mp4`、 `audio/ogg`、 `audio/pcm`、 `audio/wav`、 `audio/webm`
	參數預設值	語音感測起始處：低語音感測結束處：高前置靜音充填：0 脈絡長度上限：128K
支援的地區
	模型供應情形	美國 us-central1
	詳情請參閱「部署作業和端點」。
知識截點日期	2025 年 8 月
版本	`gemini-live-2.5-flash-preview-native-audio-09-2025` 推出階段：公開測試發布日期：2025 年 9 月 25 日
安全性控管
安全性控管	詳情請參閱安全控管措施。
支援的語言	請參閱「支援的語言」。
定價	請參閱「定價」。

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2026-01-23 (世界標準時間)。