Gemini 2.5 Flash Live API 原生音频

带有 Live API 原生音频的 Gemini 2.5 Flash 具有我们针对 Live API 的先进原生音频功能。除了标准 Live API 功能之外，此预览版模型还包括：

增强的音质：体验大幅提升的音质，仿佛在与真人对话。
增强的语音质量和适应性：Live API 原生音频提供更丰富、更自然的语音互动，支持 24 种语言的 30 种高清语音。
推出主动音频：启用主动音频后，模型仅在相关时做出回答。该模型仅针对定向到设备的查询主动生成文本转写和音频回答，不会回答非定向到设备的查询。
推出共情对话：使用 Live API 原生音频的模型可以理解用户的情感表达并做出适当响应，从而实现更细致的对话。
改进了打断功能：即使在嘈杂的环境中，也能更自然、更可靠地打断 Gemini。
强大的函数调用：我们提高了触发率，使 Gemini 能够成功执行您定义的函数，从而支持您的应用场景。
准确的转写：音频转文字的转写准确性已得到显著提升。
顺畅的多语言支持：您可以使用多种语言与 Gemini 对话，它会毫不费力地在这些语言之间切换，无需任何预配置。语言不再是障碍。

如需详细了解 Live API，请参阅：

在 Vertex AI 中试用

技术规范
模型 ID	`gemini-live-2.5-flash-preview-native-audio-09-2025`
支持的输入和输出	输入：文本、图片、音频、视频输出：文本、音频
token 数量上限	输入 token 数上限：12.8 万个输出 token 数上限：6.4 万个上下文窗口：3.2 万个 token（默认），可升级到 12.8 万个 token
功能	支持使用 Google 搜索建立依据系统指令函数调用 Live API 不支持代码执行调优结构化输出思考型隐式上下文缓存显式上下文缓存 Vertex AI RAG 引擎聊天补全
使用类型	支持最多 1,000 个并发会话预配的吞吐量不支持动态共享配额批量预测
	图片	每个提示的图片数量上限： 3,000 图片大小上限： 7 MB 支持的 MIME 类型： `image/png`、`image/jpeg`、`image/webp`、`image/heic`、`image/heif`
	视频	标准分辨率：768 x 768 支持的 MIME 类型： `video/x-flv`、`video/quicktime`、`video/mpeg`、`video/mpegs`、`video/mpg`、`video/mp4`、`video/webm`、`video/wmv`、`video/3gpp`
	音频	对话时长上限：默认时长为 10 分钟，可延长。所需的音频输入格式：16 kHz 的原始 16 位 PCM 音频，小端字节序所需的音频输出格式：24 kHz 原始 16 位 PCM 音频，小端字节序支持的 MIME 类型： `audio/x-aac`、 `audio/flac`、 `audio/mp3`、 `audio/m4a`、 `audio/mpeg`、 `audio/mpga`、 `audio/mp4`、 `audio/ogg`、 `audio/pcm`、 `audio/wav`、 `audio/webm`
	参数默认值	开始语音识别的灵敏度：低结束语音识别的灵敏度：高前缀内边距：0 上下文大小上限：128,000
支持的区域
	模型可用性	美国 us-central1
	如需了解详情，请参阅数据驻留。
知识截点日期	2025 年 1 月
版本	`gemini-live-2.5-flash-preview-native-audio-09-2025` 发布阶段：公开预览版发行日期：2025 年 9 月 18 日 `gemini-live-2.5-flash-preview-native-audio` 发布阶段：公开预览版发布日期：2025 年 6 月 17 日终止日期：2025 年 10 月 18 日
安全控制
安全控制	如需了解详情，请参阅安全控制。
支持的语言	请参阅支持的语言。
价格	请参阅价格。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-12-04。