带有 Live API 原生音频的 Gemini 2.5 Flash 具有我们针对 Live API 的先进原生音频功能。除了标准 Live API 功能之外,此预览版模型还包括:
- 增强的音质:体验大幅提升的音质,仿佛在与真人对话。
- 增强的语音质量和适应性:Live API 原生音频提供更丰富、更自然的语音互动,支持 24 种语言的 30 种高清语音。
- 推出主动音频:启用主动音频后,模型仅在相关时做出回答。该模型仅针对定向到设备的查询主动生成文本转写和音频回答,不会回答非定向到设备的查询。
- 推出共情对话:使用 Live API 原生音频的模型可以理解用户的情感表达并做出适当响应,从而实现更细致的对话。
- 改进了打断功能:即使在嘈杂的环境中,也能更自然、更可靠地打断 Gemini。
- 强大的函数调用:我们提高了触发率,使 Gemini 能够成功执行您定义的函数,从而支持您的应用场景。
- 准确的转写:音频转文字的转写准确性已得到显著提升。
- 顺畅的多语言支持:您可以使用多种语言与 Gemini 对话,它会毫不费力地在这些语言之间切换,无需任何预配置。语言不再是障碍。
如需详细了解 Live API,请参阅:
- 我们的独立 Live API 文档。
- 我们的 Live API 支持的音频格式。
- 我们的 Live API 并发会话限制。
模型 ID | gemini-live-2.5-flash-preview-native-audio-09-2025 |
|
---|---|---|
支持的输入和输出 |
|
|
token 数量上限 |
|
|
功能 |
|
|
使用类型 |
|
|
技术规范 | ||
视频 |
|
|
音频 |
|
|
参数默认值 |
|
|
支持的区域 | ||
模型可用性 |
|
|
如需了解详情,请参阅数据驻留。 | ||
知识截点日期 | 2025 年 1 月 | |
版本 |
|
|
安全控制 | ||
如需了解详情,请参阅安全控制。 | ||
支持的语言 | 请参阅支持的语言。 | |
价格 | 请参阅价格。 |