Gemini 2.5 Flash Live API 原生音频

带有 Live API 原生音频的 Gemini 2.5 Flash 具有我们针对 Live API 的先进原生音频功能。除了标准 Live API 功能之外,此预览版模型还包括:

  • 增强的音质:体验大幅提升的音质,仿佛在与真人对话。
  • 增强的语音质量和适应性:Live API 原生音频提供更丰富、更自然的语音互动,支持 24 种语言30 种高清语音
  • 推出主动音频:启用主动音频后,模型仅在相关时做出回答。该模型仅针对定向到设备的查询主动生成文本转写和音频回答,不会回答非定向到设备的查询。
  • 推出共情对话:使用 Live API 原生音频的模型可以理解用户的情感表达并做出适当响应,从而实现更细致的对话。
  • 改进了打断功能:即使在嘈杂的环境中,也能更自然、更可靠地打断 Gemini。
  • 强大的函数调用:我们提高了触发率,使 Gemini 能够成功执行您定义的函数,从而支持您的应用场景。
  • 准确的转写:音频转文字的转写准确性已得到显著提升。
  • 顺畅的多语言支持:您可以使用多种语言与 Gemini 对话,它会毫不费力地在这些语言之间切换,无需任何预配置。语言不再是障碍。

如需详细了解 Live API,请参阅:

Vertex AI 中试用

模型 ID gemini-live-2.5-flash-preview-native-audio-09-2025
支持的输入和输出
  • 输入:
    文本音频视频
  • 输出:
    文本音频
token 数量上限
  • 输入 token 数上限:12.8 万个
  • 输出 token 数上限:6.4 万个
  • 上下文窗口:3.2 万个 token(默认),可升级到 12.8 万个 token
功能
使用类型
技术规范
视频
  • 标准分辨率:768 x 768
  • 支持的 MIME 类型:
    video/x-flvvideo/quicktimevideo/mpegvideo/mpegsvideo/mpgvideo/mp4video/webmvideo/wmvvideo/3gpp
音频
  • 对话时长上限:默认时长为 10 分钟,可延长
  • 所需的音频输入格式:16 kHz 的原始 16 位 PCM 音频,小端字节序
  • 所需的音频输出格式:24 kHz 原始 16 位 PCM 音频,小端字节序
  • 支持的 MIME 类型:
    audio/x-aacaudio/flacaudio/mp3audio/m4aaudio/mpegaudio/mpgaaudio/mp4audio/oggaudio/pcmaudio/wavaudio/webm
参数默认值
  • 开始语音识别的灵敏度:低
  • 结束语音识别的灵敏度:高
  • 前缀内边距:0
  • 上下文大小上限:128,000
支持的区域

模型可用性

  • 美国
    • us-central1
如需了解详情,请参阅数据驻留
知识截点日期 2025 年 1 月
版本
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • 发布阶段:公开预览版
    • 发行日期:2025 年 9 月 18 日
  • gemini-live-2.5-flash-preview-native-audio
    • 发布阶段:公开预览版
    • 发布日期:2025 年 6 月 17 日
    • 终止日期:2025 年 10 月 18 日
安全控制
如需了解详情,请参阅安全控制
支持的语言 请参阅支持的语言
价格 请参阅价格