Live API 支持与 Gemini 进行低延迟、实时的语音和视频交互。它能够处理连续的音频、视频或文本流,以提供即时、自然逼真的语音回答。这为您的用户创造了自然的对话体验。
主要特性
Live API 提供了一套全面的功能,用于构建强大的语音代理。
- 原生音频: 提供自然、逼真的语音和改进的多语言性能。
- 多语言支持:支持用 24 种语言进行对话。
- 语音活动检测 (VAD):自动处理打断和轮流发言。
- 共情对话:根据用户输入内容的情绪表达调整回答风格和语气。
- 主动音频:可让您控制模型何时响应以及在哪些情境下响应。
- 思考:针对复杂查询,在说话前使用隐藏的推理 token 进行“思考”。
- 工具使用:集成函数调用和 Google 搜索等工具,实现动态交互。
- 音频转写:提供用户输入和模型输出的文本转写内容。
- 语音到语音翻译:针对语言间的低延迟翻译进行了优化。
技术规范
下表列出了 Live API 的技术规范。
| 类别 | 详细信息 |
|---|---|
| 输入模态 | 音频(PCM 16kHz)、视频(1FPS)、文本 |
| 输出模态 | 音频(PCM 24kHz)、文本 |
| 协议 | 有状态 WebSocket 连接 (WSS) |
| 延迟时间 | 实时流式传输,可提供即时反馈 |
支持的模型
根据您的交互需求选择合适的模型。
| 模型 ID | 可用性 | 使用场景 | 主要特性 |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
公开预览版 | 实时语音代理的成本效益。 |
原生音频 音频转写 语音活动检测 共情对话 主动音频 工具使用 |
gemini-2.5-flash-s2st-exp-11-2025 |
公开实验版 | 语音到语音翻译(实验版功能)。针对翻译任务进行了优化。 |
原生音频 音频转写 工具使用 语音到语音翻译 |
架构和集成
您可以通过以下两种主要方式将 Live API 集成到应用中。 选择符合您的安全和平台要求的方式。
服务器到服务器
建议将此架构用于生产环境,例如移动应用、安全的企业工具和电话集成。您的客户端应用会将音频流式传输到您的安全后端服务器。然后由您的服务器管理与 Google 的 WebSocket 连接。
此方法可确保 API 密钥安全,并让您能够在将音频发送给 Gemini 之前修改音频或添加逻辑。不过,它会增加少量的网络延迟。
客户端到服务器
此架构适用于 Web 应用、快速演示和内部工具。Web 浏览器使用 WebSocket 直接连接到 Live API。
此方法为演示提供了尽可能低的延迟和更简单的架构。请注意,此方法会将 API 密钥暴露给前端用户,从而产生安全风险。对于生产环境,您必须使用谨慎的代理机制或临时令牌管理。
开始学习
选择与您的开发环境相符的指南:
合作伙伴集成
如果您希望开发流程更简单,则可以使用 Daily、LiveKit 或 Voximplant。这些第三方合作伙伴平台已通过 WebRTC 协议集成了 Gemini Live API,可简化实时音频和视频应用的开发。