Live API 概览

Live API 支持与 Gemini 进行低延迟、实时的语音和视频交互。它能够处理连续的音频、视频或文本流,以提供即时、自然逼真的语音回答。这为您的用户创造了自然的对话体验。

主要特性

Live API 提供了一套全面的功能,用于构建强大的语音代理。

  • 原生音频: 提供自然、逼真的语音和改进的多语言性能。
  • 多语言支持:支持用 24 种语言进行对话。
  • 语音活动检测 (VAD):自动处理打断和轮流发言。
  • 共情对话:根据用户输入内容的情绪表达调整回答风格和语气。
  • 主动音频:可让您控制模型何时响应以及在哪些情境下响应。
  • 思考:针对复杂查询,在说话前使用隐藏的推理 token 进行“思考”。
  • 工具使用:集成函数调用和 Google 搜索等工具,实现动态交互。
  • 音频转写:提供用户输入和模型输出的文本转写内容。
  • 语音到语音翻译:针对语言间的低延迟翻译进行了优化。

技术规范

下表列出了 Live API 的技术规范。

类别 详细信息
输入模态 音频(PCM 16kHz)、视频(1FPS)、文本
输出模态 音频(PCM 24kHz)、文本
协议 有状态 WebSocket 连接 (WSS)
延迟时间 实时流式传输,可提供即时反馈

支持的模型

根据您的交互需求选择合适的模型。

模型 ID 可用性 使用场景 主要特性
gemini-live-2.5-flash-preview-native-audio-09-2025 公开预览版 实时语音代理的成本效益。 原生音频
音频转写
语音活动检测
共情对话
主动音频
工具使用
gemini-2.5-flash-s2st-exp-11-2025 公开实验版 语音到语音翻译(实验版功能)。针对翻译任务进行了优化。 原生音频
音频转写
工具使用
语音到语音翻译

架构和集成

您可以通过以下两种主要方式将 Live API 集成到应用中。 选择符合您的安全和平台要求的方式。

服务器到服务器

建议将此架构用于生产环境,例如移动应用、安全的企业工具和电话集成。您的客户端应用会将音频流式传输到您的安全后端服务器。然后由您的服务器管理与 Google 的 WebSocket 连接。

此方法可确保 API 密钥安全,并让您能够在将音频发送给 Gemini 之前修改音频或添加逻辑。不过,它会增加少量的网络延迟。

客户端到服务器

此架构适用于 Web 应用、快速演示和内部工具。Web 浏览器使用 WebSocket 直接连接到 Live API。

此方法为演示提供了尽可能低的延迟和更简单的架构。请注意,此方法会将 API 密钥暴露给前端用户,从而产生安全风险。对于生产环境,您必须使用谨慎的代理机制或临时令牌管理。

开始学习

选择与您的开发环境相符的指南:

推荐(因其易用性)

本教程介绍了如何使用 Gen AI SDK 连接到 Live API,以及如何向 Gemini 发送音频文件并接收音频回答。

原始协议控制

本教程介绍了如何使用 WebSocket 连接到 Live API,以及如何向 Gemini 发送音频文件并接收音频回答。

智能体开发套件

本教程介绍了如何创建代理,以及如何使用智能体开发套件 (ADK) 流式传输功能来实现语音和视频通信。

React/js 集成

本教程介绍了如何设置和运行一个 Web 应用,让您能够通过 Live API 使用语音和摄像头与 Gemini 对话。

合作伙伴集成

如果您希望开发流程更简单,则可以使用 DailyLiveKitVoximplant。这些第三方合作伙伴平台已通过 WebRTC 协议集成了 Gemini Live API,可简化实时音频和视频应用的开发。