Gemini Live API 概览

Gemini Live API 支持与 Gemini 进行低延迟、实时的语音和视频交互。它能够处理连续的音频、视频或文本流，以提供即时、自然逼真的语音回答。这为您的用户创造了自然的对话体验。

应用场景示例

Gemini Live API 可用于为各种行业构建实时语音和视频代理，包括：

Gemini Live API 提供了一套全面的功能，用于构建强大的语音和视频代理：

下表列出了 Gemini Live API 的技术规范。

类别	详细信息
输入模态	音频（原始 16 位 PCM 音频，16kHz，小端字节序）、图片/视频（JPEG 1FPS）、文本
输出模态	音频（原始 16 位 PCM 音频，24kHz，小端字节序）、文本
协议	有状态 WebSocket 连接 (WSS)

以下模型支持 Gemini Live API。根据您的交互需求选择合适的模型。

模型 ID	可用性	使用场景	主要特性
`gemini-live-2.5-flash-native-audio`	已全面推出	推荐。低延迟语音代理。支持无缝多语言切换和情感基调。	原生音频音频转写语音活动检测共情对话主动音频工具使用
`gemini-live-2.5-flash-preview-native-audio-09-2025`	公开预览版	实时语音代理的成本效益。	原生音频音频转写语音活动检测共情对话主动音频工具使用

选择与您的开发环境相符的指南：

使用 Gen AI SDK 连接到 Gemini Live API，以构建具有 Python 后端的实时多模态应用。

原始协议控制

使用 WebSockets 连接到 Gemini Live API，以构建一个具有 JavaScript 前端和 Python 后端的实时多模态应用。

智能体开发套件

创建代理，并使用智能体开发套件 (ADK) 流式传输功能来实现语音和视频通信。

如果您想与我们的部分合作伙伴集成，这些平台已通过 WebRTC 协议集成了 Gemini Live API，可简化实时音频和视频应用的开发。