Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Live API の概要

Gemini Live API を使用すると、Gemini と音声と動画によるやり取りを低レイテンシかつリアルタイムで行うことができます。音声、動画、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供します。これにより、ユーザーは自然な会話エクスペリエンスを体験できます。

サンプルユースケース

Gemini Live API を使用すると、次のようなさまざまな業界向けのリアルタイムの音声エージェントと動画エージェントを構築できます。

Gemini Live API は、堅牢な音声エージェントと動画エージェントを構築するための包括的な機能セットを提供します。

次の表に、Gemini Live API の技術仕様の概要を示します。

カテゴリ	詳細
入力モダリティ	音声（RAW 16 ビット PCM 音声、16kHz、リトルエンディアン）、画像/動画（JPEG 1FPS）、テキスト
出力モダリティ	音声（RAW 16 ビット PCM 音声、24kHz、リトルエンディアン）、テキスト
プロトコル	ステートフル WebSocket 接続（WSS）

次のモデルは Gemini Live API をサポートしています。インタラクションの要件に基づいて適切なモデルを選択してください。

モデル ID	可用性	ユースケース	主な機能
`gemini-live-2.5-flash-native-audio`	一般提供	（推奨）低レイテンシの音声エージェント。シームレスな多言語切り替えと感情的なトーンをサポートします。	ネイティブオーディオ音声文字起こし音声アクティビティ検出アフェクティブダイアログコンテキストに応じた音声にのみ対応ツールの使用

開発環境に一致するガイドを選択してください。

使いやすさの点での推奨

Gen AI SDK を使用して Gemini Live API に接続し、Python バックエンドでリアルタイムのマルチモーダルアプリケーションを構築します。

未加工プロトコル制御

WebSocket を使用して Gemini Live API に接続し、JavaScript フロントエンドと Python バックエンドを備えたリアルタイムのマルチモーダルアプリケーションを構築します。

Agent Development Kit

エージェントを作成し、Agent Development Kit（ADK）ストリーミングを使用して音声と動画の通信を有効にします。

パートナーとの統合を希望される場合は、これらのプラットフォームは WebRTC プロトコルを介して Gemini Live API をすでに統合し、リアルタイムの音声と動画のアプリケーションの開発を効率化しています。