Live API の概要

Live API を使用すると、Gemini と音声と動画によるやり取りを低レイテンシかつリアルタイムで行うことができます。音声、動画、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供します。これにより、ユーザーは自然な会話エクスペリエンスを体験できます。

主な機能

Live API は、堅牢な音声エージェントを構築するための包括的な機能セットを提供します。

技術仕様

次の表に、Live API の技術仕様の概要を示します。

カテゴリ 詳細
入力モダリティ 音声(PCM 16kHz)、動画(1FPS)、テキスト
出力モダリティ 音声(PCM 24kHz)、テキスト
プロトコル ステートフル WebSocket 接続(WSS)
レイテンシ リアルタイム ストリーミングで即座にフィードバック

サポートされているモデル

次のモデルは Live API をサポートしています。インタラクションの要件に基づいて適切なモデルを選択してください。

モデル ID 可用性 ユースケース 主な機能
gemini-live-2.5-flash-preview-native-audio-09-2025 公開プレビュー版 リアルタイム音声エージェントの費用対効果。 ネイティブ音声
音声文字変換
音声アクティビティ検出
アフェクティブ ダイアログ
プロアクティブ音声
ツールの使用
gemini-2.5-flash-s2st-exp-11-2025 非公開試験運用版 音声間の翻訳(試験運用版)。翻訳タスク用に最適化されています。 ネイティブ音声
音声文字変換
ツール使用
音声翻訳

アーキテクチャと統合

Live API をアプリケーションに統合するには、サーバー間クライアント / サーバーの 2 つの主な方法があります。セキュリティとプラットフォームの要件に合わせて選択してください。

サーバー間

サーバー間アーキテクチャは、モバイルアプリ、安全なエンタープライズ ツール、テレフォニー統合などの本番環境におすすめします。クライアント アプリケーションが安全なバックエンド サーバーに音声をストリーミングします。その後、サーバーが Google への WebSocket 接続を管理します。

この方法では、API キーの安全性を維持し、Gemini に送信する前に音声を変更したり、ロジックを追加できます。ただし、ネットワーク レイテンシがわずかに増加します。

クライアント / サーバー

クライアント / サーバー アーキテクチャは、ウェブアプリ、クイックデモ、内部ツールに適しています。ウェブブラウザは WebSocket を使用して Live API に直接接続します。

この方法では、レイテンシを最小限に抑え、デモ用のシンプルなアーキテクチャを実現できます。このアプローチでは API キーがフロントエンド ユーザーに公開されるため、セキュリティ リスクが生じることに注意してください。本番環境では、慎重なプロキシ処理またはエフェメラル トークン管理を使用する必要があります。

使ってみる

開発環境に一致するガイドを選択してください。

使いやすさの点での推奨

生成 AI SDK を使用して Live API に接続し、音声ファイルを Gemini に送信して、音声で応答を受け取ります。

未加工プロトコル制御

WebSocket を使用して Live API に接続し、Gemini に音声ファイルを送信して、レスポンスとして音声を受信します。

Agent Development Kit

エージェントを作成し、Agent Development Kit(ADK)ストリーミングを使用して音声と動画の通信を有効にします。

React/js 統合

音声とカメラを使用して Live API を介して Gemini に話しかけることができるウェブ アプリケーションを設定し、実行します。

パートナーとの統合

開発プロセスを簡素化したい場合は、DailyLiveKitVoximplant を使用できます。これらは、WebRTC プロトコルを介して Gemini Live API をすでに統合し、リアルタイムの音声と動画のアプリケーションの開発を効率化しているサードパーティ パートナー プラットフォームです。