Live API の概要

Live API を使用すると、Gemini と音声と動画によるやり取りを低レイテンシかつリアルタイムで行うことができます。音声、動画、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供します。これにより、ユーザーは自然な会話エクスペリエンスを体験できます。

主な機能

Live API は、堅牢な音声エージェントを構築するための包括的な機能セットを提供します。

ネイティブ音声: 自然でリアルな音声を提供し、多言語対応のパフォーマンスを向上させます。
多言語サポート: 24 の言語で会話できます。
音声アクティビティ検出（VAD）: 中断や発言権の交代を自動的に処理します。
アフェクティブダイアログ: ユーザーの入力表現に合わせて、回答のスタイルとトーンを調整します。
プロアクティブ音声: モデルが応答するタイミングやコンテキストを制御できます。
思考: 複雑なクエリに対して発言する前に、非表示の推論トークンを使用して「思考」します。
ツールの使用: 関数呼び出しや Google 検索などのツールを統合して、動的なやり取りを実現します。
音声文字変換: ユーザー入力とモデル出力の両方のテキスト文字変換を提供します。
音声から音声への翻訳: 言語間の低レイテンシ翻訳に最適化されています。

技術仕様

次の表に、Live API の技術仕様の概要を示します。

カテゴリ	詳細
入力モダリティ	音声（PCM 16kHz）、動画（1FPS）、テキスト
出力モダリティ	音声（PCM 24kHz）、テキスト
プロトコル	ステートフル WebSocket 接続（WSS）
レイテンシ	リアルタイムストリーミングで即座にフィードバック

サポートされているモデル

次のモデルは Live API をサポートしています。インタラクションの要件に基づいて適切なモデルを選択してください。

モデル ID	可用性	ユースケース	主な機能
`gemini-live-2.5-flash-preview-native-audio-09-2025`	公開プレビュー版	リアルタイム音声エージェントの費用対効果。	ネイティブ音声音声文字変換音声アクティビティ検出アフェクティブダイアログプロアクティブ音声ツールの使用
`gemini-2.5-flash-s2st-exp-11-2025`	非公開試験運用版	音声間の翻訳（試験運用版）。翻訳タスク用に最適化されています。	ネイティブ音声音声文字変換ツール使用音声翻訳

アーキテクチャと統合

Live API をアプリケーションに統合するには、サーバー間とクライアント / サーバーの 2 つの主な方法があります。セキュリティとプラットフォームの要件に合わせて選択してください。

サーバー間

サーバー間アーキテクチャは、モバイルアプリ、安全なエンタープライズツール、テレフォニー統合などの本番環境におすすめします。クライアントアプリケーションが安全なバックエンドサーバーに音声をストリーミングします。その後、サーバーが Google への WebSocket 接続を管理します。

この方法では、API キーの安全性を維持し、Gemini に送信する前に音声を変更したり、ロジックを追加できます。ただし、ネットワークレイテンシがわずかに増加します。

クライアント / サーバー

クライアント / サーバーアーキテクチャは、ウェブアプリ、クイックデモ、内部ツールに適しています。ウェブブラウザは WebSocket を使用して Live API に直接接続します。

この方法では、レイテンシを最小限に抑え、デモ用のシンプルなアーキテクチャを実現できます。このアプローチでは API キーがフロントエンドユーザーに公開されるため、セキュリティリスクが生じることに注意してください。本番環境では、慎重なプロキシ処理またはエフェメラルトークン管理を使用する必要があります。

使ってみる

開発環境に一致するガイドを選択してください。

使いやすさの点での推奨

生成 AI SDK のチュートリアル

生成 AI SDK を使用して Live API に接続し、音声ファイルを Gemini に送信して、音声で応答を受け取ります。

未加工プロトコル制御

WebSocket のチュートリアル

WebSocket を使用して Live API に接続し、Gemini に音声ファイルを送信して、レスポンスとして音声を受信します。

Agent Development Kit

ADK のチュートリアル

エージェントを作成し、Agent Development Kit（ADK）ストリーミングを使用して音声と動画の通信を有効にします。

React/js 統合

デモウェブアプリを実行する

音声とカメラを使用して Live API を介して Gemini に話しかけることができるウェブアプリケーションを設定し、実行します。

パートナーとの統合

開発プロセスを簡素化したい場合は、Daily、LiveKit、Voximplant を使用できます。これらは、WebRTC プロトコルを介して Gemini Live API をすでに統合し、リアルタイムの音声と動画のアプリケーションの開発を効率化しているサードパーティパートナープラットフォームです。

Live API の概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。