Gemini Live API を使用すると、Gemini と音声と動画によるやり取りを低レイテンシかつリアルタイムで行うことができます。音声、動画、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供します。これにより、ユーザーは自然な会話機能を利用できます。
Agent Platform Studio で Gemini Live API を試す
サンプル ユースケース
Gemini Live API を使用すると、次のようなさまざまな業界向けのリアルタイムの音声エージェントと動画エージェントを構築できます。
- e コマースと小売: パーソナライズされたおすすめを提供するショッピング アシスタントや、顧客の問題を解決するサポート エージェント。
- ゲーム: インタラクティブなノンプレーヤー キャラクター(NPC)、ゲーム内ヘルプ アシスタント、ゲーム内コンテンツのリアルタイム翻訳。
- 次世代インターフェース: ロボット工学、スマートグラス、車両における音声と動画対応のエクスペリエンス。
- ヘルスケア: 患者のサポートと教育のためのヘルス コンパニオン。
- 金融サービス: 資産管理と投資ガイダンスのための AI アドバイザー。
- 教育: パーソナライズされた指導とフィードバックを提供する AI メンターと学習者コンパニオン。
主な機能
Gemini Live API は、堅牢な音声エージェントと動画エージェントを構築するための包括的な機能セットを提供します。
- 高音質: Gemini Live API は、複数の言語で自然でリアルな音声を提供します。
- 多言語サポート: 24 の言語で会話できます。
- 割り込み: ユーザーはいつでもモデルを中断して、応答性の高いやり取りを行うことができます。
- アフェクティブ ダイアログ: ユーザーの入力表現に合わせて、回答のスタイルとトーンを調整します。
- ツールの使用: 関数呼び出しや Google 検索などのツールを統合して、動的な やり取りを実現します。
- 音声文字変換: ユーザー入力とモデル出力の両方のテキスト文字変換を提供します。
- プロアクティブ音声: (プレビュー) モデルが応答するタイミングやコンテキストを制御できます。
技術仕様
次の表に、Gemini Live API の技術仕様の概要を示します。
| カテゴリ | 詳細 |
|---|---|
| 入力モダリティ | 音声(RAW 16 ビット PCM 音声、16kHz、リトル エンディアン)、画像/動画(JPEG 1FPS)、テキスト |
| 出力モダリティ | 音声(RAW 16 ビット PCM 音声、24kHz、リトル エンディアン)、テキスト |
| プロトコル | ステートフル WebSocket 接続(WSS) |
サポートされているモデル
次のモデルは Gemini Live API をサポートしています。インタラクションの要件に基づいて適切なモデルを選択してください。
| モデル ID | 可用性 | ユースケース | 主な機能 |
|---|---|---|---|
gemini-live-2.5-flash-native-audio |
一般提供 | (推奨)低レイテンシの音声エージェント。シームレスな 多言語切り替えと感情的なトーンをサポートしています。 |
|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
公開プレビュー版 | リアルタイム音声エージェントの費用対効果。 |
|
使ってみる
開発環境に一致するガイドを選択してください。
生成 AI SDK のチュートリアル
Gen AI SDK を使用して Gemini Live API に接続し、Python バックエンドでリアルタイムのマルチモーダル アプリケーションを構築します。
WebSocket のチュートリアル
WebSocket を使用して Gemini Live API に接続し、JavaScript フロントエンドと Python バックエンドでリアルタイムのマルチモーダル アプリケーションを構築します。
ADK のチュートリアル
エージェントを作成し、Agent Development Kit(ADK)ストリーミングを使用して音声と動画の通信を有効にします。
パートナーとの統合
一部のパートナーと統合する場合は、これらのプラットフォームで WebRTC プロトコルを介して Gemini Live API がすでに統合されているため、リアルタイムの音声と動画のアプリケーションの開発を効率化できます。
