Gemini 2.5 Flash Live API ネイティブ音声

Gemini 2.5 Flash と Live API のネイティブ音声機能は、Live API の最先端のネイティブ音声機能です。このプレビューモデルには、標準の Live API 機能に加えて、次の機能が含まれています。

音質の向上: 人と話しているかのような、劇的に向上した音質を体験できます。
音声品質と適応性の向上: Live API ネイティブ音声により、24 言語の 30 種類の HD 音声で、より豊かで自然な音声インタラクションを実現します。
プロアクティブ音声の導入: プロアクティブ音声が有効になっている場合、モデルは関連性がある場合にのみ応答します。モデルは、デバイス宛てのクエリに対してのみ、テキストの文字起こしと音声の回答をプロアクティブに生成します。デバイス宛て以外のクエリには応答しません。
アフェクティブダイアログの導入: Live API ネイティブ音声を使用するモデルは、ユーザーの感情表現を理解して適切に応答し、より機微を捉えた会話を実現できます。
割り込みの改善: 騒がしい環境でも、より自然かつ確実に Gemini に割り込むことが可能です。
堅牢な関数呼び出し: トリガー率が改善され、Gemini がユースケースをサポートするために定義した関数を正常に実行できるようになりました。
正確な音声文字変換: 音声からテキストへの音声文字変換の精度が大幅に向上しました。
シームレスな多言語サポート: Gemini に複数の言語で話しかけると、事前設定なしで言語を簡単に切り替えることができます。言語はもはや障壁ではありません。

Live API の詳細については、以下をご覧ください。

技術仕様
モデル ID	`gemini-live-2.5-flash-preview-native-audio-09-2025`
サポートされている入出力	入力: テキスト、画像、音声、動画出力: テキスト、音声
トークンの上限	最大入力トークン: 128,000 最大出力トークン: 64,000 コンテキストウィンドウ: 32K（デフォルト）、128K にアップグレード可能
機能	サポート対象 Google 検索によるグラウンディングシステム指示関数呼び出し Live API サポート対象外コードの実行チューニング構造化出力思考モードコンテキストの暗黙的なキャッシュ保存コンテキストの明示的なキャッシュ保存 Vertex AI RAG Engine チャットの補完
使用タイプ	サポート対象最大 1,000 の同時セッションプロビジョンドスループットサポート対象外動的共有割り当てバッチ予測
	画像	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB サポートされている MIME タイプ: `image/png`、 `image/jpeg`、 `image/webp`、 `image/heic`、 `image/heif`
	動画	標準解像度: 768 x 768 サポートされている MIME タイプ: `video/x-flv`、`video/quicktime`、`video/mpeg`、`video/mpegs`、`video/mpg`、`video/mp4`、`video/webm`、`video/wmv`、`video/3gpp`
	音声	会話の長さの上限: デフォルトは 10 分ですが、延長できます。必須の音声入力形式: RAW 16 ビット PCM 音声、16kHz、リトルエンディアン。必須の音声出力形式: RAW 16 ビット PCM 音声、24kHz、リトルエンディアン。サポートされている MIME タイプ: `audio/x-aac`、`audio/flac`、`audio/mp3`、`audio/m4a`、`audio/mpeg`、`audio/mpga`、`audio/mp4`、`audio/ogg`、`audio/pcm`、`audio/wav`、`audio/webm`
	パラメータのデフォルト	音声開始の感度: 低音声終了の感度: 高冒頭部のパディング: 0 コンテキストの最大サイズ: 128K
サポートされるリージョン
	モデルの提供	米国 us-central1
	詳細については、データ所在地をご覧ください。
ナレッジカットオフ日	2025 年 1 月
バージョン	`gemini-live-2.5-flash-preview-native-audio-09-2025` リリースステージ: 公開プレビュー版リリース日: 2024 年 9 月 18 日 `gemini-live-2.5-flash-preview-native-audio` リリースステージ: 公開プレビュー版リリース日: 2025 年 6 月 17 日廃止日: 2025 年 10 月 18 日
セキュリティ管理
セキュリティ管理	詳細については、セキュリティ管理をご覧ください。
サポートされている言語	サポートされている言語をご覧ください。
料金	料金をご覧ください。

Gemini 2.5 Flash Live API ネイティブ音声 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Gemini 2.5 Flash Live API ネイティブ音声