Gemini Live API を使用した Gemini 2.5 Flash

Gemini 2.5 Flash と Gemini Live API のネイティブ音声機能は、Gemini Live API の最先端のネイティブ音声機能です。このモデルには、標準の Gemini Live API 機能に加えて、次の機能が含まれています。

音質の向上: 人と話しているかのような、劇的に向上した音質を体験できます。
音声品質と適応性の向上: Gemini Live API ネイティブ音声により、24 言語の 30 種類の HD 音声で、より豊かで自然な音声インタラクションを実現します。
プロアクティブ音声の導入:（プレビュー）プロアクティブ音声が有効になっている場合、モデルは関連性がある場合にのみ応答します。モデルは、デバイス宛てのクエリに対してのみ、テキストの文字起こしと音声の回答をプロアクティブに生成します。デバイス宛て以外のクエリには応答しません。
アフェクティブダイアログの導入: Gemini Live API ネイティブ音声を使用するモデルは、ユーザーの感情表現を理解して適切に応答し、より機微を捉えた会話を実現できます。
割り込みの改善: 騒がしい環境でも、より自然かつ確実に Gemini に割り込むことが可能です。
堅牢な関数呼び出し: トリガー率が改善され、Gemini がユースケースをサポートするために定義した関数を正常に実行できるようになりました。
正確な音声文字変換: 音声からテキストへの音声文字変換の精度が大幅に向上しました。
シームレスな多言語サポート: Gemini に複数の言語で話しかけると、事前設定なしで言語を簡単に切り替えることができます。言語はもはや障壁ではありません。

Gemini Live API の詳細については、以下をご覧ください。

Live 2.5 Flash ネイティブ音声

Vertex AI で試す

技術仕様
モデル ID	`gemini-live-2.5-flash-native-audio`
サポートされている入出力	入力: テキスト、画像、音声、動画出力: テキスト、音声
トークンの上限	最大入力トークン: 128,000 最大出力トークン: 64,000
最大同時セッション数	1000
機能	サポート対象 Google 検索によるグラウンディングシステム指示関数呼び出し Gemini Live API 非対応コードの実行構造化出力思考モードコンテキストの暗黙的なキャッシュ保存コンテキストの明示的なキャッシュ保存 Vertex AI RAG Engine チャットの補完
使用オプション	サポート対象プロビジョンドスループット標準従量課金非対応 Flex PayGo 優先度 PayGo バッチ予測
使用オプション	詳細については、消費オプションをご覧ください。
	画像	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB サポートされている MIME タイプ: `image/png`、 `image/jpeg`、 `image/webp`、 `image/heic`、 `image/heif`
	動画	標準解像度: 768 x 768 サポートされている MIME タイプ: `video/x-flv`、`video/quicktime`、`video/mpeg`、`video/mpegs`、`video/mpg`、`video/mp4`、`video/webm`、`video/wmv`、`video/3gpp`
	音声	会話の長さの上限: デフォルトは 10 分ですが、延長できます。必須の音声入力形式: RAW 16 ビット PCM 音声、16kHz、リトルエンディアン。必須の音声出力形式: RAW 16 ビット PCM 音声、24kHz、リトルエンディアン。サポートされている MIME タイプ: `audio/x-aac`、`audio/flac`、`audio/mp3`、`audio/m4a`、`audio/mpeg`、`audio/mpga`、`audio/mp4`、`audio/ogg`、`audio/pcm`、`audio/wav`、`audio/webm`
	パラメータのデフォルト	音声開始の感度: 低音声終了の感度: 高冒頭部のパディング: 0 コンテキストの最大サイズ: 128K
サポートされるリージョン
	モデルの提供	米国 us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 ヨーロッパ europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	詳細については、デプロイとエンドポイントをご覧ください。
バージョン	`gemini-live-2.5-flash-native-audio` リリースステージ: GA リリース日: 2025 年 12 月 12 日廃止日: 2026 年 12 月 13 日
セキュリティ管理
	オンライン予測	データ所在地 CMEK VPC-SC AXT
	詳細については、セキュリティ管理をご覧ください。
サポートされている言語	サポートされている言語をご覧ください。
料金	料金をご覧ください。

Live 2.5 Flash ネイティブ音声プレビュー

Vertex AI で試す

技術仕様
モデル ID	`gemini-live-2.5-flash-preview-native-audio-09-2025`
サポートされている入出力	入力: テキスト、画像、音声、動画出力: テキスト、音声
トークンの上限	最大入力トークン: 128,000 最大出力トークン: 64,000 コンテキストウィンドウ: 32K（デフォルト）、128K にアップグレード可能
最大同時セッション数	1000
機能	サポート対象 Google 検索によるグラウンディングシステム指示関数呼び出し Gemini Live API 非対応コードの実行構造化出力思考モードコンテキストの暗黙的なキャッシュ保存コンテキストの明示的なキャッシュ保存 Vertex AI RAG Engine チャットの補完
使用オプション	サポート対象プロビジョンドスループット標準従量課金非対応 Flex PayGo 優先度 PayGo バッチ予測
使用オプション	詳細については、消費オプションをご覧ください。
	画像	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB サポートされている MIME タイプ: `image/png`、 `image/jpeg`、 `image/webp`、 `image/heic`、 `image/heif`
	動画	標準解像度: 768 x 768 サポートされている MIME タイプ: `video/x-flv`、`video/quicktime`、`video/mpeg`、`video/mpegs`、`video/mpg`、`video/mp4`、`video/webm`、`video/wmv`、`video/3gpp`
	音声	会話の長さの上限: デフォルトは 10 分ですが、延長できます。必須の音声入力形式: RAW 16 ビット PCM 音声、16kHz、リトルエンディアン。必須の音声出力形式: RAW 16 ビット PCM 音声、24kHz、リトルエンディアン。サポートされている MIME タイプ: `audio/x-aac`、`audio/flac`、`audio/mp3`、`audio/m4a`、`audio/mpeg`、`audio/mpga`、`audio/mp4`、`audio/ogg`、`audio/pcm`、`audio/wav`、`audio/webm`
	パラメータのデフォルト	音声開始の感度: 低音声終了の感度: 高冒頭部のパディング: 0 コンテキストの最大サイズ: 128K
サポートされるリージョン
	モデルの提供	米国 us-central1
	詳細については、デプロイとエンドポイントをご覧ください。
ナレッジカットオフ日	2025 年 8 月
バージョン	`gemini-live-2.5-flash-preview-native-audio-09-2025` リリースステージ: 公開プレビュー版リリース日: 2025 年 9 月 25 日
サポートされている言語	サポートされている言語をご覧ください。
料金	料金をご覧ください。

Gemini Live API を使用した Gemini 2.5 Flash コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Live 2.5 Flash ネイティブ音声

Live 2.5 Flash ネイティブ音声プレビュー

Gemini Live API を使用した Gemini 2.5 Flash