Gemini Live API を使用した Gemini 2.5 Flash

Gemini 2.5 Flash と Gemini Live API のネイティブ音声機能は、Gemini Live API の最先端のネイティブ音声機能です。このモデルには、標準の Gemini Live API 機能に加えて、次の機能が含まれています。

  • 音質の向上: 人と話しているかのような、劇的に向上した音質を体験できます。
  • 音声品質と適応性の向上: Gemini Live API ネイティブ音声により、24 言語30 種類の HD 音声で、より豊かで自然な音声インタラクションを実現します。
  • プロアクティブ音声の導入:(プレビュー) プロアクティブ音声が有効になっている場合、モデルは関連性がある場合にのみ応答します。モデルは、デバイス宛てのクエリに対してのみ、テキストの文字起こしと音声の回答をプロアクティブに生成します。デバイス宛て以外のクエリには応答しません。
  • アフェクティブ ダイアログの導入: Gemini Live API ネイティブ音声を使用するモデルは、ユーザーの感情表現を理解して適切に応答し、より機微を捉えた会話を実現できます。
  • 割り込みの改善: 騒がしい環境でも、より自然かつ確実に Gemini に割り込むことが可能です。
  • 堅牢な関数呼び出し: トリガー率が改善され、Gemini がユースケースをサポートするために定義した関数を正常に実行できるようになりました。
  • 正確な音声文字変換: 音声からテキストへの音声文字変換の精度が大幅に向上しました。
  • シームレスな多言語サポート: Gemini に複数の言語で話しかけると、事前設定なしで言語を簡単に切り替えることができます。言語はもはや障壁ではありません。

Gemini Live API の詳細については、以下をご覧ください。

Live 2.5 Flash ネイティブ音声

Vertex AI で試す

モデル ID gemini-live-2.5-flash-native-audio
サポートされている入出力
  • 入力:
    テキスト画像音声動画
  • 出力:
    テキスト音声
トークンの上限
  • 最大入力トークン: 128,000
  • 最大出力トークン: 64,000
最大同時セッション数

1000

機能
使用オプション
詳細については、消費オプションをご覧ください。
技術仕様
画像
  • プロンプトあたりの最大画像数: 3,000
  • コンソールから直接アップロードする場合またはインライン データのファイルあたりの最大ファイルサイズ: 7 MB
  • Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB
  • サポートされている MIME タイプ:
    image/pngimage/jpegimage/webpimage/heicimage/heif
動画
  • 標準解像度: 768 x 768
  • サポートされている MIME タイプ:
    video/x-flvvideo/quicktimevideo/mpegvideo/mpegsvideo/mpgvideo/mp4video/webmvideo/wmvvideo/3gpp
音声
  • 会話の長さの上限: デフォルトは 10 分ですが、延長できます
  • 必須の音声入力形式: RAW 16 ビット PCM 音声、16kHz、リトル エンディアン。
  • 必須の音声出力形式: RAW 16 ビット PCM 音声、24kHz、リトル エンディアン。
  • サポートされている MIME タイプ:
    audio/x-aacaudio/flacaudio/mp3audio/m4aaudio/mpegaudio/mpgaaudio/mp4audio/oggaudio/pcmaudio/wavaudio/webm
パラメータのデフォルト
  • 音声開始の感度: 低
  • 音声終了の感度: 高
  • 冒頭部のパディング: 0
  • コンテキストの最大サイズ: 128K
サポートされるリージョン

モデルの提供

  • 米国
    • us-central1
    • us-east1
    • us-east4
    • us-east5
    • us-south1
    • us-west1
    • us-west4
  • ヨーロッパ
    • europe-central2
    • europe-north1
    • europe-southwest1
    • europe-west1
    • europe-west4
    • europe-west8
詳細については、デプロイとエンドポイントをご覧ください。
バージョン
  • gemini-live-2.5-flash-native-audio
    • リリース ステージ: GA
    • リリース日: 2025 年 12 月 12 日
    • 廃止日: 2026 年 12 月 13 日
セキュリティ管理
オンライン予測
  • データ所在地
  • CMEK
  • VPC-SC
  • AXT
詳細については、セキュリティ管理をご覧ください。
サポートされている言語 サポートされている言語をご覧ください。
料金 料金をご覧ください。

Live 2.5 Flash ネイティブ音声プレビュー

Vertex AI で試す

モデル ID gemini-live-2.5-flash-preview-native-audio-09-2025
サポートされている入出力
  • 入力:
    テキスト画像音声動画
  • 出力:
    テキスト音声
トークンの上限
  • 最大入力トークン: 128,000
  • 最大出力トークン: 64,000
  • コンテキスト ウィンドウ: 32K(デフォルト)、128K にアップグレード可能
最大同時セッション数

1000

機能
使用オプション
詳細については、消費オプションをご覧ください。
技術仕様
画像
  • プロンプトあたりの最大画像数: 3,000
  • コンソールから直接アップロードする場合またはインライン データのファイルあたりの最大ファイルサイズ: 7 MB
  • Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB
  • サポートされている MIME タイプ:
    image/pngimage/jpegimage/webpimage/heicimage/heif
動画
  • 標準解像度: 768 x 768
  • サポートされている MIME タイプ:
    video/x-flvvideo/quicktimevideo/mpegvideo/mpegsvideo/mpgvideo/mp4video/webmvideo/wmvvideo/3gpp
音声
  • 会話の長さの上限: デフォルトは 10 分ですが、延長できます
  • 必須の音声入力形式: RAW 16 ビット PCM 音声、16kHz、リトル エンディアン。
  • 必須の音声出力形式: RAW 16 ビット PCM 音声、24kHz、リトル エンディアン。
  • サポートされている MIME タイプ:
    audio/x-aacaudio/flacaudio/mp3audio/m4aaudio/mpegaudio/mpgaaudio/mp4audio/oggaudio/pcmaudio/wavaudio/webm
パラメータのデフォルト
  • 音声開始の感度: 低
  • 音声終了の感度: 高
  • 冒頭部のパディング: 0
  • コンテキストの最大サイズ: 128K
サポートされるリージョン

モデルの提供

  • 米国
    • us-central1
詳細については、デプロイとエンドポイントをご覧ください。
ナレッジ カットオフ日 2025 年 8 月
バージョン
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • リリース ステージ: 公開プレビュー版
    • リリース日: 2025 年 9 月 25 日
サポートされている言語 サポートされている言語をご覧ください。
料金 料金をご覧ください。