Gemini 2.5 Flash Live API ネイティブ音声

Gemini 2.5 Flash と Live API のネイティブ音声機能は、Live API の最先端のネイティブ音声機能です。このプレビュー モデルには、標準の Live API 機能に加えて、次の機能が含まれています。

  • 音質の向上: 人と話しているかのような、劇的に向上した音質を体験できます。
  • 音声品質と適応性の向上: Live API ネイティブ音声により、24 言語30 種類の HD 音声で、より豊かで自然な音声インタラクションを実現します。
  • プロアクティブ音声の導入: プロアクティブ音声が有効になっている場合、モデルは関連性がある場合にのみ応答します。モデルは、デバイス宛てのクエリに対してのみ、テキストの文字起こしと音声の回答をプロアクティブに生成します。デバイス宛て以外のクエリには応答しません。
  • アフェクティブ ダイアログの導入: Live API ネイティブ音声を使用するモデルは、ユーザーの感情表現を理解して適切に応答し、より機微を捉えた会話を実現できます。
  • 割り込みの改善: 騒がしい環境でも、Gemini により自然かつ確実に割り込むことができます。
  • 堅牢な関数呼び出し: トリガー率が改善され、Gemini がユースケースをサポートするために定義した関数を正常に実行できるようになりました。
  • 正確な文字起こし: 音声からテキストへの文字起こしの精度が大幅に向上しました。
  • シームレスな多言語サポート: Gemini に複数の言語で話しかけると、事前設定なしで言語を簡単に切り替えることができます。言語はもはや障壁ではありません。

Live API の詳細については、以下をご覧ください。

Vertex AI で試す

モデル ID gemini-live-2.5-flash-preview-native-audio-09-2025
サポートされている入出力
  • 入力:
    テキスト音声動画
  • 出力:
    テキスト音声
トークンの上限
  • 最大入力トークン: 128,000
  • 最大出力トークン: 64,000
  • コンテキスト ウィンドウ: 32K(デフォルト)、128K にアップグレード可能
機能
使用タイプ
技術仕様
動画
  • 標準解像度: 768 x 768
  • サポートされている MIME タイプ:
    video/x-flvvideo/quicktimevideo/mpegvideo/mpegsvideo/mpgvideo/mp4video/webmvideo/wmvvideo/3gpp
音声
  • 会話の長さの上限: デフォルトは 10 分ですが、延長できます
  • 必須の音声入力形式: RAW 16 ビット PCM 音声、16kHz、リトル エンディアン
  • 必須の音声出力形式: RAW 16 ビット PCM 音声、24kHz、リトル エンディアン
  • サポートされている MIME タイプ:
    audio/x-aacaudio/flacaudio/mp3audio/m4aaudio/mpegaudio/mpgaaudio/mp4audio/oggaudio/pcmaudio/wavaudio/webm
パラメータのデフォルト
  • 音声開始の感度: 低
  • 音声終了の感度: 高
  • 冒頭部のパディング: 0
  • コンテキストの最大サイズ: 128K
サポートされるリージョン

モデルの提供

  • 米国
    • us-central1
詳細については、データ所在地をご覧ください。
ナレッジ カットオフ日 2025 年 1 月
バージョン
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • リリース ステージ: 公開プレビュー版
    • リリース日: 2025 年 9 月 18 日
  • gemini-live-2.5-flash-preview-native-audio
    • リリース ステージ: 公開プレビュー版
    • リリース日: 2025 年 6 月 17 日
    • 廃止日: 2025 年 10 月 18 日
セキュリティ管理
詳細については、セキュリティ管理をご覧ください。
サポートされている言語 サポートされている言語をご覧ください。
料金 料金をご覧ください。