Gemini 2.5 Flash と Live API のネイティブ音声機能は、Live API の最先端のネイティブ音声機能です。このプレビュー モデルには、標準の Live API 機能に加えて、次の機能が含まれています。
- 音質の向上: 人と話しているかのような、劇的に向上した音質を体験できます。
- 音声品質と適応性の向上: Live API ネイティブ音声により、24 言語の 30 種類の HD 音声で、より豊かで自然な音声インタラクションを実現します。
- プロアクティブ音声の導入: プロアクティブ音声が有効になっている場合、モデルは関連性がある場合にのみ応答します。モデルは、デバイス宛てのクエリに対してのみ、テキストの文字起こしと音声の回答をプロアクティブに生成します。デバイス宛て以外のクエリには応答しません。
- アフェクティブ ダイアログの導入: Live API ネイティブ音声を使用するモデルは、ユーザーの感情表現を理解して適切に応答し、より機微を捉えた会話を実現できます。
- 割り込みの改善: 騒がしい環境でも、Gemini により自然かつ確実に割り込むことができます。
- 堅牢な関数呼び出し: トリガー率が改善され、Gemini がユースケースをサポートするために定義した関数を正常に実行できるようになりました。
- 正確な文字起こし: 音声からテキストへの文字起こしの精度が大幅に向上しました。
- シームレスな多言語サポート: Gemini に複数の言語で話しかけると、事前設定なしで言語を簡単に切り替えることができます。言語はもはや障壁ではありません。
Live API の詳細については、以下をご覧ください。
モデル ID | gemini-live-2.5-flash-preview-native-audio-09-2025 |
|
---|---|---|
サポートされている入出力 |
|
|
トークンの上限 |
|
|
機能 |
|
|
使用タイプ |
|
|
技術仕様 | ||
動画 |
|
|
音声 |
|
|
パラメータのデフォルト |
|
|
サポートされるリージョン | ||
モデルの提供 |
|
|
詳細については、データ所在地をご覧ください。 | ||
ナレッジ カットオフ日 | 2025 年 1 月 | |
バージョン |
|
|
セキュリティ管理 | ||
詳細については、セキュリティ管理をご覧ください。 | ||
サポートされている言語 | サポートされている言語をご覧ください。 | |
料金 | 料金をご覧ください。 |