Audio native Gemini 2.5 Flash Live API

Gemini 2.5 Flash dengan fitur audio bawaan Live API adalah fungsi audio bawaan canggih kami untuk Live API. Selain fitur Live API standar, model pratinjau ini mencakup:

  • Kualitas audio yang ditingkatkan: Nikmati kualitas audio yang ditingkatkan secara signifikan yang terasa seperti berbicara dengan orang lain.
  • Kualitas dan kemampuan adaptasi suara yang ditingkatkan: Audio native Live API memberikan interaksi suara yang lebih kaya dan alami dengan 30 suara HD dalam 24 bahasa.
  • Memperkenalkan Audio Proaktif: Jika Audio Proaktif diaktifkan, model hanya akan merespons jika relevan. Model ini menghasilkan transkrip teks dan respons audio secara proaktif hanya untuk kueri yang ditujukan ke perangkat, dan tidak merespons kueri yang tidak ditujukan ke perangkat.
  • Memperkenalkan Dialog Afektif: Model yang menggunakan audio bawaan Live API dapat memahami dan merespons ekspresi emosional pengguna dengan tepat untuk percakapan yang lebih bernuansa.
  • Penyelaan yang ditingkatkan: Menyela Gemini dengan lebih alami dan andal, bahkan di lingkungan yang bising.
  • Panggilan fungsi yang andal: Kami telah meningkatkan rasio pemicuan, sehingga Gemini dapat berhasil menjalankan fungsi yang Anda tentukan untuk mendukung kasus penggunaan Anda.
  • Transkripsi yang akurat: Akurasi transkripsi audio menjadi teks telah ditingkatkan secara signifikan.
  • Dukungan multibahasa yang lancar: Berbicara dengan Gemini dalam beberapa bahasa, dan Gemini akan beralih di antara bahasa tersebut dengan mudah tanpa konfigurasi awal. Bahasa tidak lagi menjadi penghalang.

Untuk mengetahui informasi selengkapnya tentang Live API, lihat:

Coba di Vertex AI

ID Model gemini-live-2.5-flash-preview-native-audio-09-2025
Input & output yang didukung
  • Input:
    Teks, Audio, Video
  • Output:
    Teks, Audio
Batas token
  • Token input maksimum: 128 ribu
  • Token output maksimum: 64 ribu
  • Jendela konteks: 32 ribu token (default), dapat diupgrade hingga 128 ribu token
Kemampuan
Jenis penggunaan
Spesifikasi teknis
Video
  • Resolusi standar: 768 x 768
  • Jenis MIME yang didukung:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Panjang percakapan maksimum: Default 10 menit yang dapat diperpanjang.
  • Format input audio yang diperlukan: Audio PCM 16-bit mentah pada 16 kHz, little-endian
  • Format output audio yang diperlukan: Audio PCM 16-bit mentah pada 24 kHz, little-endian
  • Jenis MIME yang didukung:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Default parameter
  • Awal sensitivitas ucapan: Rendah
  • Sensitivitas akhir ucapan: Tinggi
  • Padding awalan: 0
  • Ukuran konteks maks: 128 K
Region yang didukung

Ketersediaan model

  • Amerika Serikat
    • us-central1
Lihat Residensi data untuk mengetahui informasi selengkapnya.
Tanggal batas informasi Januari 2025
Versi
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Tahap peluncuran: Pratinjau publik
    • Tanggal rilis: 18 September 2025
  • gemini-live-2.5-flash-preview-native-audio
    • Tahap peluncuran: Pratinjau publik
    • Tanggal rilis: 17 Juni 2025
    • Tanggal penghentian: 18 Oktober 2025
Kontrol keamanan
Lihat Kontrol keamanan untuk mengetahui informasi selengkapnya.
Bahasa yang didukung Lihat Bahasa yang didukung.
Harga Lihat Harga.