Gemini 2.5 Flash dengan Gemini Live API

Gemini 2.5 Flash dengan fitur audio bawaan Gemini Live API menghadirkan fungsi audio bawaan canggih untuk Gemini Live API. Selain fitur Gemini Live API standar, model ini mencakup:

Kualitas audio yang ditingkatkan: Nikmati kualitas audio yang ditingkatkan secara signifikan sehingga terasa seperti berbicara dengan orang sungguhan.
Kualitas dan kemampuan adaptasi suara yang ditingkatkan: API Gemini Live audio native memberikan interaksi suara yang lebih kaya dan alami dengan 30 suara HD dalam 24 bahasa.
Memperkenalkan Audio Proaktif: (Pratinjau) Jika Audio Proaktif diaktifkan, model hanya merespons saat relevan. Model ini menghasilkan transkrip teks dan respons audio secara proaktif hanya untuk kueri yang ditujukan ke perangkat, dan tidak merespons kueri yang tidak ditujukan ke perangkat.
Memperkenalkan Affective Dialog: Model yang menggunakan audio asli Gemini Live API dapat memahami dan merespons ekspresi emosional pengguna dengan tepat untuk percakapan yang lebih bernuansa.
Interupsi yang lebih baik: Menginterupsi Gemini dengan lebih alami dan andal, bahkan di lingkungan yang bising.
Panggilan fungsi yang andal: Kami telah meningkatkan rasio pemicuan, sehingga Gemini dapat berhasil menjalankan fungsi yang Anda tentukan untuk mendukung kasus penggunaan Anda.
Transkripsi yang akurat: Akurasi transkripsi audio ke teks telah ditingkatkan secara signifikan.
Dukungan multibahasa yang lancar: Berbicara dengan Gemini dalam beberapa bahasa, dan Gemini akan beralih di antara bahasa tersebut dengan mudah tanpa konfigurasi awal. Bahasa tidak lagi menjadi penghalang.

Untuk mengetahui informasi selengkapnya tentang Gemini Live API, lihat:

Dokumentasi Gemini Live API mandiri kami.
Format audio yang didukung Gemini Live API kami.
Batas sesi serentak Gemini Live API kami.

Audio Native 2.5 Flash Live

Coba di Vertex AI

Spesifikasi teknis
ID Model	`gemini-live-2.5-flash-native-audio`
Input & output yang didukung	Input: Teks, Gambar, Audio, Video Output: Teks, Audio
Batas token	Token input maksimum: 32 ribu (default), dapat diupgrade hingga 128 ribu Token output maksimum: 64 ribu
Sesi serentak maksimum	1000
Kemampuan	Didukung Melakukan grounding dengan Google Penelusuran Petunjuk sistem Panggilan fungsi Gemini Live API Tidak didukung Eksekusi kode Penyesuaian Output terstruktur Berpikir Penyimpanan konteks implisit dalam cache Explicit context caching Vertex AI RAG Engine Penyelesaian chat
Jenis penggunaan	Didukung Tidak didukung Throughput yang Disediakan Standard PayGo Prediksi batch
	Gambar	Jumlah maksimum gambar per perintah: 3.000 Ukuran file maksimum per file untuk data inline atau upload langsung melalui konsol: 7 MB Ukuran file maksimum per file dari Google Cloud Storage: 30 MB Jenis MIME yang didukung: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Video	Resolusi standar: 768 x 768 Jenis MIME yang didukung: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Panjang percakapan maksimum: Default 10 menit yang dapat diperpanjang. Format input audio yang diperlukan: Audio PCM 16-bit mentah pada 16 kHz, little-endian Format output audio yang diperlukan: Audio PCM 16-bit mentah pada 24 kHz, little-endian Jenis MIME yang didukung: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Default parameter	Awal sensitivitas ucapan: Rendah Sensitivitas akhir ucapan: Tinggi Padding awalan: 0 Ukuran konteks maks: 128 K
Region yang didukung
	Ketersediaan model	Amerika Serikat us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 Eropa europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	Lihat Deployment dan endpoint untuk mengetahui informasi selengkapnya.
Versi	`gemini-live-2.5-flash-native-audio` Tahap peluncuran: GA Tanggal rilis: 12 Desember 2025 Tanggal penghentian: 13 Desember 2026
Kontrol keamanan
	Prediksi online	Residensi data CMEK VPC-SC AXT
	Lihat Kontrol keamanan untuk mengetahui informasi selengkapnya.
Bahasa yang didukung	Lihat Bahasa yang didukung.
Harga	Lihat Harga.

Pratinjau Audio Native 2.5 Flash Langsung

Coba di Vertex AI

Spesifikasi teknis
ID Model	`gemini-live-2.5-flash-preview-native-audio-09-2025`
Input & output yang didukung	Input: Teks, Gambar, Audio, Video Output: Teks, Audio
Batas token	Token input maksimum: 128.000 Token output maksimum: 64 ribu Jendela konteks: 32 ribu token (default), dapat diupgrade hingga 128 ribu token
Sesi serentak maksimum	1000
Kemampuan	Didukung Melakukan grounding dengan Google Penelusuran Petunjuk sistem Panggilan fungsi Gemini Live API Tidak didukung Eksekusi kode Penyesuaian Output terstruktur Berpikir Penyimpanan konteks implisit dalam cache Explicit context caching Vertex AI RAG Engine Penyelesaian chat
Jenis penggunaan	Didukung Throughput yang Disediakan Tidak didukung Standard PayGo Prediksi batch
	Gambar	Jumlah maksimum gambar per perintah: 3.000 Ukuran file maksimum per file untuk data inline atau upload langsung melalui konsol: 7 MB Ukuran file maksimum per file dari Google Cloud Storage: 30 MB Jenis MIME yang didukung: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Video	Resolusi standar: 768 x 768 Jenis MIME yang didukung: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Panjang percakapan maksimum: Default 10 menit yang dapat diperpanjang. Format input audio yang diperlukan: Audio PCM 16-bit mentah pada 16 kHz, little-endian Format output audio yang diperlukan: Audio PCM 16-bit mentah pada 24 kHz, little-endian Jenis MIME yang didukung: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Default parameter	Awal sensitivitas ucapan: Rendah Sensitivitas akhir ucapan: Tinggi Padding awalan: 0 Ukuran konteks maks: 128 K
Region yang didukung
	Ketersediaan model	Amerika Serikat us-central1
	Lihat Deployment dan endpoint untuk mengetahui informasi selengkapnya.
Tanggal batas informasi	Agustus 2025
Versi	`gemini-live-2.5-flash-preview-native-audio-09-2025` Tahap peluncuran: Pratinjau publik Tanggal rilis: 25 September 2025
Kontrol keamanan
Kontrol keamanan	Lihat Kontrol keamanan untuk mengetahui informasi selengkapnya.
Bahasa yang didukung	Lihat Bahasa yang didukung.
Harga	Lihat Harga.

Gemini 2.5 Flash dengan Gemini Live API Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Audio Native 2.5 Flash Live

Pratinjau Audio Native 2.5 Flash Langsung

Gemini 2.5 Flash dengan Gemini Live API