Gemini Live API memungkinkan interaksi suara dan video real-time dengan latensi rendah bersama Gemini. Alat ini memproses aliran audio, video, atau teks berkelanjutan untuk memberikan respons lisan yang langsung dan mirip manusia. Hal ini menciptakan pengalaman percakapan yang alami bagi pengguna Anda.
Coba Gemini Live API di Vertex AI Studio
Contoh kasus penggunaan
Gemini Live API dapat digunakan untuk membangun agen suara dan video real-time untuk berbagai industri, termasuk:
- E-commerce dan retail: Asisten belanja yang menawarkan rekomendasi yang dipersonalisasi dan agen dukungan yang menyelesaikan masalah pelanggan.
- Game: Karakter non-pemain (NPC) interaktif, asisten bantuan dalam game, dan terjemahan real-time konten dalam game.
- Antarmuka generasi berikutnya: Pengalaman yang mendukung suara dan video dalam robotika, kacamata pintar, dan kendaraan.
- Layanan kesehatan: Pendamping kesehatan untuk dukungan dan edukasi pasien.
- Jasa keuangan: Penasihat AI untuk pengelolaan kekayaan dan panduan investasi.
- Pendidikan: Pendamping belajar dan mentor AI yang memberikan instruksi dan masukan yang dipersonalisasi.
Fitur utama
Gemini Live API menawarkan serangkaian fitur lengkap untuk membangun agen suara dan video yang andal:
- Kualitas audio tinggi: Gemini Live API menyediakan ucapan yang terdengar alami dan realistis dalam berbagai bahasa.
- Dukungan multibahasa: Berbicara dalam 24 bahasa yang didukung.
- Interupsi: Pengguna dapat menginterupsi model kapan saja untuk interaksi responsif.
- Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.
- Penggunaan alat: Mengintegrasikan alat seperti panggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
- Transkripsi audio: Memberikan transkrip teks dari input pengguna dan output model.
- Terjemahan ucapan ke ucapan: (Eksperimental pribadi) Dioptimalkan untuk terjemahan latensi rendah antar-bahasa.
- Audio proaktif: (Pratinjau) Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.
Spesifikasi teknis
Tabel berikut menguraikan spesifikasi teknis untuk Gemini Live API:
| Kategori | Detail |
|---|---|
| Modalitas input | Audio (audio PCM 16-bit mentah, 16 kHz, little-endian), gambar/video (JPEG 1 FPS), teks |
| Modalitas output | Audio (audio PCM 16-bit mentah, 24 kHz, little-endian), teks |
| Protokol | Koneksi WebSocket stateful (WSS) |
Model yang didukung
Model berikut mendukung Gemini Live API. Pilih model yang sesuai berdasarkan persyaratan interaksi Anda.
| ID Model | Ketersediaan | Kasus penggunaan | Fitur utama |
|---|---|---|---|
gemini-live-2.5-flash-native-audio |
Tersedia secara umum | Direkomendasikan. Agen suara latensi rendah. Mendukung peralihan multibahasa yang lancar dan nuansa emosional. |
|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Pratinjau publik | Efisiensi biaya dalam agen suara real-time. |
|
gemini-2.5-flash-s2st-exp-11-2025 |
Eksperimental pribadi | Terjemahan Speech-to-Speech. Dioptimalkan untuk tugas terjemahan ucapan real-time. |
|
Mulai
Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:
Tutorial Gen AI SDK
Terhubung ke Gemini Live API menggunakan Gen AI SDK untuk membangun aplikasi multimodal real-time dengan backend Python.
Tutorial WebSocket
Terhubung ke Gemini Live API menggunakan WebSockets untuk membangun aplikasi multimodal real-time dengan frontend JavaScript dan backend Python.
Tutorial ADK
Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.
Integrasi partner
Jika Anda ingin berintegrasi dengan beberapa partner kami, platform ini telah mengintegrasikan Gemini Live API melalui protokol WebRTC untuk menyederhanakan pengembangan aplikasi audio dan video real-time.
