Gemini Live API memungkinkan interaksi suara dan video real-time dengan latensi rendah bersama Gemini. Alat ini memproses aliran audio, video, atau teks berkelanjutan untuk memberikan respons lisan yang langsung dan mirip manusia. Hal ini menciptakan pengalaman percakapan yang alami bagi pengguna Anda.
Coba Gemini Live API di Google Cloud konsol
Fitur utama
Gemini Live API menawarkan serangkaian fitur komprehensif untuk membangun agen suara dan video yang andal:
- Kualitas audio tinggi: Gemini Live API memberikan ucapan yang terdengar alami dan realistis dalam berbagai bahasa.
- Dukungan multibahasa: Berbicara dalam 24 bahasa yang didukung.
- Interupsi: Pengguna dapat menginterupsi model kapan saja untuk interaksi responsif.
- Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.
- Audio proaktif: Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.
- Penggunaan alat: Mengintegrasikan alat seperti panggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
- Transkripsi audio: Memberikan transkripsi teks dari input pengguna dan output model.
- Terjemahan ucapan ke ucapan: (Eksperimental) Dioptimalkan untuk terjemahan latensi rendah antar-bahasa.
Spesifikasi teknis
Tabel berikut menguraikan spesifikasi teknis untuk Gemini Live API:
| Kategori | Detail |
|---|---|
| Modalitas input | Audio (audio PCM 16-bit mentah, 16 kHz, little-endian), gambar/video (JPEG 1 FPS), teks |
| Modalitas output | Audio (audio PCM 16-bit mentah, 24 kHz, little-endian), teks |
| Protokol | Koneksi WebSocket stateful (WSS) |
Model yang didukung
Model berikut mendukung Gemini Live API. Pilih model yang sesuai berdasarkan persyaratan interaksi Anda.
| ID Model | Ketersediaan | Kasus penggunaan | Fitur utama |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Pratinjau publik | Efisiensi biaya dalam agen suara real-time. |
Audio native Transkripsi audio Deteksi aktivitas suara Dialog afektif Audio proaktif Penggunaan alat |
gemini-2.5-flash-s2st-exp-11-2025 |
Eksperimental pribadi | Terjemahan Speech-to-Speech (eksperimental). Dioptimalkan untuk tugas terjemahan. |
Audio native Transkripsi audio Penggunaan alat Terjemahan speech-to-speech |
Arsitektur dan integrasi
Ada dua cara utama untuk mengintegrasikan Gemini Live API ke dalam aplikasi Anda: server-ke-server dan klien-ke-server. Pilih salah satu yang sesuai dengan persyaratan keamanan dan platform Anda.
Server ke server
Arsitektur server-ke-server direkomendasikan untuk lingkungan produksi seperti aplikasi seluler, alat perusahaan yang aman, dan integrasi telepon. Aplikasi klien Anda men-streaming audio ke server backend aman Anda. Kemudian, server Anda akan mengelola koneksi WebSocket ke Google.
Metode ini menjaga keamanan kunci API Anda dan memungkinkan Anda mengubah audio atau menambahkan logika sebelum mengirimkannya ke Gemini. Namun, hal ini menambahkan sedikit latensi jaringan.
Klien ke server
Arsitektur klien-ke-server cocok untuk aplikasi web, demo cepat, dan alat internal. Browser web terhubung langsung ke Gemini Live API menggunakan WebSocket.
Metode ini memberikan latensi terendah yang dimungkinkan dan arsitektur yang lebih sederhana untuk demo. Perlu diketahui bahwa pendekatan ini mengekspos kunci API kepada pengguna frontend, yang menimbulkan risiko keamanan. Untuk produksi, Anda harus menggunakan proxy yang hati-hati atau pengelolaan token sementara.
Mulai
Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:
Tutorial Gen AI SDK
Hubungkan ke Gemini Live API menggunakan Gen AI SDK, lalu kirim file audio ke Gemini dan terima audio sebagai respons.
Tutorial WebSocket
Terhubung ke Gemini Live API menggunakan WebSockets, dan mengirim file audio ke Gemini serta menerima audio sebagai respons.
Tutorial ADK
Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.
Integrasi partner
Jika lebih memilih proses pengembangan yang lebih sederhana, Anda dapat menggunakan salah satu platform partner kami. Platform ini telah mengintegrasikan Gemini Live API melalui protokol WebRTC untuk menyederhanakan pengembangan aplikasi audio dan video real-time.
