Ringkasan Gemini Live API

Gemini Live API memungkinkan interaksi suara dan video real-time dengan latensi rendah bersama Gemini. Alat ini memproses aliran audio, video, atau teks yang berkelanjutan untuk memberikan respons lisan yang langsung dan mirip manusia. Hal ini menciptakan pengalaman percakapan yang alami bagi pengguna Anda.

Coba Gemini Live API di Vertex AI Studio

Contoh kasus penggunaan

Gemini Live API dapat digunakan untuk membangun agen suara dan video real-time untuk berbagai industri, termasuk:

E-commerce dan retail: Asisten belanja yang menawarkan rekomendasi yang dipersonalisasi dan agen dukungan yang menyelesaikan masalah pelanggan.
Game: Karakter non-pemain (NPC) interaktif, asisten bantuan dalam game, dan terjemahan real-time konten dalam game.
Antarmuka generasi berikutnya: Pengalaman yang mendukung suara dan video dalam robotika, kacamata pintar, dan kendaraan.
Layanan kesehatan: Pendamping kesehatan untuk dukungan dan edukasi pasien.
Jasa keuangan: Penasihat AI untuk pengelolaan kekayaan dan panduan investasi.
Pendidikan: Pendamping belajar dan mentor AI yang memberikan instruksi dan masukan yang dipersonalisasi.

Fitur utama

Gemini Live API menawarkan serangkaian fitur lengkap untuk membangun agen suara dan video yang andal:

Kualitas audio tinggi: Gemini Live API menyediakan ucapan yang terdengar alami dan realistis dalam berbagai bahasa.
Dukungan multibahasa: Berbicara dalam 24 bahasa yang didukung.
Penyelaan: Pengguna dapat menyela model kapan saja untuk interaksi responsif.
Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.
Penggunaan alat: Mengintegrasikan alat seperti panggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
Transkripsi audio: Memberikan transkrip teks dari input pengguna dan output model.
Audio proaktif: (Pratinjau) Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.

Spesifikasi teknis

Tabel berikut menguraikan spesifikasi teknis untuk Gemini Live API:

Kategori	Detail
Modalitas input	Audio (audio PCM 16-bit mentah, 16 kHz, little-endian), gambar/video (JPEG 1 FPS), teks
Modalitas output	Audio (audio PCM 16-bit mentah, 24 kHz, little-endian), teks
Protokol	Koneksi WebSocket stateful (WSS)

Model yang didukung

Model berikut mendukung Gemini Live API. Pilih model yang sesuai berdasarkan persyaratan interaksi Anda.

ID Model	Ketersediaan	Kasus penggunaan	Fitur utama
`gemini-live-2.5-flash-native-audio`	Tersedia secara umum	Direkomendasikan. Agen suara latensi rendah. Mendukung peralihan multibahasa yang lancar dan nuansa emosional.	Audio native Transkripsi audio Deteksi aktivitas suara Dialog afektif Audio proaktif Penggunaan alat
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Pratinjau publik	Efisiensi biaya di agen suara real-time.	Audio native Transkripsi audio Deteksi aktivitas suara Dialog afektif Audio proaktif Penggunaan alat

Mulai

Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:

Direkomendasikan untuk kemudahan penggunaan

Tutorial Gen AI SDK

Terhubung ke Gemini Live API menggunakan Gen AI SDK untuk membangun aplikasi multimodal real-time dengan backend Python.

Kontrol protokol mentah

Tutorial WebSocket

Terhubung ke Gemini Live API menggunakan WebSockets untuk membangun aplikasi multimodal real-time dengan frontend JavaScript dan backend Python.

Agent Development Kit

Tutorial ADK

Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.

Integrasi partner

Jika Anda ingin berintegrasi dengan beberapa partner kami, platform ini telah mengintegrasikan Gemini Live API melalui protokol WebRTC untuk menyederhanakan pengembangan aplikasi audio dan video real-time.

Ringkasan Gemini Live API Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.