Ringkasan Gemini Live API

Gemini Live API memungkinkan interaksi suara dan video real-time dengan latensi rendah bersama Gemini. Alat ini memproses aliran audio, video, atau teks berkelanjutan untuk memberikan respons lisan yang langsung dan mirip manusia. Hal ini menciptakan pengalaman percakapan yang alami bagi pengguna Anda.

Coba Gemini Live API di Vertex AI Studio

Contoh kasus penggunaan

Gemini Live API dapat digunakan untuk membangun agen suara dan video real-time untuk berbagai industri, termasuk:

  • E-commerce dan retail: Asisten belanja yang menawarkan rekomendasi yang dipersonalisasi dan agen dukungan yang menyelesaikan masalah pelanggan.
  • Game: Karakter non-pemain (NPC) interaktif, asisten bantuan dalam game, dan terjemahan real-time konten dalam game.
  • Antarmuka generasi berikutnya: Pengalaman yang mendukung suara dan video dalam robotika, kacamata pintar, dan kendaraan.
  • Layanan kesehatan: Pendamping kesehatan untuk dukungan dan edukasi pasien.
  • Jasa keuangan: Penasihat AI untuk pengelolaan kekayaan dan panduan investasi.
  • Pendidikan: Pendamping belajar dan mentor AI yang memberikan instruksi dan masukan yang dipersonalisasi.

Fitur utama

Gemini Live API menawarkan serangkaian fitur lengkap untuk membangun agen suara dan video yang andal:

  • Kualitas audio tinggi: Gemini Live API menyediakan ucapan yang terdengar alami dan realistis dalam berbagai bahasa.
  • Dukungan multibahasa: Berbicara dalam 24 bahasa yang didukung.
  • Interupsi: Pengguna dapat menginterupsi model kapan saja untuk interaksi responsif.
  • Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.
  • Penggunaan alat: Mengintegrasikan alat seperti panggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
  • Transkripsi audio: Memberikan transkrip teks dari input pengguna dan output model.
  • Terjemahan ucapan ke ucapan: (Eksperimental pribadi) Dioptimalkan untuk terjemahan latensi rendah antar-bahasa.
  • Audio proaktif: (Pratinjau) Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.

Spesifikasi teknis

Tabel berikut menguraikan spesifikasi teknis untuk Gemini Live API:

Kategori Detail
Modalitas input Audio (audio PCM 16-bit mentah, 16 kHz, little-endian), gambar/video (JPEG 1 FPS), teks
Modalitas output Audio (audio PCM 16-bit mentah, 24 kHz, little-endian), teks
Protokol Koneksi WebSocket stateful (WSS)

Model yang didukung

Model berikut mendukung Gemini Live API. Pilih model yang sesuai berdasarkan persyaratan interaksi Anda.

ID Model Ketersediaan Kasus penggunaan Fitur utama
gemini-live-2.5-flash-native-audio Tersedia secara umum Direkomendasikan. Agen suara latensi rendah. Mendukung peralihan multibahasa yang lancar dan nuansa emosional.
  • Audio native
  • Transkripsi audio
  • Deteksi aktivitas suara
  • Dialog afektif
  • Audio proaktif
  • Penggunaan alat
gemini-live-2.5-flash-preview-native-audio-09-2025 Pratinjau publik Efisiensi biaya dalam agen suara real-time.
  • Audio native
  • Transkripsi audio
  • Deteksi aktivitas suara
  • Dialog afektif
  • Audio proaktif
  • Penggunaan alat
gemini-2.5-flash-s2st-exp-11-2025 Eksperimental pribadi Terjemahan Speech-to-Speech. Dioptimalkan untuk tugas terjemahan ucapan real-time.
  • Terjemahan ucapan-ke-ucapan

Mulai

Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:

Direkomendasikan untuk kemudahan penggunaan

Terhubung ke Gemini Live API menggunakan Gen AI SDK untuk membangun aplikasi multimodal real-time dengan backend Python.

Kontrol protokol mentah

Terhubung ke Gemini Live API menggunakan WebSockets untuk membangun aplikasi multimodal real-time dengan frontend JavaScript dan backend Python.

Agent Development Kit

Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.

Integrasi partner

Jika Anda ingin berintegrasi dengan beberapa partner kami, platform ini telah mengintegrasikan Gemini Live API melalui protokol WebRTC untuk menyederhanakan pengembangan aplikasi audio dan video real-time.