Ringkasan Gemini Live API

Gemini Live API memungkinkan interaksi suara dan video real-time dengan latensi rendah bersama Gemini. Alat ini memproses aliran audio, video, atau teks berkelanjutan untuk memberikan respons lisan yang langsung dan mirip manusia. Hal ini menciptakan pengalaman percakapan yang alami bagi pengguna Anda.

Coba Gemini Live API di Google Cloud konsol

Fitur utama

Gemini Live API menawarkan serangkaian fitur komprehensif untuk membangun agen suara dan video yang andal:

  • Kualitas audio tinggi: Gemini Live API memberikan ucapan yang terdengar alami dan realistis dalam berbagai bahasa.
  • Dukungan multibahasa: Berbicara dalam 24 bahasa yang didukung.
  • Interupsi: Pengguna dapat menginterupsi model kapan saja untuk interaksi responsif.
  • Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.
  • Audio proaktif: Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.
  • Penggunaan alat: Mengintegrasikan alat seperti panggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
  • Transkripsi audio: Memberikan transkripsi teks dari input pengguna dan output model.
  • Terjemahan ucapan ke ucapan: (Eksperimental) Dioptimalkan untuk terjemahan latensi rendah antar-bahasa.

Spesifikasi teknis

Tabel berikut menguraikan spesifikasi teknis untuk Gemini Live API:

Kategori Detail
Modalitas input Audio (audio PCM 16-bit mentah, 16 kHz, little-endian), gambar/video (JPEG 1 FPS), teks
Modalitas output Audio (audio PCM 16-bit mentah, 24 kHz, little-endian), teks
Protokol Koneksi WebSocket stateful (WSS)

Model yang didukung

Model berikut mendukung Gemini Live API. Pilih model yang sesuai berdasarkan persyaratan interaksi Anda.

ID Model Ketersediaan Kasus penggunaan Fitur utama
gemini-live-2.5-flash-preview-native-audio-09-2025 Pratinjau publik Efisiensi biaya dalam agen suara real-time. Audio native
Transkripsi audio
Deteksi aktivitas suara
Dialog afektif
Audio proaktif
Penggunaan alat
gemini-2.5-flash-s2st-exp-11-2025 Eksperimental pribadi Terjemahan Speech-to-Speech (eksperimental). Dioptimalkan untuk tugas terjemahan. Audio native
Transkripsi audio
Penggunaan alat
Terjemahan speech-to-speech

Arsitektur dan integrasi

Ada dua cara utama untuk mengintegrasikan Gemini Live API ke dalam aplikasi Anda: server-ke-server dan klien-ke-server. Pilih salah satu yang sesuai dengan persyaratan keamanan dan platform Anda.

Server ke server

Arsitektur server-ke-server direkomendasikan untuk lingkungan produksi seperti aplikasi seluler, alat perusahaan yang aman, dan integrasi telepon. Aplikasi klien Anda men-streaming audio ke server backend aman Anda. Kemudian, server Anda akan mengelola koneksi WebSocket ke Google.

Metode ini menjaga keamanan kunci API Anda dan memungkinkan Anda mengubah audio atau menambahkan logika sebelum mengirimkannya ke Gemini. Namun, hal ini menambahkan sedikit latensi jaringan.

Klien ke server

Arsitektur klien-ke-server cocok untuk aplikasi web, demo cepat, dan alat internal. Browser web terhubung langsung ke Gemini Live API menggunakan WebSocket.

Metode ini memberikan latensi terendah yang dimungkinkan dan arsitektur yang lebih sederhana untuk demo. Perlu diketahui bahwa pendekatan ini mengekspos kunci API kepada pengguna frontend, yang menimbulkan risiko keamanan. Untuk produksi, Anda harus menggunakan proxy yang hati-hati atau pengelolaan token sementara.

Mulai

Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:

Direkomendasikan untuk kemudahan penggunaan

Hubungkan ke Gemini Live API menggunakan Gen AI SDK, lalu kirim file audio ke Gemini dan terima audio sebagai respons.

Kontrol protokol mentah

Terhubung ke Gemini Live API menggunakan WebSockets, dan mengirim file audio ke Gemini serta menerima audio sebagai respons.

Agent Development Kit

Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.

Integrasi partner

Jika lebih memilih proses pengembangan yang lebih sederhana, Anda dapat menggunakan salah satu platform partner kami. Platform ini telah mengintegrasikan Gemini Live API melalui protokol WebRTC untuk menyederhanakan pengembangan aplikasi audio dan video real-time.