Ringkasan Live API

Live API memungkinkan interaksi suara dan video real-time dengan latensi rendah bersama Gemini. Alat ini memproses aliran audio, video, atau teks berkelanjutan untuk memberikan respons lisan yang langsung dan mirip manusia. Hal ini menciptakan pengalaman percakapan yang alami bagi pengguna Anda.

Fitur utama

Live API menawarkan serangkaian fitur lengkap untuk membangun agen suara yang andal:

  • Audio native: Menyediakan ucapan yang terdengar alami dan realistis serta performa multibahasa yang lebih baik.
  • Dukungan multibahasa: Berbicara dalam 24 bahasa yang didukung.
  • Deteksi aktivitas suara (VAD): Menangani gangguan dan pergantian giliran secara otomatis.
  • Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.
  • Audio proaktif: Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.
  • Berpikir: Menggunakan token penalaran tersembunyi untuk "berpikir" sebelum berbicara untuk kueri yang kompleks.
  • Penggunaan alat: Mengintegrasikan alat seperti panggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
  • Transkripsi audio: Memberikan transkripsi teks dari input pengguna dan output model.
  • Terjemahan ucapan ke ucapan: Dioptimalkan untuk terjemahan latensi rendah antar-bahasa.

Spesifikasi teknis

Tabel berikut menguraikan spesifikasi teknis untuk Live API:

Kategori Detail
Modalitas input Audio (PCM 16 kHz), video (1 FPS), teks
Modalitas output Audio (PCM 24 kHz), teks
Protokol Koneksi WebSocket stateful (WSS)
Latensi Streaming real-time untuk masukan langsung

Model yang didukung

Model berikut mendukung Live API. Pilih model yang sesuai berdasarkan persyaratan interaksi Anda.

ID Model Ketersediaan Kasus penggunaan Fitur utama
gemini-live-2.5-flash-preview-native-audio-09-2025 Pratinjau publik Efisiensi biaya dalam agen suara real-time. Audio native
Transkripsi audio
Deteksi aktivitas suara
Dialog afektif
Audio proaktif
Penggunaan alat
gemini-2.5-flash-s2st-exp-11-2025 Eksperimental publik Terjemahan Speech-to-Speech (eksperimental). Dioptimalkan untuk tugas terjemahan. Audio native
Transkripsi audio
Penggunaan alat
Terjemahan speech-to-speech

Arsitektur dan integrasi

Ada dua cara utama untuk mengintegrasikan Live API ke dalam aplikasi Anda: server-ke-server dan klien-ke-server. Pilih salah satu yang sesuai dengan persyaratan keamanan dan platform Anda.

Server ke server

Arsitektur server-ke-server direkomendasikan untuk lingkungan produksi seperti aplikasi seluler, alat perusahaan yang aman, dan integrasi telepon. Aplikasi klien Anda men-streaming audio ke server backend aman Anda. Kemudian, server Anda akan mengelola koneksi WebSocket ke Google.

Metode ini menjaga keamanan kunci API Anda dan memungkinkan Anda mengubah audio atau menambahkan logika sebelum mengirimkannya ke Gemini. Namun, hal ini menambahkan sedikit latensi jaringan.

Klien ke server

Arsitektur klien-ke-server cocok untuk aplikasi web, demo cepat, dan alat internal. Browser web terhubung langsung ke Live API menggunakan WebSocket.

Metode ini memberikan latensi terendah yang dimungkinkan dan arsitektur yang lebih sederhana untuk demo. Perlu diketahui bahwa pendekatan ini mengekspos kunci API kepada pengguna frontend, yang menimbulkan risiko keamanan. Untuk produksi, Anda harus menggunakan proxy yang hati-hati atau pengelolaan token sementara.

Mulai

Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:

Direkomendasikan untuk kemudahan penggunaan

Hubungkan ke Live API menggunakan Gen AI SDK, lalu kirim file audio ke Gemini dan terima audio sebagai respons.

Kontrol protokol mentah

Terhubung ke Live API menggunakan WebSockets, dan mengirim file audio ke Gemini serta menerima audio sebagai respons.

Agent Development Kit

Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.

Integrasi React/js

Siapkan dan jalankan aplikasi web yang memungkinkan Anda menggunakan suara dan kamera untuk berbicara dengan Gemini melalui Live API.

Integrasi partner

Jika lebih memilih proses pengembangan yang lebih sederhana, Anda dapat menggunakan Daily, LiveKit atau Voximplant. Berikut adalah platform partner pihak ketiga yang telah mengintegrasikan Gemini Live API melalui protokol WebRTC untuk menyederhanakan pengembangan aplikasi audio dan video real-time.