Kasus penggunaan AI agentic: Mengaktifkan streaming multimodal dua arah secara live

Last reviewed 2026-04-06 UTC

Dokumen ini memberikan arsitektur tingkat tinggi untuk sistem AI multi-agen dua arah live di Google Cloud. Sistem ini membantu pengguna menyelesaikan tugas teknis, seperti merakit komponen yang rumit, mendiagnosis malfungsi peralatan, atau memahami prosedur perbaikan yang kompleks. Sistem AI agentik memberikan panduan teknis yang berdasar dan pemantauan keamanan otomatis melalui aliran data multimodal dua arah yang berkelanjutan.

Audiens yang dituju untuk dokumen ini mencakup arsitek, developer, dan administrator yang membangun dan mengelola infrastruktur dan aplikasi AI di cloud. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman dasar tentang agen dan model AI. Dokumen ini tidak memberikan panduan khusus untuk mendesain dan membuat kode agen AI.

Bagian deployment dalam dokumen ini mencantumkan contoh kode yang dapat Anda gunakan untuk mempelajari cara membangun dan men-deploy sistem AI multi-agen.

Arsitektur

Diagram berikut menunjukkan tampilan umum arsitektur yang menggunakan sistem AI multi-agen untuk mengaktifkan streaming data multimodal dua arah secara langsung:

Arsitektur tingkat tinggi dari sistem AI multi-agen yang memungkinkan streaming data multimodal dua arah.

Arsitektur dalam diagram sebelumnya memiliki dua alur kerja: panduan teknis dan pemantauan keselamatan.

  • Alur kerja panduan teknis memungkinkan pengguna menerima solusi yang diucapkan secara real-time untuk pertanyaan teknis yang kompleks. Alur kerja ini menggunakan model Gemini Live untuk memproses streaming multimodal dan berkoordinasi dengan sub-agen untuk mengambil informasi produk yang memiliki rujukan dari database pengetahuan.
  • Alur kerja pemantauan keselamatan menyediakan deteksi bahaya otomatis untuk memastikan keselamatan pengguna selama prosedur teknis. Alur kerja ini menggunakan Gemini untuk menganalisis segmen video live, mengidentifikasi potensi risiko, dan memicu peringatan langsung melalui dasbor klien.

Tab berikut menyediakan diagram arsitektur yang menunjukkan alur kerja panduan teknis dan pemantauan keselamatan:

Alur kerja panduan teknis

Diagram berikut menunjukkan arsitektur mendetail untuk alur kerja panduan teknis.

Arsitektur yang menunjukkan alur kerja panduan teknis.

Diagram sebelumnya menunjukkan alur data berikut:

  1. Pengguna memulai sesi dengan mengajukan pertanyaan teknis lisan melalui dasbor klien. Misalnya, seorang teknisi dapat mengarahkan kamera ke panel kontrol dan bertanya, "Tolong, apa arti lampu error merah yang berkedip ini?"

  2. Dasbor klien membuat koneksi WebSocket persisten antara frontend dan server backend.

  3. Pesan WebSocket mengemas data multimedia mentah ke dalam objek Blob. Komponen Agent Development Kit (ADK) LiveRequestQueue terus-menerus melakukan streaming data input ke agen dispatcher.

  4. Agen dispatcher mendeteksi perintah audio atau visual yang memerlukan panduan teknis dan mengirimkan aliran input ke model Gemini Live.

  5. Model Gemini Live menelusuri data mentah untuk mengidentifikasi peristiwa. Peristiwa adalah kata kunci audio, seperti "merakit" atau "bantu", atau isyarat visual, seperti gestur tangan.

    Gemini mengevaluasi setiap peristiwa untuk menentukan apakah peristiwa tersebut relevan dengan pertanyaan pengguna. Misalnya, gestur tangan atau kata pengisi mungkin tidak relevan, sehingga Gemini tidak memproses peristiwa tersebut.

  6. Untuk setiap peristiwa yang relevan, Gemini mengaktifkan panggilan fungsi untuk mengevaluasi apakah peristiwa tersebut memerlukan konteks tambahan. Bergantung pada apakah konteks tambahan diperlukan, agen Gemini atau agen arsitek mengirimkan respons kembali ke agen dispatcher.

    1. Jika memerlukan konteks lebih lanjut, Gemini akan mencari kartu agen arsitek untuk memahami cara menyusun permintaannya.

    2. Gemini mengirimkan permintaan terstruktur ke agen dispatcher. Permintaan berisi detail acara, seperti jenis produk, nomor model, jenis acara, dan atribut.

    3. Agen dispatcher menggunakan protokol Agent2Agent (A2A) untuk mengirim permintaan terstruktur ke agen arsitek.

    4. Agen arsitek mengirimkan kueri melalui konektor Akses VPC Serverless . Konektor memungkinkan agen mengakses resource secara aman di jaringan Virtual Private Cloud (VPC) yang digunakan untuk resource penyimpanan dalam arsitektur ini.

    5. Konektor Akses VPC Serverless berinteraksi dengan data dalam cache yang disimpan di Memorystore for Redis Cluster. Jika data tidak tersedia di lapisan yang di-cache, agen arsitek berinteraksi dengan instance Compute Engine yang menghosting database pengetahuan.

    6. Agen arsitek menerima informasi produk dari cache data atau database pengetahuan. Agen arsitek mengirimkan informasi produk ke Gemini untuk menghasilkan respons. Misalnya, "Kode error 3B: Kipas tidak berfungsi. Tindakan yang disarankan: Periksa apakah ada penghalang."

    7. Agen arsitek mengirimkan informasi produk kembali ke agen pengirim.

    Jika tidak memerlukan konteks lainnya, Gemini akan langsung membuat respons terhadap permintaan pengguna.

  7. Agen dispatcher menerima respons dari Gemini atau dari agen arsitektur, dan menghasilkan respons multimodal:

    1. Menggunakan model Gemini Live dan fungsi run_live ADK untuk menghasilkan respons multimodal yang berisi solusi teknis.

    2. Menyimpan respons sebagai objek Blob.

    3. Mengirim solusi teknis melalui buffer streaming dan koneksi WebSocket persisten untuk memberikan solusi teknis ke dasbor klien.

  8. Dasbor klien mengekstrak data Blob dari solusi teknis untuk memberikan panduan narasi langsung dan memperbarui UI dengan transkripsi yang relevan. Loop permintaan selesai saat aliran dua arah aktif dipertahankan.

Alur kerja pemantauan keselamatan

Diagram berikut menunjukkan arsitektur mendetail untuk alur kerja pemantauan keselamatan.

Arsitektur yang menunjukkan alur kerja pemantauan keselamatan.

Diagram sebelumnya menunjukkan alur data berikut:

  1. Dasbor klien membuat koneksi WebSocket yang persisten antara frontend dan server backend untuk mengamati live stream video. Pesan WebSocket mengemas data multimedia mentah ini ke dalam objek Blob, dan mengirimkannya secara terus-menerus ke buffer streaming, menggunakan komponen ADK LiveRequestQueue.
  2. Buffer streaming mengarahkan aliran input ke alat streamingyang berjalan dalam loop latar belakang berkelanjutan untuk mendeteksi bahaya dalam frame video.
  3. Alat streaming mengirimkan frame video terbaru dari buffer streaming ke Gemini.
  4. Gemini mengamati frame video untuk mendeteksi bahaya, seperti cahaya terang atau uap.
    • Jika tidak ada bahaya yang terdeteksi, tidak ada yang terjadi.
    • Jika bahaya terdeteksi, Gemini membuat respons multimodal yang berisi jenis bahaya, atribut, dan lokasinya, lalu menyimpannya sebagai objek Blob. Gemini mengirimkan respons peringatan bahaya kembali ke alat streaming.
  5. Alat streaming meneruskan respons peringatan bahaya ke buffer streaming.
  6. Buffer streaming menggunakan koneksi WebSocket persisten untuk memberikan solusi teknis ke dasbor klien.
  7. Dasbor klien mengekstrak data Blob dari solusi teknis untuk memberikan panduan dan pembaruan yang langsung disuarakan, serta memperbarui UI dengan transkripsi yang relevan. Tindakan ini menyelesaikan loop permintaan sambil mempertahankan aliran dua arah yang aktif.

Produk yang digunakan

Arsitektur referensi ini menggunakan produk dan alat berikut: Google Cloud

  • Cloud Run: Platform komputasi serverless yang memungkinkan Anda menjalankan container langsung di atas infrastruktur Google yang bersifat skalabel.
  • Gemini: Rangkaian model AI multimodal yang dikembangkan oleh Google.
  • Vertex AI: Platform ML yang dapat Anda gunakan untuk melatih dan men-deploy model ML dan aplikasi AI, serta menyesuaikan LLM untuk digunakan dalam aplikasi yang didukung AI.
  • Agent Development Kit (ADK): Kumpulan alat dan library untuk mengembangkan, menguji, dan men-deploy agen AI.
  • Protokol Agent2Agent (A2A): Protokol terbuka yang memungkinkan komunikasi dan interoperabilitas antar-agen, terlepas dari bahasa pemrograman dan runtime-nya.
  • Akses VPC Serverless: Layanan yang memungkinkan lingkungan serverless Anda terhubung ke resource di jaringan Virtual Private Cloud.
  • Virtual Private Cloud (VPC): Sistem virtual yang menyediakan fungsi jaringan global dan skalabel untuk workload Google Cloud Anda. VPC mencakup Peering Jaringan VPC, Private Service Connect, akses layanan pribadi, dan VPC Bersama.
  • Memorystore for Redis Cluster: Layanan penyimpanan data dalam memori yang terkelola sepenuhnya untuk Redis.
  • Compute Engine: Layanan komputasi yang aman dan dapat disesuaikan yang memungkinkan Anda membuat dan menjalankan VM di infrastruktur Google.

Untuk mengetahui informasi tentang memilih komponen alternatif untuk sistem AI agentic Anda, termasuk framework, runtime agen, alat, memori, dan pola desain, lihat Memilih komponen arsitektur AI agentic Anda.

Kasus penggunaan

Arsitektur referensi ini dirancang untuk kasus penggunaan yang memerlukan sintesis real-time dari aliran data multimodal dua arah yang berkelanjutan. Berikut adalah contoh kasus penggunaan untuk arsitektur yang dijelaskan dalam dokumen ini:

  • Manufaktur industri dan pemeliharaan lapangan: Memungkinkan perbaikan handsfree mesin yang kompleks dengan menyediakan asisten AI bagi teknisi yang memproses audio dan video langsung dari smart glasses. Teknisi berbicara dengan asisten AI untuk mengambil skema mesin. Asisten AI menggunakan agen database internal yang mengakses dokumentasi produk untuk memastikan petunjuk perbaikan dan perakitan yang berdasar. Alat visi latar belakang serentak memantau streaming dua arah untuk secara proaktif memperingatkan teknisi tentang bahaya mekanis atau langkah-langkah perakitan yang salah.
  • Dukungan teknis jarak jauh: Meningkatkan hasil pemecahan masalah pelanggan dengan mengizinkan pengguna membagikan feed kamera ponsel secara langsung dengan sistem AI agentik multimodal. Arsitektur streaming dua arah mendukung percakapan dinamis di mana sistem mengamati hardware secara real time. Jika proses visi di latar belakang mengidentifikasi koneksi yang salah, seperti kabel di port yang salah, sistem akan menggunakan aliran latensi rendah untuk segera menginterupsi pengguna dengan panduan korektif.

Pertimbangan desain

Bagian berikut memberikan rekomendasi umum untuk mendesain agen AI dan menerapkan arsitektur ini untuk produksi.

Desain agen AI

Untuk meningkatkan biaya dan performa agen Anda, pertimbangkan rekomendasi berikut:

  • Skrip loop kontrol: Tulis perintah sistem untuk agen aktif dua arah sebagai loop perilaku mesin status yang ketat, bukan hanya pedoman kepribadian. Perintah sistem harus secara eksplisit memerintahkan agen untuk tetap diam hingga dipicu. Model ini harus menerapkan respons singkat yang berfokus pada tindakan agar interaksi suara menjadi ringkas dan alami.
  • Pemisahan fokus: Gunakan alat streaming latar belakang khusus untuk memantau feed video secara terpisah dari agen utama. Agen root dalam arsitektur ini bersifat dua arah dan dapat langsung menghentikan ucapan sendiri untuk menyiarkan peringatan keselamatan penting ini kepada pengguna. Selain itu, jika Anda meminta satu agen untuk terus memantau feed video, hal ini dapat menyebabkan kelebihan beban kognitif dan halusinasi.
  • Perintah yang hemat biaya: Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "sebutkan 3 poin utama". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah.

Desain produksi

Untuk menerapkan arsitektur ini untuk produksi, pertimbangkan rekomendasi berikut:

  • Keamanan ingress: Untuk mengontrol akses ke aplikasi, nonaktifkan URL run.app default dari layanan Cloud Run frontend dan siapkan Load Balancer Aplikasi eksternal regional. Selain menyeimbangkan beban traffic masuk ke aplikasi, load balancer menangani pengelolaan sertifikat SSL. Untuk perlindungan tambahan, Anda dapat menggunakan kebijakan keamanan Google Cloud Armor untuk menyediakan pemfilteran permintaan, perlindungan DDoS, dan pembatasan frekuensi untuk layanan.
  • Kontrol akses: Saat mengonfigurasi izin untuk resource dalam topologi, ikuti prinsip hak istimewa terendah.
  • Buffering asinkron: Untuk memisahkan paket audio dan video yang masuk dari mesin inferensi model, gunakan buffer First-In-First-Out (FIFO) asinkron yang aman untuk thread. Buffer ini bertindak sebagai multiplexer yang memastikan sistem tetap responsif terhadap gangguan pengguna tanpa membekukan antarmuka pengguna selama komputasi berat.
  • Biaya penyerapan data: Untuk mengurangi biaya token dan mencegah kehabisan jendela konteks, gunakan pengambilan sampel frame frekuensi rendah, seperti 2 frame per detik, dan kompres semua data ke file JPEG Base64.
  • Caching dalam memori: Untuk mencapai kecepatan baca sub-milidetik, gunakan database Memorystore for Redis Cluster dalam memori untuk brankas skema agen arsitek. Penerapan ini meminimalkan latensi, mencegah keheningan selama interaksi suara real-time, dan menyediakan satu sumber tepercaya yang dapat diskalakan.
  • Keamanan WebSocket: Lindungi data multimodal sensitif, seperti sidik jari suara dan video, dengan menerapkan enkripsi TLS untuk semua koneksi WebSocket dua arah.
  • Komunikasi A2A yang aman:
  • Alokasi resource: Bergantung pada persyaratan performa Anda, konfigurasikan batas memori dan batas CPU yang akan dialokasikan ke layanan Cloud Run.

Untuk mengetahui informasi selengkapnya tentang faktor desain, praktik terbaik, dan rekomendasi untuk membangun dan men-deploy sistem AI multi-agen, lihat Sistem AI multi-agen di Google Cloud.

Deployment

Untuk men-deploy contoh penerapan arsitektur ini, coba Codelab berikut:

Langkah berikutnya

Kontributor

Penulis:

Kontributor lainnya: