Menghosting agen AI di Cloud Run

Halaman ini menyoroti kasus penggunaan untuk menghosting agen AI di Cloud Run.

Agen AI adalah entitas software otonom yang menggunakan sistem yang didukung LLM untuk memahami, memutuskan, dan bertindak untuk mencapai tujuan. Seiring dengan makin banyaknya agen otonom yang dibuat, kemampuan mereka untuk berkomunikasi dan berkolaborasi menjadi sangat penting.

Untuk pengantar tentang agen AI, lihat Apa yang dimaksud dengan agen AI.

Kasus penggunaan untuk agen AI di Cloud Run

Anda dapat mengimplementasikan agen AI sebagai layanan Cloud Run untuk mengorkestrasikan serangkaian tugas asinkron dan memberikan informasi melalui beberapa interaksi permintaan-respons.

Layanan Cloud Run adalah endpoint API yang dapat diskalakan untuk logika inti aplikasi Anda. Layanan ini secara efisien mengelola beberapa pengguna serentak melalui penskalaan instance yang otomatis, sesuai permintaan, dan cepat.

Arsitektur agen AI di Cloud Run

Arsitektur agen AI umum yang di-deploy di Cloud Run dapat melibatkan beberapa komponen dari Google Cloud serta di luar Google Cloud:

Empat komponen agen AI yang dihosting di Cloud Run.
Gambar 1. Arsitektur agen AI di Cloud Run.

Diagram menunjukkan hal berikut:

  • Platform hosting: Cloud Run adalah platform hosting untuk menjalankan agen dan menawarkan manfaat berikut:

    • Mendukung menjalankan framework agen apa pun untuk membangun berbagai jenis agen dan arsitektur agentik. Contoh framework agen mencakup Agent Development Kit (ADK), Dify, LangGraph, dan n8n.
    • Menyediakan fitur bawaan untuk mengelola agen Anda. Misalnya, Cloud Run menyediakan identitas layanan bawaan yang dapat Anda gunakan sebagai identitas agen untuk memanggil API Google Cloud dengan kredensial yang aman dan otomatis.
    • Mendukung penghubungan framework agen Anda ke layanan lain. Anda dapat menghubungkan agen ke alat pihak pertama atau pihak ketiga yang di-deploy di Cloud Run. Misalnya, untuk mendapatkan visibilitas ke dalam tugas dan eksekusi agen, Anda dapat men-deploy dan menggunakan alat seperti Langfuse dan Arize.
  • Interaksi agen: Cloud Run mendukung streaming respons HTTP kembali ke pengguna, dan WebSockets untuk interaksi real-time.

  • Model AI generatif: Lapisan orkestrasi memanggil model untuk kemampuan penalaran. Model ini dapat dihosting di layanan, seperti berikut:

  • Memori: Agen sering kali memerlukan memori untuk mempertahankan konteks dan belajar dari interaksi sebelumnya. Anda dapat menggunakan layanan berikut:

    • Memorystore for Redis untuk memori jangka pendek.
    • Firestore untuk memori jangka panjang, seperti menyimpan histori percakapan atau mengingat preferensi pengguna.
  • Database vektor: Untuk Retrieval-Augmented Generation (RAG) atau mengambil data terstruktur, gunakan database vektor untuk membuat kueri informasi entitas tertentu atau melakukan penelusuran vektor pada embedding. Gunakan ekstensi pgvector dengan layanan berikut:

  • Alat: Pengelola menggunakan alat untuk melakukan tugas tertentu guna berinteraksi dengan layanan, API, atau situs eksternal. Hal ini dapat mencakup:

    • Model Context Protocol (MCP): Gunakan protokol standar ini untuk berkomunikasi dengan alat eksternal yang dieksekusi melalui server MCP.
    • Utilitas dasar: Penghitungan matematika yang akurat, konversi waktu, atau utilitas serupa lainnya.
    • Panggilan API: Melakukan panggilan ke API internal atau pihak ketiga lainnya (akses baca atau tulis).
    • Pembuatan gambar atau diagram: Buat konten visual dengan cepat dan efektif.
    • Otomatisasi browser dan OS: Jalankan Sistem Operasi grafis penuh atau tanpa tampilan visual dalam instance container untuk memungkinkan agen menjelajahi web, mengekstrak informasi dari situs, atau melakukan tindakan menggunakan klik dan input keyboard.
    • Eksekusi kode: Jalankan kode di lingkungan yang aman dengan sandbox berlapis, dengan izin IAM minimal atau tanpa izin.

Langkah berikutnya