Menghosting agen AI di Cloud Run

Halaman ini menyoroti kasus penggunaan untuk menghosting agen AI di Cloud Run.

Agen AI adalah entitas software otonom yang menggunakan sistem yang didukung LLM untuk memahami, memutuskan, dan bertindak untuk mencapai tujuan. Seiring dengan dibangunnya lebih banyak agen otonom, kemampuan mereka untuk berkomunikasi dan berkolaborasi menjadi sangat penting.

Untuk pengantar tentang agen AI, lihat Apa yang dimaksud dengan agen AI.

Kasus penggunaan untuk agen AI di Cloud Run

Anda dapat menerapkan agen AI sebagai layanan Cloud Run untuk mengorkestrasikan serangkaian tugas asinkron dan memberikan informasi melalui beberapa interaksi permintaan-respons.

Layanan Cloud Run adalah endpoint API yang skalabel untuk logika inti aplikasi Anda. Layanan ini secara efisien mengelola beberapa pengguna serentak melalui penskalaan instance yang otomatis, sesuai permintaan, dan cepat.

Arsitektur agen AI di Cloud Run

Arsitektur agen AI umum yang di-deploy di Cloud Run dapat melibatkan beberapa komponen dari Google Cloud serta di luar Google Cloud:

Empat komponen agen AI yang dihosting di Cloud Run. — **Gambar 1.** Arsitektur agen AI di Cloud Run.

Diagram menunjukkan hal berikut:

Platform hosting: Cloud Run adalah platform hosting untuk menjalankan agen dan menawarkan manfaat berikut:
- Mendukung eksekusi framework agen apa pun untuk membangun berbagai jenis agen dan arsitektur agentic. Contoh framework agen mencakup Agent Development Kit (ADK), Dify, LangGraph, dan n8n.
- Menyediakan fitur bawaan untuk mengelola agen Anda. Misalnya, Cloud Run menyediakan identitas layanan bawaan yang dapat Anda gunakan sebagai identitas agen untuk memanggil API Google Cloud dengan kredensial yang aman dan otomatis.
- Mendukung penghubungan framework agen Anda ke layanan lain. Anda dapat menghubungkan agen ke alat pihak pertama atau pihak ketiga yang di-deploy di Cloud Run. Misalnya, untuk mendapatkan visibilitas ke dalam tugas dan eksekusi agen, Anda dapat men-deploy dan menggunakan alat seperti Langfuse dan Arize.
Interaksi agen: Cloud Run mendukung streaming respons HTTP kembali ke pengguna, dan WebSockets untuk interaksi real-time.
Model AI generatif: Lapisan orkestrasi memanggil model untuk kemampuan penalaran. Model ini dapat dihosting di layanan, seperti berikut:
- Gemini API untuk model AI generatif Google.
- Endpoint Vertex AI untuk model kustom atau model dasar lainnya.
- Layanan Cloud Run yang mendukung GPU untuk model yang disesuaikan sendiri.
Memori: Agen sering kali memerlukan memori untuk mempertahankan konteks dan belajar dari interaksi sebelumnya. Anda dapat menggunakan layanan berikut:
- Memorystore for Redis untuk memori jangka pendek.
- Firestore untuk memori jangka panjang, seperti menyimpan histori percakapan atau mengingat preferensi pengguna berdasarkan data mentah.
- Bank Memori Vertex AI Agent Engine untuk memori jangka panjang yang dipersonalisasi. Fitur ini secara otomatis mengekstrak dari histori percakapan pengguna untuk mengingat dan memperbarui preferensi pengguna seiring waktu. Perhatikan bahwa Anda harus membuat setidaknya satu instance Agent Engine untuk menggunakan fitur ini dengan Cloud Run.
Database vektor: Untuk Retrieval-Augmented Generation (RAG) atau mengambil data terstruktur, gunakan database vektor untuk membuat kueri informasi entitas tertentu atau melakukan penelusuran vektor pada embedding. Gunakan ekstensi pgvector dengan layanan berikut:
- Cloud SQL for PostgreSQL
- AlloyDB untuk PostgreSQL
Alat: Pengelola menggunakan alat untuk melakukan tugas tertentu guna berinteraksi dengan layanan, API, atau situs eksternal. Hal ini dapat mencakup:
- Model Context Protocol (MCP): Gunakan protokol standar ini untuk berkomunikasi dengan alat eksternal yang dieksekusi melalui server MCP.
- Utilitas dasar: Penghitungan matematika yang akurat, konversi waktu, atau utilitas serupa lainnya.
- Panggilan API: Melakukan panggilan ke API internal atau pihak ketiga lainnya (akses baca atau tulis).
- Pembuatan gambar atau diagram: Buat konten visual dengan cepat dan efektif.
- Otomatisasi browser dan OS: Jalankan Sistem Operasi grafis penuh atau tanpa tampilan visual dalam instance container untuk memungkinkan agen menjelajahi web, mengekstrak informasi dari situs, atau melakukan tindakan menggunakan klik dan input keyboard.
- Eksekusi kode: Jalankan kode di lingkungan yang aman dengan sandbox berlapis, dengan izin IAM minimal atau tanpa izin.
- Eksekusi Kode Vertex AI Agent Engine: Mengeksekusi kode di lingkungan sandbox yang aman, terisolasi, dan terkelola yang mendukung input dan output file, eksekusi kode kurang dari satu detik, dan memori yang bertahan lama. Perhatikan bahwa Anda harus membuat setidaknya satu instance Vertex AI Agent Engine untuk menggunakan fitur ini di Cloud Run.

Langkah berikutnya

Tonton Membangun agen AI di Cloud Run.
Coba codelab untuk mempelajari cara membangun dan men-deploy aplikasi LangChain ke Cloud Run.
Pelajari cara men-deploy Agent Development Kit (ADK) ke Cloud Run.
Coba codelab untuk menggunakan server MCP di Cloud Run dengan agen ADK.
Coba codelab untuk men-deploy agen ADK ke Cloud Run dengan GPU.
Temukan sampel agen siap pakai di sampel Agent Development Kit (ADK).
Menghosting server Model Context Protocol (MCP) di Cloud Run.

Menghosting agen AI di Cloud Run Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Kasus penggunaan untuk agen AI di Cloud Run

Arsitektur agen AI di Cloud Run

Langkah berikutnya

Menghosting agen AI di Cloud Run