Dokumen ini memberikan panduan untuk membantu Anda memilih komponen arsitektur untuk aplikasi AI agentik di Google Cloud. Dokumen ini menjelaskan cara mengevaluasi karakteristik aplikasi dan beban kerja Anda untuk memilih produk atau layanan yang sesuai dengan kebutuhan Anda. Proses mendesain arsitektur AI agentik bersifat iteratif. Anda harus menilai ulang arsitektur Anda secara berkala seiring perubahan karakteristik workload, seiring berkembangnya persyaratan, atau seiring tersedianya produk dan fitur baru Google Cloud .
Agen AI efektif untuk aplikasi yang memecahkan masalah terbuka, yang mungkin memerlukan pengambilan keputusan otonom dan pengelolaan alur kerja multilangkah yang kompleks. Agen unggul dalam memecahkan masalah secara real-time dengan menggunakan data eksternal dan unggul dalam mengotomatiskan tugas yang memerlukan banyak pengetahuan. Kemampuan ini memungkinkan agen memberikan nilai bisnis yang lebih besar daripada kemampuan asistif dan generatif model AI.
Anda dapat menggunakan agen AI untuk masalah deterministik dengan langkah-langkah yang telah ditentukan sebelumnya. Namun, pendekatan lain bisa lebih efisien dan hemat biaya. Misalnya, Anda tidak memerlukan alur kerja agentik untuk tugas seperti meringkas dokumen, menerjemahkan teks, atau mengklasifikasikan masukan pelanggan.
Untuk mengetahui informasi tentang solusi AI non-agen alternatif, lihat referensi berikut:
- Apa perbedaan antara agen AI, asisten AI, dan bot?
- Memilih model dan infrastruktur untuk aplikasi AI generatif Anda
Ringkasan arsitektur agen
Agen adalah aplikasi yang mencapai tujuan dengan memproses input, melakukan penalaran dengan alat yang tersedia, dan mengambil tindakan berdasarkan keputusannya. Agen menggunakan model AI sebagai mesin penalaran intinya untuk mengotomatiskan tugas yang kompleks. Agen menggunakan serangkaian alat yang memungkinkan model AI berinteraksi dengan sistem dan sumber data eksternal. Agen dapat menggunakan sistem memori untuk mempertahankan konteks dan belajar dari interaksi. Tujuan arsitektur agentik adalah membuat sistem otonom yang dapat memahami maksud pengguna, membuat rencana multi-langkah, dan menjalankan rencana tersebut menggunakan alat yang tersedia.
Diagram berikut menunjukkan ringkasan tingkat tinggi komponen arsitektur sistem agentik:
Arsitektur sistem agentik mencakup komponen berikut:
- Framework frontend: Kumpulan komponen, library, dan alat bawaan yang Anda gunakan untuk membuat antarmuka pengguna (UI) aplikasi Anda.
- Framework pengembangan agen: Framework dan library yang Anda gunakan untuk membangun dan menyusun logika agen Anda.
- Alat agen: Kumpulan alat, seperti API, layanan, dan fungsi, yang mengambil data dan melakukan tindakan atau transaksi.
- Memori agen: Sistem yang digunakan agen Anda untuk menyimpan dan mengingat kembali informasi.
- Pola desain agen: Pendekatan arsitektur umum untuk menyusun aplikasi agentic Anda.
- Runtime agen: Lingkungan komputasi tempat logika aplikasi agen Anda berjalan.
- Model AI: Mesin penalaran inti yang mendukung kemampuan pengambilan keputusan agen Anda.
- Runtime model: Infrastruktur yang menghosting dan menayangkan model AI Anda.
Bagian berikut memberikan analisis mendetail tentang komponen untuk membantu Anda membuat keputusan tentang cara membangun arsitektur. Komponen yang Anda pilih akan memengaruhi performa, skalabilitas, biaya, dan keamanan agen Anda. Dokumen ini berfokus pada komponen arsitektur penting yang Anda gunakan untuk membangun dan men-deploy logika penalaran dan eksekusi inti agen. Topik seperti framework keamanan AI yang bertanggung jawab dan pengelolaan identitas agen dianggap di luar cakupan dokumen ini.
Framework frontend
Framework frontend adalah kumpulan komponen, library, dan alat siap pakai yang Anda gunakan untuk membangun UI aplikasi berbasis agen. Framework frontend yang Anda pilih menentukan persyaratan untuk backend Anda. Antarmuka sederhana untuk demo internal mungkin hanya memerlukan HTTP API sinkron, sementara aplikasi tingkat produksi memerlukan backend yang mendukung protokol streaming dan pengelolaan status yang andal.
Pertimbangkan kategori framework berikut:
- Framework alat internal dan pembuatan prototipe: Untuk pengembangan cepat, demo internal, dan aplikasi proof-of-concept, pilih framework yang memprioritaskan pengalaman dan kecepatan developer. Framework ini biasanya mendukung model sederhana dan sinkron yang disebut model permintaan-respons. Model permintaan-respons memungkinkan Anda membuat UI fungsional dengan kode minimal dan backend yang lebih sederhana dibandingkan dengan framework produksi. Pendekatan ini ideal untuk menguji logika agen dan integrasi alat dengan cepat, tetapi mungkin tidak cocok untuk aplikasi yang sangat skalabel dan bersifat publik yang memerlukan interaksi real-time. Framework umum dalam kategori ini mencakup Mesop dan Gradio.
- Framework produksi: Untuk aplikasi yang skalabel, responsif, dan kaya fitur bagi pengguna eksternal, pilih framework yang memungkinkan komponen kustom. Framework ini memerlukan arsitektur backend yang dapat mendukung pengalaman pengguna modern. Framework produksi harus mencakup dukungan untuk protokol streaming, desain API tanpa status, dan sistem memori eksternal yang tangguh untuk mengelola status percakapan di beberapa sesi pengguna. Framework umum untuk aplikasi produksi mencakup Streamlit, React, dan Flutter AI Toolkit.
Untuk mengelola komunikasi antara framework ini dan agen AI Anda, Anda dapat menggunakan protokol Interaksi Agen–Pengguna (AG-UI). AG-UI adalah protokol terbuka yang memungkinkan agen AI backend berinteraksi dengan framework frontend Anda. AG-UI memberi tahu framework frontend kapan harus merender respons agen, memperbarui status aplikasi, atau memicu tindakan sisi klien. Untuk membangun aplikasi AI interaktif, gabungkan AG-UI dengan Agent Development Kit (ADK). Untuk mengetahui informasi tentang ADK, lanjutkan ke bagian berikutnya "Framework pengembangan agen".
Framework pengembangan agen
Framework pengembangan agen adalah library yang menyederhanakan proses membangun, menguji, dan men-deploy aplikasi AI agentik. Alat pengembangan ini menyediakan komponen dan abstraksi bawaan untuk kemampuan agen inti, termasuk reasoning loop, memori, dan integrasi alat.
Untuk mempercepat pengembangan agen di Google Cloud, sebaiknya Anda menggunakan ADK. ADK adalah framework open source, berpendapat, dan modular yang menyediakan tingkat abstraksi tinggi untuk membangun dan mengatur alur kerja dari tugas sederhana hingga sistem multi-agen yang kompleks.
ADK dioptimalkan untuk model Gemini dan Google Cloud, tetapi dibangun agar kompatibel dengan framework lain. ADK mendukung model dan runtime AI lainnya, sehingga Anda dapat menggunakannya dengan model atau metode deployment apa pun. Untuk sistem multi-agen, ADK mendukung interaksi melalui status sesi bersama, delegasi berbasis model untuk merutekan tugas antar-agen, dan pemanggilan eksplisit yang memungkinkan satu agen memanggil agen lain sebagai fungsi atau alat.
Untuk membantu Anda memulai dengan cepat, ADK menyediakan contoh kode dalam Python, Java, dan Go yang mendemonstrasikan berbagai kasus penggunaan di beberapa industri. Meskipun banyak contoh ini menyoroti alur percakapan, ADK juga cocok untuk membangun agen otonom yang melakukan tugas backend. Untuk kasus penggunaan non-interaktif ini, pilih pola desain agen yang unggul dalam memproses satu permintaan mandiri dan yang menerapkan penanganan error yang andal.
Meskipun Anda dapat memilih untuk menggunakan framework AI tujuan umum, seperti Genkit, sebaiknya gunakan ADK. Genkit menyediakan primitif yang dapat Anda gunakan untuk mengembangkan arsitektur agen Anda sendiri. Namun, framework agen khusus seperti ADK menyediakan alat yang lebih khusus.
Alat agen
Kemampuan agen untuk berinteraksi dengan sistem eksternal melalui alat menentukan efektivitasnya. Alat agen adalah fungsi atau API yang tersedia untuk model AI dan yang digunakan agen untuk meningkatkan kualitas output dan memungkinkan otomatisasi tugas. Saat Anda menghubungkan agen AI ke sistem eksternal, alat akan mengubah agen dari generator teks sederhana menjadi sistem yang dapat mengotomatiskan tugas multi-langkah yang kompleks.
Untuk mengaktifkan interaksi alat, pilih dari pola penggunaan alat berikut:
| Kasus penggunaan | Pola penggunaan alat |
|---|---|
| Anda perlu melakukan tugas umum seperti menyelesaikan penelusuran web, menjalankan perhitungan, atau mengeksekusi kode, dan Anda ingin mempercepat pengembangan awal. | Alat bawaan |
| Anda ingin membangun sistem modular atau multi-agen yang memerlukan alat yang dapat dioperasikan dan digunakan kembali. | Model Context Protocol (MCP) |
| Anda perlu mengelola, mengamankan, dan memantau sejumlah besar alat berbasis API dalam skala perusahaan. | Platform manajemen API |
| Anda harus berintegrasi dengan API internal atau pihak ketiga tertentu yang tidak memiliki server MCP. | Alat fungsi kustom |
Saat memilih alat untuk agen Anda, evaluasi alat tersebut berdasarkan kemampuan fungsional dan keandalan operasionalnya. Prioritaskan alat yang dapat diamati, mudah di-debug, dan menyertakan penanganan error yang andal. Kemampuan ini membantu memastikan Anda dapat melacak tindakan dan menyelesaikan kegagalan dengan cepat. Selain itu, evaluasi kemampuan agen dalam memilih alat yang tepat untuk berhasil menyelesaikan tugas yang diberikan.
Alat bawaan
ADK menyediakan beberapa alat bawaan yang terintegrasi langsung ke runtime agen. Anda dapat memanggil alat ini sebagai fungsi tanpa mengonfigurasi protokol komunikasi eksternal. Alat ini menyediakan fungsi umum, termasuk mengakses informasi real-time dari web, menjalankan kode secara terprogram di lingkungan yang aman, mengambil informasi dari data perusahaan pribadi untuk menerapkan RAG, dan berinteraksi dengan data terstruktur di database cloud. Alat bawaan berfungsi bersama alat kustom yang Anda buat.
MCP
Agar komponen sistem agen Anda dapat berinteraksi, Anda perlu menetapkan protokol komunikasi yang jelas. MCP adalah protokol terbuka yang menyediakan antarmuka standar bagi agen untuk mengakses dan menggunakan alat, data, dan layanan lain yang diperlukan.
MCP memisahkan logika penalaran inti agen dari implementasi spesifik alatnya, mirip dengan cara port hardware standar memungkinkan berbagai periferal terhubung ke perangkat. MCP menyederhanakan integrasi alat karena menyediakan daftar konektor bawaan yang terus bertambah dan cara yang konsisten untuk membuat integrasi kustom. Fleksibilitas untuk mengintegrasikan alat meningkatkan interoperabilitas di berbagai model dan alat.
Anda dapat terhubung ke server MCP jarak jauh jika tersedia, atau Anda dapat menghosting server MCP Anda sendiri. Saat menghosting server MCP sendiri, Anda memiliki kontrol penuh atas cara Anda mengekspos API pihak ketiga atau eksklusif ke agen Anda. Untuk menghosting server MCP kustom Anda sendiri, deploy server tersebut sebagai aplikasi dalam container di Cloud Run atau GKE.
Platform manajemen API
Platform pengelolaan API adalah sistem terpusat yang memungkinkan Anda mengamankan, memantau, dan mengontrol layanan internal atau eksternal melalui API. Platform pengelolaan API menyediakan lokasi terpusat untuk mencatat semua API organisasi Anda, menyederhanakan cara Anda mengekspos data, dan memberikan kemampuan observasi melalui pemantauan penggunaan.
Untuk mengelola alat berbasis API agen Anda dalam skala perusahaan di Google Cloud, sebaiknya gunakan hub API Apigee. Hub API memungkinkan agen terhubung ke data secara instan melalui panggilan HTTP langsung, konektor bawaan, API kustom yang terdaftar di hub, atau akses langsung ke sumber data Google Cloud . Dengan pendekatan ini, agen Anda dapat langsung mengakses informasi yang mereka butuhkan tanpa perlu membangun pipeline pemuatan dan integrasi data kustom yang rumit.
Platform pengelolaan API dan protokol komunikasi seperti MCP memecahkan masalah arsitektur yang berbeda. Protokol komunikasi menstandardisasi format interaksi antara agen dan alat, yang memastikan bahwa komponen dapat digunakan kembali dan dapat diganti. Sebaliknya, platform pengelolaan API mengatur siklus proses dan keamanan endpoint API, menangani tugas seperti autentikasi, pembatasan kapasitas, dan pemantauan. Pola ini saling melengkapi. Misalnya, agen dapat menggunakan MCP untuk berkomunikasi dengan alat, dan alat tersebut pada gilirannya dapat menjadi endpoint API aman yang dikelola dan dilindungi oleh hub API.
Alat fungsi kustom
Alat fungsi memberi agen kemampuan baru. Anda dapat menulis alat fungsi kustom untuk memberikan kemampuan khusus kepada agen Anda, seperti mengintegrasikan dengan API eksternal atau sistem bisnis eksklusif. Menulis alat fungsi kustom adalah pola paling umum untuk memperluas kemampuan agen di luar yang dapat ditawarkan alat bawaan.
Untuk membuat alat fungsi kustom, Anda menulis fungsi dalam bahasa pemrograman pilihan Anda, lalu memberikan deskripsi bahasa alami yang jelas tentang tujuan, parameter, dan nilai yang ditampilkan. Model agen menggunakan deskripsi ini untuk menentukan kapan alat diperlukan, input apa yang harus diberikan, dan cara menafsirkan output untuk menyelesaikan permintaan pengguna.
Anda juga dapat membuat alat fungsi kustom yang menerapkan fungsi agen sebagai alat. Fungsi agen sebagai alat menampilkan satu agen sebagai fungsi yang dapat dipanggil oleh agen lain. Teknik ini memungkinkan Anda membangun sistem multi-agen yang kompleks, di mana agen dapat mengoordinasikan dan mendelegasikan tugas khusus ke agen khusus lainnya. Untuk mengetahui informasi selengkapnya tentang pola desain agen dan mengoordinasikan orkestrasi multi-agen, lihat bagian tentang pola desain agen nanti dalam dokumen ini.
Memori agen
Kemampuan agen untuk mengingat interaksi sebelumnya sangat penting untuk memberikan pengalaman percakapan yang koheren dan bermanfaat. Untuk membuat agen kontekstual dan memiliki status, Anda harus menerapkan mekanisme untuk memori jangka pendek dan memori jangka panjang. Bagian berikut membahas pilihan desain dan layanan yang dapat Anda gunakan untuk menerapkan memori jangka pendek dan jangka panjang untuk agen Anda. Google Cloud
Memori jangka pendek
Memori jangka pendek memungkinkan agen mempertahankan konteks dalam satu percakapan yang sedang berlangsung. Untuk menerapkan memori jangka pendek, Anda harus mengelola sesi dan status terkaitnya.
- Sesi: Sesi adalah rangkaian percakapan antara pengguna dan agen, dari interaksi awal hingga akhir dialog.
- Status: Status adalah data yang digunakan dan dikumpulkan oleh agen dalam sesi tertentu. Data status yang dikumpulkan mencakup histori pesan yang dipertukarkan oleh pengguna dan agen, hasil panggilan alat apa pun, dan variabel lain yang diperlukan agen untuk memahami konteks percakapan.
Berikut adalah opsi untuk menerapkan memori jangka pendek dengan ADK:
- Penyimpanan dalam memori: Untuk pengembangan, pengujian, atau aplikasi sederhana yang berjalan pada satu instance, Anda dapat menyimpan status sesi langsung di memori aplikasi. Agen menggunakan struktur data, seperti kamus atau objek, untuk menyimpan daftar key-value pair dan memperbarui nilai ini selama sesi. Namun, saat Anda menggunakan penyimpanan dalam memori, status sesi tidak persisten. Jika aplikasi dimulai ulang, aplikasi akan kehilangan semua histori percakapan.
- Pengelolaan status eksternal: Untuk aplikasi produksi yang memerlukan skalabilitas dan keandalan, sebaiknya Anda membuat aplikasi agen tanpa status dan mengelola status sesi di layanan penyimpanan eksternal. Dalam arsitektur ini, setiap kali aplikasi agen menerima permintaan, aplikasi akan mengambil status percakapan saat ini dari penyimpanan eksternal, memproses giliran baru, lalu menyimpan kembali status yang diperbarui ke penyimpanan. Desain ini memungkinkan Anda menskalakan aplikasi secara horizontal karena instance mana pun dapat melayani permintaan pengguna mana pun. Pilihan umum untuk pengelolaan status eksternal mencakup Memorystore for Redis, Firestore, atau sesi Vertex AI Agent Engine.
Memori jangka panjang
Memori jangka panjang memberi agen pusat informasi persisten yang ada di semua percakapan untuk setiap pengguna. Memori jangka panjang memungkinkan agen mengambil dan menggunakan informasi eksternal, belajar dari interaksi sebelumnya, serta memberikan respons yang lebih akurat dan relevan.
Berikut adalah opsi untuk menerapkan memori jangka panjang dengan ADK:
- Penyimpanan dalam memori: Untuk pengembangan dan pengujian, Anda dapat menyimpan status sesi langsung di memori aplikasi. Pendekatan ini mudah diterapkan, tetapi tidak persisten. Jika aplikasi dimulai ulang,
histori percakapan akan hilang. Anda biasanya menerapkan pola ini dengan
menggunakan penyedia dalam memori dalam framework pengembangan, seperti
InMemoryMemoryServiceyang disertakan dalam ADK untuk pengujian. - Penyimpanan eksternal: Untuk aplikasi produksi, kelola knowledge base agen Anda di layanan penyimpanan eksternal yang persisten. Layanan penyimpanan eksternal memastikan bahwa pengetahuan agen Anda tahan lama, dapat diskalakan, dan dapat diakses di beberapa instance aplikasi. Gunakan Bank Memori untuk penyimpanan jangka panjang dengan runtime agen apa pun di Google Cloud.
Pola desain agen
Pola desain agen adalah pendekatan arsitektur umum untuk membangun aplikasi berkemampuan agen. Pola ini menawarkan framework yang berbeda untuk mengatur komponen sistem, mengintegrasikan model AI, dan mengorkestrasi satu agen atau beberapa agen untuk menyelesaikan alur kerja. Untuk menentukan pendekatan mana yang paling sesuai untuk alur kerja Anda, Anda harus mempertimbangkan kompleksitas dan alur kerja tugas Anda, persyaratan latensi, performa, dan biaya.
Sistem satu agen mengandalkan kemampuan penalaran satu model untuk menafsirkan permintaan pengguna, merencanakan urutan langkah-langkah, dan memutuskan alat yang akan digunakan. Pendekatan ini adalah titik awal yang efektif yang memungkinkan Anda berfokus pada penyempurnaan logika inti, perintah, dan definisi alat sebelum menambahkan kompleksitas arsitektur. Namun, performa satu agen dapat menurun seiring dengan meningkatnya kompleksitas tugas dan jumlah alat.
Untuk masalah yang kompleks, sistem multi-agen mengatur beberapa agen khusus untuk mencapai tujuan yang tidak dapat dengan mudah dikelola oleh satu agen. Desain modular ini dapat meningkatkan skalabilitas, keandalan, dan kemudahan pemeliharaan sistem. Namun, sistem multi-agen juga menimbulkan pertimbangan tambahan terkait evaluasi, keamanan, dan biaya dibandingkan dengan sistem agen tunggal.
Saat mengembangkan sistem multi-agen, Anda harus menerapkan kontrol akses yang tepat untuk setiap agen khusus, merancang sistem orkestrasi yang andal untuk memastikan komunikasi antar-agen yang dapat diandalkan, dan mengelola peningkatan biaya operasional dari overhead komputasi saat menjalankan beberapa agen. Untuk memfasilitasi komunikasi antar-agen, gunakan protokol Agent2Agent (A2A) dengan ADK. A2A adalah protokol standar terbuka yang memungkinkan agen AI berkomunikasi dan berkolaborasi di berbagai platform dan framework, terlepas dari teknologi yang mendasarinya.
Untuk mengetahui informasi selengkapnya tentang pola desain agen umum dan cara memilih pola berdasarkan persyaratan beban kerja Anda, lihat Memilih pola desain untuk sistem AI agentic Anda.
Model AI
Aplikasi agentik bergantung pada kemampuan penalaran dan pemahaman model untuk bertindak sebagai pengelola tugas utama. Untuk peran agen inti ini, sebaiknya gunakan Gemini Pro.
Model Google, seperti Gemini, menyediakan akses ke model eksklusif terbaru dan tercanggih melalui API terkelola. Pendekatan ini ideal untuk meminimalkan overhead operasional. Sebaliknya, model open source yang dihosting sendiri memberikan kontrol mendalam yang diperlukan saat Anda melakukan penyesuaian pada data eksklusif. Workload dengan persyaratan keamanan dan residensi data yang ketat juga memerlukan model yang dihosting sendiri, karena memungkinkan Anda menjalankan model dalam jaringan Anda sendiri.
Untuk meningkatkan performa agen, Anda dapat menyesuaikan kemampuan penalaran model. Model seperti model Gemini Pro dan Flash terbaru memiliki proses pemikiran bawaan yang meningkatkan penalaran dan perencanaan multi-langkah. Untuk proses debug dan penyempurnaan, Anda dapat meninjau ringkasan pemikiran model, atau versi sintetis dari pemikiran internalnya, untuk memahami jalur penalarannya. Anda dapat mengontrol kemampuan penalaran model dengan menyesuaikan anggaran penalaran, atau jumlah token penalaran, berdasarkan kompleksitas tugas. Anggaran berpikir yang lebih tinggi memungkinkan model melakukan penalaran dan perencanaan yang lebih mendetail sebelum memberikan jawaban. Anggaran pemikiran yang lebih tinggi dapat meningkatkan kualitas respons, tetapi juga dapat meningkatkan latensi dan biaya.
Untuk mengoptimalkan performa dan biaya, terapkan perutean model untuk memilih model yang paling sesuai secara dinamis untuk setiap tugas berdasarkan kompleksitas, biaya, atau persyaratan latensi tugas. Misalnya, Anda dapat merutekan permintaan sederhana ke model bahasa kecil (SLM) untuk tugas terstruktur seperti pembuatan kode atau klasifikasi teks, dan mencadangkan model yang lebih canggih dan mahal untuk penalaran yang kompleks. Jika menerapkan perutean model di aplikasi berbasis agen, Anda dapat membuat sistem hemat biaya yang mempertahankan performa tinggi.
Google Cloud memberikan akses ke berbagai pilihan model Google, model partner, dan model terbuka yang dapat Anda gunakan dalam arsitektur berbasis agen. Untuk mengetahui informasi selengkapnya tentang model yang tersedia dan cara memilih model yang sesuai dengan kebutuhan Anda, lihat Model Garden di Vertex AI.
Runtime model
Runtime model adalah lingkungan yang menghosting dan menayangkan model AI Anda serta membuat kemampuan penalaran model tersedia untuk agen Anda.
Memilih runtime model
Untuk memilih runtime terbaik saat menghosting model AI, gunakan panduan berikut:
| Kasus penggunaan | Runtime model |
|---|---|
| Anda memerlukan API yang dikelola sepenuhnya untuk menayangkan model Gemini, model partner, model terbuka, atau model kustom dengan alat AI generatif, penskalaan, dan keamanan tingkat perusahaan. | Vertex AI |
| Anda perlu men-deploy model dalam container terbuka atau kustom dan memprioritaskan kesederhanaan serverless serta efisiensi biaya untuk traffic yang bervariasi. | Cloud Run |
| Anda memerlukan kontrol maksimum atas infrastruktur untuk menjalankan model dalam container terbuka atau kustom di hardware khusus atau untuk memenuhi persyaratan keamanan dan jaringan yang kompleks. | GKE |
Bagian berikut memberikan ringkasan runtime model sebelumnya, termasuk fitur utama dan pertimbangan desain. Dokumen ini berfokus pada Vertex AI, Cloud Run, dan GKE. Namun, Google Cloud menawarkan layanan lain yang dapat Anda pertimbangkan untuk runtime model:
- Gemini API: Gemini API dirancang untuk developer yang memerlukan akses langsung dan cepat ke model Gemini tanpa fitur tata kelola perusahaan yang sering kali diperlukan oleh sistem agentik yang kompleks.
- Compute Engine: Compute Engine adalah produk infrastructure as a service (IaaS) yang cocok untuk aplikasi lama. Hal ini menimbulkan overhead operasional yang signifikan dibandingkan dengan runtime berbasis container modern.
Untuk mengetahui informasi selengkapnya tentang fitur yang membedakan semua opsi layanan untuk runtime model, lihat Infrastruktur hosting model.
Vertex AI
Vertex AI menyediakan lingkungan serverless yang terkelola sepenuhnya untuk menghosting model AI Anda. Anda dapat menayangkan dan menyesuaikan model Google, model partner, dan model terbuka melalui API yang aman dan skalabel. Pendekatan ini mengabstraksi semua pengelolaan infrastruktur, dan memungkinkan Anda berfokus pada pengintegrasian kecerdasan model ke dalam aplikasi Anda.
Saat Anda menggunakan Vertex AI sebagai runtime model, fitur dan pertimbangan utama mencakup hal-hal berikut:
- Kontrol infrastruktur: API yang terkelola sepenuhnya untuk model Anda. Google mengelola infrastruktur yang mendasarinya.
- Keamanan: Setelan keamanan terkelola dan sertifikasi kepatuhan standar sudah cukup untuk kebutuhan Anda. Untuk memberikan perlindungan perintah dan respons serta memastikan praktik AI yang bertanggung jawab, Anda dapat mengintegrasikan Model Armor ke dalam Vertex AI.
- Ketersediaan model: Akses ke berbagai pilihan model, termasuk model Gemini terbaru, melalui API terkelola.
- Biaya: Model harga bayar per penggunaan yang diskalakan dengan traffic aplikasi Anda. Untuk mengetahui informasi selengkapnya, lihat Biaya pembuatan dan deployment model AI di Vertex AI.
Cloud Run
Cloud Run menyediakan runtime serverless yang menghosting model Anda di dalam container kustom. Cloud Run menawarkan keseimbangan antara kesederhanaan Vertex AI yang terkelola sepenuhnya dan kontrol infrastruktur GKE yang mendalam. Pendekatan ini ideal jika Anda memerlukan fleksibilitas untuk menjalankan model di lingkungan dalam container tanpa mengelola server atau cluster.
Saat Anda menggunakan Cloud Run sebagai runtime model, fitur dan pertimbangan utama meliputi hal berikut:
- Kontrol infrastruktur: Jalankan model apa pun dalam container kustom, yang memberikan kontrol penuh atas lingkungan software, sementara platform mengelola infrastruktur serverless yang mendasarinya.
- Keamanan: Memberikan keamanan melalui instance komputasi sementara yang terisolasi dan memungkinkan koneksi yang aman ke resource pribadi dengan menggunakan Traffic keluar VPC langsung atau konektor Akses VPC Tanpa Server. Untuk mengetahui informasi selengkapnya, lihat Jaringan pribadi dan Cloud Run.
- Ketersediaan model: Sajikan model terbuka seperti Gemma atau sajikan model kustom Anda sendiri. Anda tidak dapat menghosting atau menayangkan model Gemini di Cloud Run.
- Biaya: Menampilkan model harga berbasis permintaan, bayar per penggunaan yang diskalakan ke nol, sehingga sangat hemat biaya untuk model dengan traffic sporadis atau bervariasi. Untuk mengetahui informasi selengkapnya, lihat Harga Cloud Run.
GKE
GKE memberikan kontrol dan fleksibilitas terbaik untuk menghosting model AI Anda. Untuk menggunakan pendekatan ini, Anda menjalankan model dalam container di cluster GKE yang Anda konfigurasi dan kelola. GKE adalah pilihan ideal saat Anda perlu menjalankan model di hardware khusus, menempatkannya bersama aplikasi Anda untuk latensi minimal, atau memerlukan kontrol terperinci atas setiap aspek lingkungan penayangan.
Saat Anda menggunakan GKE sebagai runtime model, fitur dan pertimbangan utama mencakup hal-hal berikut:
- Kontrol infrastruktur: Memberikan kontrol terperinci dan maksimal atas seluruh lingkungan penayangan, termasuk konfigurasi node, akselerator mesin khusus, dan software penayangan model tertentu.
- Keamanan: Memungkinkan tingkat keamanan dan isolasi data tertinggi karena Anda dapat menjalankan model sepenuhnya dalam jaringan dan menerapkan kebijakan keamanan Kubernetes yang terperinci. Untuk menyaring traffic ke dan dari cluster GKE serta melindungi semua interaksi dengan model AI, Anda dapat mengintegrasikan Model Armor dengan GKE .
- Ketersediaan model: Sajikan model terbuka seperti Gemma, atau sajikan model kustom Anda sendiri. Anda tidak dapat menghosting atau menyajikan model Gemini di GKE.
- Biaya: Menampilkan model biaya yang didasarkan pada komputasi dan resource cluster pokok yang Anda gunakan, sehingga sangat dioptimalkan untuk workload bervolume tinggi yang dapat diprediksi saat Anda menggunakan diskon abonemen (DA). Untuk mengetahui informasi selengkapnya, lihat Harga Google Kubernetes Engine.
Runtime agen
Untuk menghosting dan men-deploy aplikasi agentik, Anda harus memilih runtime agen. Layanan ini menjalankan kode aplikasi Anda—logika bisnis dan orkestrasi yang Anda tulis saat menggunakan framework pengembangan agen. Dari runtime ini, aplikasi Anda melakukan panggilan API ke model yang dihosting dan dikelola oleh runtime model yang Anda pilih.
Memilih runtime agen
Untuk memilih runtime saat menghosting agen AI, gunakan panduan berikut:
| Kasus penggunaan | Runtime agen |
|---|---|
| Aplikasi Anda adalah agen Python dan memerlukan pengalaman yang dikelola sepenuhnya dengan overhead operasional minimal. | Vertex AI Agent Engine |
| Aplikasi Anda dikontainerisasi dan memerlukan penskalaan berbasis peristiwa serverless dengan fleksibilitas bahasa. | Cloud Run |
| Aplikasi Anda dikontainerisasi, memiliki persyaratan stateful yang kompleks, dan memerlukan konfigurasi infrastruktur yang terperinci. | GKE |
Jika sudah mengelola aplikasi di Cloud Run atau di GKE, Anda dapat mempercepat pengembangan dan menyederhanakan operasi jangka panjang dengan menggunakan platform yang sama untuk workload agentik Anda.
Bagian berikut memberikan ringkasan setiap runtime agen, termasuk fitur utama dan pertimbangan desain.
Vertex AI Agent Engine
Vertex AI Agent Engine adalah runtime terkelola sepenuhnya yang dapat Anda gunakan untuk men-deploy, mengoperasikan, dan menskalakan aplikasi berbasis agen. Vertex AI Agent Engine mengabstraksi infrastruktur yang mendasarinya, sehingga Anda dapat berfokus pada logika agen, bukan operasi.
Berikut adalah fitur dan pertimbangan untuk Vertex AI Agent Engine:
- Fleksibilitas bahasa dan framework pemrograman: Kembangkan agen di Python dengan framework yang didukung.
- Protokol komunikasi: Mengatur agen dan alat yang menggunakan MCP dan A2A. Agent Engine Vertex AI mengelola runtime untuk komponen ini secara efisien, tetapi tidak mendukung hosting server MCP kustom.
- Memori: Menyediakan kemampuan memori terkelola bawaan,
yang menghilangkan kebutuhan untuk mengonfigurasi database eksternal untuk memori agen inti.
Persyaratan Opsi yang tersedia Memori jangka pendek Sesi Vertex AI Agent Engine Memori jangka panjang Memory Bank Penelusuran dan pengambilan database - Skalabilitas: Menskalakan secara otomatis untuk memenuhi permintaan workload berbasis agen Anda, sehingga tidak memerlukan konfigurasi manual. Vertex AI Agent Engine dibangun di Cloud Run dan menggunakan penskalaan instance bawaan Cloud Run untuk menyediakan penskalaan otomatis ini.
- Observability: Menyediakan logging, pemantauan, dan pelacakan terintegrasi melalui layanan Google Cloud Observability.
- Keamanan: Menyediakan keandalan, skalabilitas, dan kepatuhan tingkat perusahaan berikut:
- Identitas layanan bawaan untuk panggilan terautentikasi yang aman ke Google Cloud API.
- Jalankan kode di sandbox yang aman, terisolasi, dan terkelola dengan Eksekusi Kode Vertex AI Agent Engine.
- Lindungi data Anda dengan kunci enkripsi yang dikelola pelanggan (CMEK) milik Anda di Secret Manager.
- Batasi izin IAM dan gunakan aturan firewall VPC untuk mencegah panggilan jaringan yang tidak diinginkan.
Untuk mengetahui informasi tentang fitur keamanan Vertex AI Agent Engine, lihat Keamanan tingkat perusahaan.
Vertex AI Agent Engine mempercepat jalur menuju produksi karena menyediakan lingkungan terkelola yang dibuat khusus untuk menangani banyak aspek kompleks saat Anda mengoperasikan agen, seperti pengelolaan siklus proses dan konteks. Vertex AI Agent Engine kurang cocok untuk kasus penggunaan yang memerlukan penyesuaian ekstensif pada lingkungan komputasi atau yang memerlukan bahasa pemrograman selain Python. Untuk workload yang memiliki persyaratan keamanan ketat untuk pengelolaan dependensi pribadi, Cloud Run dan GKE menawarkan jalur konfigurasi berbasis IAM yang lebih langsung.
Cloud Run
Cloud Run adalah platform serverless yang terkelola sepenuhnya dan memungkinkan Anda menjalankan kode aplikasi agen dalam container stateless. Cloud Run sangat ideal jika Anda ingin men-deploy seluruh aplikasi agen, komponen individual, atau alat kustom sebagai endpoint HTTP yang dapat diskalakan tanpa perlu mengelola infrastruktur yang mendasarinya.
Berikut adalah fitur dan pertimbangan untuk Cloud Run:
- Fleksibilitas bahasa dan framework pemrograman: Saat mengemas aplikasi dalam container, Anda dapat mengembangkan agen dalam bahasa pemrograman apa pun dan dengan framework apa pun.
- Protokol komunikasi: Mengatur agen dan alat yang menggunakan MCP dan A2A. Menghosting klien dan server MCP dengan transport HTTP yang dapat di-streaming di Cloud Run.
- Memori: Instance Cloud Run bersifat stateless,
yang berarti instance akan kehilangan data dalam memori setelah dihentikan. Untuk menerapkan memori persisten, hubungkan layanan Anda ke layanan penyimpanan terkelolaGoogle Cloud :
Persyaratan Opsi yang tersedia Memori jangka pendek Memori jangka panjang - Firestore
- Memory Bank dengan Cloud Run
Penelusuran dan pengambilan database - Skalabilitas: Secara otomatis menskalakan jumlah instance berdasarkan traffic yang masuk, dan juga menskalakan instance hingga nol. Fitur ini membantu membuat Cloud Run hemat biaya untuk aplikasi yang memiliki workload variabel.
- Observability: Menyediakan logging, pemantauan, dan pelacakan terintegrasi melalui layanan Google Cloud Observability. Untuk mengetahui informasi selengkapnya, lihat Ringkasan pemantauan dan logging.
- Keamanan: Menyediakan kontrol keamanan berikut untuk agen Anda:
- Layanan identitas bawaan untuk panggilan terautentikasi yang aman ke Google Cloud API.
- Jalankan kode yang belum diuji di lingkungan yang aman dengan lingkungan sandbox Cloud Run atau dengan eksekusi kode Vertex AI Agent Engine.
- Simpan data sensitif yang digunakan Cloud Run dengan mengonfigurasi secret di Secret Manager.
- Cegah panggilan jaringan yang tidak diinginkan dengan membatasi izin IAM dan menggunakan aturan firewall VPC.
Cloud Run menawarkan kesederhanaan operasional dan efektivitas biaya yang signifikan karena menghilangkan pengelolaan infrastruktur. Namun, sifat Cloud Run yang stateless mengharuskan Anda menggunakan layanan penyimpanan untuk mengelola konteks di seluruh alur kerja multi-langkah. Selain itu, waktu tunggu permintaan maksimum untuk layanan Cloud Run adalah hingga satu jam, yang dapat membatasi tugas agentik yang berjalan lama.
GKE
Google Kubernetes Engine (GKE) adalah layanan orkestrasi container terkelola yang memberikan kontrol terperinci atas arsitektur dan infrastruktur aplikasi berbasis agen Anda. GKE cocok untuk sistem agentik kompleks yang memerlukan kemampuan yang andal dan siap produksi atau jika Anda sudah menjadi pelanggan GKE dan ingin menerapkan alur kerja agentik di atas aplikasi yang ada.
Berikut adalah fitur dan pertimbangan yang tersedia di GKE:
- Fleksibilitas bahasa dan framework pemrograman: Saat mengemas aplikasi dalam container, Anda dapat mengembangkan agen dalam bahasa pemrograman apa pun dan dengan framework apa pun.
- Protokol komunikasi: Mengatur agen dan alat yang menggunakan MCP dan A2A. Menghosting klien dan server MCP di GKE saat Anda memaketkannya sebagai container.
- Memori: Pod GKE bersifat sementara.
Namun, Anda dapat membuat agen stateful dengan memori persisten menggunakan
resource dalam cluster atau dengan menghubungkan ke layanan eksternal:
Persyaratan Opsi yang tersedia Memori jangka pendek Memori jangka panjang - Firestore
- Memory Bank dengan GKE
Penelusuran dan pengambilan database - StatefulSets dan Persistent Volumes untuk penyimpanan yang tahan lama dalam cluster Anda.
- Cloud SQL
- AlloyDB untuk PostgreSQL
- Skalabilitas: Cluster GKE menyediakan dan menskalakan node pool Anda secara otomatis untuk memenuhi persyaratan workload Anda.
- Observability: Menyediakan logging, pemantauan, dan pelacakan terintegrasi di tingkat cluster, node, dan pod dengan Google Cloud Observability. Untuk mengumpulkan metrik pihak ketiga dan yang ditentukan pengguna yang dikonfigurasi, lalu mengirimkannya ke Cloud Monitoring, Anda juga dapat menggunakan Google Cloud Managed Service for Prometheus. Untuk mengetahui informasi selengkapnya, lihat Ringkasan kemampuan observasi GKE.
- Keamanan: Menyediakan kontrol keamanan yang mendetail untuk agen Anda.
- Gunakan Workload Identity Federation for GKE untuk autentikasi yang aman ke Google Cloud API.
- Mengisolasi kode yang tidak tepercaya dengan GKE Sandbox.
- Simpan data sensitif yang digunakan cluster GKE Anda di Secret Manager.
- Batasi izin IAM dan gunakan aturan firewall VPC serta Kebijakan Jaringan untuk mencegah panggilan jaringan yang tidak diinginkan.
GKE memberikan kontrol dan fleksibilitas maksimum, yang memungkinkan Anda menjalankan agen stateful yang kompleks. Namun, kontrol ini menimbulkan biaya operasional dan kompleksitas yang signifikan. Anda harus mengonfigurasi dan mengelola cluster Kubernetes, termasuk kumpulan node, jaringan, dan kebijakan penskalaan, yang memerlukan lebih banyak keahlian dan upaya pengembangan daripada yang diperlukan platform tanpa server.
Langkah berikutnya
- Alat agen:
- Memori agen:
- Pola desain agen:
- Runtime agen:
- Referensi AI agentik lainnya di Google Cloud:
- Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.
Kontributor
Penulis: Samantha He | Technical Writer
Kontributor lainnya:
- Amina Mansour | Head of Cloud Platform Evaluations Team
- Amit Maraj | Developer Relations Engineer
- Casey West | Architecture Advocate, Google Cloud
- Jack Wotherspoon | Developer Advocate
- Joe Fernandez | Staff Technical Writer
- Joe Shirey | Cloud Developer Relations Manager
- Karl Weinmeister | Director of Cloud Product Developer Relations
- Kumar Dhanagopal | Cross-Product Solution Developer
- Lisa Shen | Senior Outbound Product Manager, Google Cloud
- Mandy Grover | Head of Architecture Center
- Megan O'Keefe | Developer Advocate
- Olivier Bourgeois | Developer Relations Engineer
- Polong Lin | Developer Relations Engineering Manager
- Shir Meir Lador | Developer Relations Engineering Manager
- Vlad Kolesnikov | Developer Relations Engineer