Dokumen ini memberikan arsitektur referensi untuk membantu Anda mendesain sistem AI agen tunggal di Google Cloud. Sistem agen tunggal dalam arsitektur ini dibangun menggunakan Agent Development Kit (ADK) dan di-deploy di Cloud Run. Anda juga dapat men-deploy agen di Vertex AI Agent Engine atau Google Kubernetes Engine (GKE). Arsitektur ini menggunakan Model Context Protocol (MCP), yang memungkinkan agen mengakses dan memproses informasi dari berbagai sumber sehingga dapat memberikan insight yang kaya konteks.
Dokumen ini ditujukan untuk arsitek, developer, dan administrator aplikasi AI. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman dasar tentang konsep AI, machine learning (ML), dan model bahasa besar (LLM). Dokumen ini juga mengasumsikan bahwa Anda memiliki pemahaman dasar tentang agen dan model AI. Dokumen ini tidak memberikan panduan khusus untuk mendesain dan membuat kode agen AI.
Bagian Deployment dalam dokumen ini mencantumkan contoh kode yang dapat Anda gunakan untuk mempelajari cara membangun dan men-deploy sistem AI agen tunggal.
Arsitektur
Diagram berikut menunjukkan arsitektur untuk sistem AI agen tunggal yang di-deploy di Cloud Run:
Komponen arsitektur
Arsitektur contoh terdiri dari komponen berikut:
| Komponen | Deskripsi |
|---|---|
| Frontend | Pengguna berinteraksi dengan agen melalui frontend, seperti antarmuka chat, yang berjalan sebagai layanan Cloud Run serverless. |
| Agen | Agen menerima permintaan pengguna, menafsirkan maksud pengguna, memilih alat yang sesuai, lalu mensintesis informasi untuk menjawab kueri. |
| Runtime agen | Agen dibuat menggunakan ADK dan di-deploy sebagai layanan Cloud Run serverless. Anda juga dapat men-deploy agen di Vertex AI Agent Engine atau sebagai aplikasi dalam container di GKE. Untuk mengetahui informasi tentang cara memilih runtime agen, lihat Memilih komponen arsitektur AI agentik Anda. |
| ADK | ADK menyediakan alat dan framework untuk mengembangkan, menguji, dan men-deploy agen. ADK mengabstraksi kompleksitas pembuatan agen dan memungkinkan developer AI berfokus pada logika dan kemampuan agen. Saat mengembangkan agen menggunakan ADK, Anda dapat mengonfigurasi agen untuk mengakses dan menggunakan alat bawaan seperti Google Penelusuran. |
| Model AI dan runtime model | Untuk penayangan inferensi, agen dalam arsitektur contoh ini menggunakan model AI Gemini di Vertex AI. |
| MCP Toolbox | MCP Toolbox for Databases menyediakan alat khusus database untuk agen. Modul ini dapat menangani kompleksitas seperti penggabungan koneksi dan autentikasi. |
| Klien, server, dan alat MCP | MCP memfasilitasi akses ke alat dengan menstandardisasi interaksi antara agen dan alat. Untuk setiap pasangan agen-alat, klien MCP mengirimkan permintaan ke server MCP yang digunakan agen untuk mengakses alat seperti sistem file atau API. Misalnya, alat eksternal seperti StackOverflow LangChain Tool dan alat Google Penelusuran dapat memberikan data dan perujukan. |
| Kemampuan observasi | Agen dipantau menggunakan Google Cloud Observability untuk logging, pemantauan, dan tracing. |
Alur agentic
Contoh sistem agen tunggal dalam arsitektur sebelumnya memiliki alur berikut:
- Pengguna memasukkan perintah melalui frontend, seperti antarmuka chat, yang berjalan sebagai layanan Cloud Run serverless.
- Frontend meneruskan perintah ke agen.
- Agen menggunakan model AI untuk menalar perintah pengguna dan
mensintesis respons:
- Model AI menentukan alat mana yang akan digunakan untuk mengumpulkan informasi kontekstual atau melakukan tugas.
- Agen melakukan panggilan alat dan menambahkan respons ke konteksnya.
- Agen melakukan perujukan dan validasi perantara.
Produk yang digunakan
Arsitektur referensi ini menggunakan produk dan alat open source berikut: Google Cloud
- Cloud Run: Platform komputasi serverless yang memungkinkan Anda menjalankan container langsung di atas infrastruktur Google yang bersifat skalabel.
- Gemini: Rangkaian model AI multimodal yang dikembangkan oleh Google.
- Vertex AI: Platform ML yang memungkinkan Anda melatih dan men-deploy model ML dan aplikasi AI, serta menyesuaikan LLM untuk digunakan dalam aplikasi yang didukung AI.
- Model Context Protocol (MCP): Standar open source untuk menghubungkan aplikasi AI ke sistem eksternal.
- MCP Toolbox for Databases: Server Model Context Protocol (MCP) open source yang memungkinkan agen AI terhubung secara aman ke database dengan mengelola kompleksitas database seperti penggabungan koneksi, autentikasi, dan kemampuan observasi.
- Google Cloud Observability: Layanan kemampuan observasi termasuk Cloud Monitoring, Cloud Logging, dan Cloud Trace untuk membantu Anda memahami perilaku, kondisi, dan performa aplikasi Anda.
Kasus penggunaan
Bagian ini menjelaskan kemungkinan kasus penggunaan untuk arsitektur yang dijelaskan dalam dokumen ini.
Triage laporan bug otomatis
Anda dapat menyesuaikan arsitektur referensi ini untuk mengotomatiskan triase laporan bug yang masuk: memahami masalah, menelusuri duplikat, mengumpulkan konteks teknis yang relevan, lalu membuat bug dalam sistem. Agen yang didukung AI dapat bertindak sebagai asisten cerdas yang dapat melakukan penyelidikan awal, sehingga pakar manusia dapat berfokus pada pemecahan masalah yang lebih kompleks.
Untuk kasus penggunaan ini, arsitektur memberikan manfaat berikut:
- Waktu penyelesaian yang lebih cepat: Agen mengotomatiskan riset awal dan pengumpulan konteks, yang dapat mengurangi waktu yang diperlukan untuk menetapkan dan menyelesaikan tiket bug secara signifikan.
- Peningkatan akurasi dan konsistensi: Agen dapat secara sistematis menelusuri beberapa sumber data (database internal, repositori kode, dan web publik). Kemampuan ini memberikan analisis yang lebih komprehensif dan konsisten daripada yang mungkin dilakukan oleh triase manual.
- Mengurangi beban kerja manual: Agen dapat mengalihkan tugas triase berulang dari tim dukungan IT dan engineering, sehingga mereka dapat berfokus pada pekerjaan yang lebih bernilai tinggi.
Arsitektur ini ideal untuk organisasi mana pun yang mengembangkan software dan ingin meningkatkan efisiensi serta efektivitas proses penyelesaian bug-nya. Untuk mengetahui informasi dan opsi deployment selengkapnya, lihat Software Bug Assistant - ADK Python Sample Agent dan Tools Make an Agent: From Zero to Assistant with ADK.
Layanan pelanggan
Anda dapat menyesuaikan arsitektur referensi ini untuk membantu memberikan pengalaman belanja yang lancar dan dipersonalisasi bagi pelanggan. Agen yang didukung AI dapat memberikan layanan pelanggan, merekomendasikan produk, mengelola pesanan, dan menjadwalkan layanan, sehingga perwakilan manusia dapat berfokus pada tugas lain.
Untuk kasus penggunaan ini, arsitektur memberikan manfaat berikut:
Penjualan tambahan dan promosi: Agen dapat membantu meningkatkan penjualan dengan menyarankan produk, layanan, dan promosi. Saran agen didasarkan pada pesanan pelanggan saat ini dan penjualan yang relevan, histori pesanan pelanggan, dan item yang ada di keranjang mereka.
Pengelolaan pesanan dan penjadwalan: Agen dapat meningkatkan efisiensi dan mengurangi hambatan pelanggan dengan mengelola isi keranjang belanja pelanggan dan memfasilitasi penjadwalan mandiri untuk layanan.
Mengurangi beban kerja manual: Agen menangani pertanyaan umum, pesanan, dan penjadwalan, sehingga agen layanan pelanggan manusia dapat berfokus pada masalah pelanggan yang lebih kompleks.
Arsitektur ini ideal untuk organisasi retail yang ingin meningkatkan pengalaman pelanggan, meningkatkan penjualan, dan menyederhanakan pengelolaan pesanan dan penjadwalan. Untuk mengetahui informasi dan opsi deployment selengkapnya, lihat Agen Layanan Pelanggan Cymbal Home & Garden.
Perkiraan deret waktu
Anda dapat menyesuaikan arsitektur referensi ini untuk membantu memprediksi hasil, seperti perkiraan permintaan, prediksi pola traffic, atau analisis dan prediksi kegagalan mesin. Agen yang didukung AI dapat menganalisis data real-time, tren historis, dan acara mendatang. Agen dapat menggunakan analisis ini untuk memperkirakan hasil selama jangka waktu tertentu. Prakiraan ini dapat membantu Anda membuat rencana dan mengurangi waktu yang dihabiskan oleh analis data manusia.
Kasus penggunaan ini dapat menguntungkan organisasi dalam banyak skenario, seperti berikut:
- Pengelolaan inventaris: Dengan menggunakan analisis lanjutan yang dikombinasikan dengan data penjualan historis dan tren pasar, agen dapat membantu Anda merencanakan pesanan pengisian ulang stok sehingga Anda dapat bersiap menghadapi lonjakan atau penurunan permintaan pelanggan.
- Rute perjalanan: Agen dapat membantu menghemat waktu dan mengurangi biaya perjalanan bagi penyedia layanan dan pengiriman dengan menganalisis pola lalu lintas real-time dan historis beserta peristiwa seperti pembangunan atau penutupan jalan.
- Menghindari pemadaman layanan: Agen dapat membantu Anda menghindari potensi gangguan layanan dengan membantu mengidentifikasi akar penyebab pemadaman layanan sebelumnya. Hal ini juga dapat membantu memprediksi potensi kegagalan di masa mendatang sehingga Anda dapat memitigasi masalah sebelum menjadi masalah yang lebih besar.
Arsitektur ini ideal untuk organisasi mana pun yang perlu beradaptasi dengan perubahan pola berdasarkan tren yang sudah ada. Cara ini juga ideal untuk organisasi yang pelanggannya dapat memperoleh manfaat dari insight proaktif yang membantu mereka membuat rencana untuk masa depan. Untuk mengetahui informasi dan opsi deployment selengkapnya, lihat Agen Peramalan Deret Waktu dengan ADK dan MCP Toolbox Google.
Pengambilan dokumen
Anda dapat menyesuaikan arsitektur referensi ini untuk menggunakan Vertex AI RAG Engine dan membuat agen untuk mengelola pengambilan data kontekstual. Agen pengambilan dokumen dapat mengambil data yang relevan dari sekumpulan dokumen pilihan untuk memberikan jawaban faktual dengan kutipan ke materi sumber.
Dengan agen pengambilan dokumen, Anda dapat membantu memastikan bahwa pelanggan dan pengguna internal mendapatkan respons yang tepat dan sesuai konteks atas kueri mereka. Penerapan ini dapat membantu mengurangi kesalahan dan ketidakakuratan dengan membantu memastikan bahwa jawaban didasarkan pada informasi yang Anda validasi.
Arsitektur pengambilan dokumen sangat ideal untuk pusat informasi tentang kebijakan dan proses, infrastruktur teknis, kemampuan produk, dan dokumentasi berbasis fakta lainnya. Untuk mengetahui informasi tentang cara mengembangkan agen pengambilan dokumen yang didukung retrieval-augmented generation (RAG), lihat Agen Pengambilan Dokumentasi.
Alternatif desain
Bagian ini menyajikan pendekatan desain alternatif yang dapat Anda pertimbangkan untuk deployment agen AI di Google Cloud.
Runtime agen
Dalam arsitektur yang dijelaskan dalam dokumen ini, agen dan alatnya di-deploy di Cloud Run. Anda juga dapat menggunakan GKE atau Vertex AI Agent Engine sebagai runtime alternatif. Untuk mengetahui informasi tentang cara memilih runtime agen, lihat Runtime agen di "Memilih komponen arsitektur AI agentik Anda".
Runtime model AI
Dalam arsitektur yang dijelaskan dalam dokumen ini, runtime model AI adalah Vertex AI. Anda juga dapat menggunakan Cloud Run atau GKE sebagai runtime alternatif. Untuk mengetahui informasi tentang cara memilih runtime model, lihat Runtime model di "Pilih komponen arsitektur AI agentik Anda".
Pertimbangan desain
Bagian ini memberikan panduan untuk membantu Anda menggunakan arsitektur referensi ini guna mengembangkan arsitektur yang memenuhi persyaratan spesifik Anda dalam hal keamanan, keandalan, biaya, efisiensi operasional, dan performa.
Desain sistem
Bagian ini memberikan panduan untuk membantu Anda memilih wilayah Google Cloud untuk deployment dan memilih produk serta alat Google Cloud yang sesuai.
Pemilihan wilayah
Saat memilih Google Cloud region untuk aplikasi AI Anda, pertimbangkan faktor-faktor berikut:
- Ketersediaan layanan Google Cloud di setiap region.
- Persyaratan latensi pengguna akhir.
- Biaya sumber daya Google Cloud .
- Persyaratan peraturan.
Untuk memilih lokasi Google Cloud yang sesuai untuk aplikasi Anda, gunakan alat berikut:
- Google Cloud Pemilih Region: Alat berbasis web interaktif untuk memilih region Google Cloud yang optimal untuk aplikasi dan data Anda berdasarkan faktor seperti jejak karbon, biaya, dan latensi.
- Cloud Location Finder API: API publik yang menyediakan cara terprogram untuk menemukan lokasi deployment di Google Cloud, Google Distributed Cloud, dan penyedia cloud lainnya.
Desain agen
Bagian ini memberikan rekomendasi umum untuk mendesain agen AI. Panduan mendetail tentang penulisan kode dan logika agen berada di luar cakupan dokumen ini.
| Fokus desain | Rekomendasi |
|---|---|
| Definisi dan desain agen |
|
| Interaksi agen |
|
| Konteks, alat, dan data |
|
Penyimpanan memori dan sesi
Contoh arsitektur yang ditampilkan dalam dokumen ini tidak mencakup penyimpanan sesi atau memori. Dalam lingkungan produksi, Anda dapat meningkatkan kualitas respons dan menambahkan personalisasi dengan mengintegrasikan status dan memori ke dalam agen Anda.
- Sesi: Sesi adalah rangkaian percakapan antara pengguna dan agen, dari interaksi awal hingga akhir dialog.
- Status: Status adalah data yang digunakan dan dikumpulkan oleh agen dalam sesi tertentu. Data status yang dikumpulkan mencakup histori pesan yang dipertukarkan oleh pengguna dan agen, hasil panggilan alat apa pun, dan variabel lain yang diperlukan agen untuk memahami konteks percakapan.
ADK dapat melacak sesi dalam memori jangka pendek menggunakan objek
Session dan atribut state. ADK juga mendukung
memori jangka panjang
di seluruh sesi dengan pengguna yang sama, termasuk melalui
Bank Memori.
Untuk menyimpan status sesi, Anda juga dapat menggunakan layanan seperti
Memorystore untuk Redis.
Untuk mengetahui informasi tentang opsi memori agen, lihat Memilih komponen arsitektur AI agentik.
Keamanan
Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk mendesain topologi di Google Cloud yang memenuhi persyaratan keamanan workload Anda.
| Komponen | Pertimbangan dan rekomendasi desain |
|---|---|
| Agen |
Agen AI menimbulkan risiko keamanan unik dan kritis tertentu yang mungkin tidak dapat dimitigasi secara memadai oleh praktik keamanan deterministik konvensional. Google merekomendasikan pendekatan yang menggabungkan kekuatan kontrol keamanan deterministik dengan pertahanan dinamis berbasis penalaran. Pendekatan ini didasarkan pada tiga prinsip inti: pengawasan manusia, otonomi agen yang ditentukan dengan cermat, dan kemampuan observasi. Berikut adalah rekomendasi spesifik yang selaras dengan prinsip inti ini. Pengawasan manusia: Sistem AI agentik terkadang dapat gagal atau tidak berfungsi seperti yang diharapkan. Misalnya, model mungkin membuat konten yang tidak akurat atau agen mungkin memilih alat yang tidak sesuai. Dalam sistem AI agentic yang penting bagi bisnis, sertakan alur human-in-the-loop agar supervisor manusia dapat memantau, mengganti, dan menjeda agen. Misalnya, pengguna manusia dapat meninjau output agen, menyetujui atau menolak output, dan memberikan panduan lebih lanjut untuk memperbaiki kesalahan atau membuat keputusan strategis. Pendekatan ini menggabungkan efisiensi sistem AI agentic dengan pemikiran kritis dan keahlian domain pengguna manusia. Kontrol akses untuk agen: Konfigurasi izin agen menggunakan kontrol Identity and Access Management (IAM). Hanya berikan izin yang diperlukan kepada setiap agen untuk melakukan tugasnya dan berkomunikasi dengan alat dan agen lain. Pendekatan ini membantu meminimalkan potensi dampak pelanggaran keamanan, karena agen yang disusupi akan memiliki akses terbatas ke bagian lain sistem. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan identitas dan izin untuk agen Anda dan Mengelola akses untuk agen yang di-deploy. Pemantauan: Pantau perilaku agen menggunakan kemampuan pelacakan komprehensif yang memberi Anda visibilitas tentang setiap tindakan yang dilakukan agen, termasuk proses penalaran, pemilihan alat, dan jalur eksekusi. Untuk mengetahui informasi selengkapnya, lihat Logging agen di Vertex AI Agent Engine dan Logging di ADK. Untuk mengetahui informasi selengkapnya tentang pengamanan agen AI, lihat Keselamatan dan Keamanan untuk Agen AI. |
| Vertex AI |
Tanggung jawab bersama: Keamanan adalah tanggung jawab bersama. Vertex AI mengamankan infrastruktur yang mendasarinya dan menyediakan alat serta kontrol keamanan untuk membantu Anda melindungi data, kode, dan model Anda. Anda bertanggung jawab untuk mengonfigurasi layanan dengan benar, mengelola kontrol akses, dan mengamankan aplikasi Anda. Untuk mengetahui informasi selengkapnya, lihat Tanggung jawab bersama Vertex AI. Kontrol keamanan: Vertex AI mendukung Google Cloud kontrol keamanan yang dapat Anda gunakan untuk memenuhi persyaratan residensi data, kunci enkripsi yang dikelola pelanggan (CMEK), keamanan jaringan menggunakan Kontrol Layanan VPC, dan Transparansi Akses. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut:
Keamanan: Model AI dapat menghasilkan respons berbahaya, terkadang sebagai respons terhadap perintah berbahaya.
Akses model: Anda dapat menyiapkan kebijakan organisasi untuk membatasi jenis dan versi model AI yang dapat digunakan dalam project Google Cloud . Untuk mengetahui informasi selengkapnya, lihat Mengontrol akses ke model Model Garden. Perlindungan data: Untuk menemukan dan melakukan de-identifikasi data sensitif dalam perintah dan respons serta dalam data log, gunakan Cloud Data Loss Prevention API. Untuk mengetahui informasi selengkapnya, tonton video ini: Melindungi data sensitif di aplikasi AI. |
| MCP | Saat Anda mengonfigurasi agen untuk menggunakan MCP, pastikan akses ke data dan alat eksternal diizinkan, terapkan kontrol privasi seperti enkripsi, terapkan filter untuk melindungi data sensitif, dan pantau interaksi agen. Untuk mengetahui informasi selengkapnya, lihat MCP dan Keamanan. |
| A2A |
Keamanan transportasi: Protokol A2A mewajibkan HTTPS untuk semua komunikasi A2A di lingkungan produksi dan merekomendasikan Transport Layer Security (TLS) versi 1.2 atau yang lebih baru. Autentikasi: Protokol A2A mendelegasikan autentikasi ke mekanisme web standar seperti header HTTP dan ke standar seperti OAuth2 dan OpenID Connect. Setiap agen mengiklankan persyaratan autentikasi di Kartu Agennya. Untuk mengetahui informasi selengkapnya, lihat Autentikasi A2A. |
| Cloud Run |
Keamanan ingress (untuk layanan frontend): Untuk mengontrol
akses ke aplikasi,
nonaktifkan
URL Autentikasi pengguna:
Untuk mengetahui informasi selengkapnya, lihat Mengautentikasi pengguna. Keamanan image container: Untuk memastikan bahwa hanya image container resmi yang di-deploy ke Cloud Run, Anda dapat menggunakan Otorisasi Biner. Untuk mengidentifikasi dan memitigasi risiko keamanan dalam image container, gunakan Artifact Analysis untuk menjalankan pemindaian kerentanan secara otomatis. Untuk informasi selengkapnya, lihat Ringkasan pemindaian container. Residensi data: Cloud Run membantu Anda memenuhi persyaratan residensi data. Fungsi Cloud Run Anda berjalan dalam region yang dipilih. Untuk panduan selengkapnya tentang keamanan container, lihat Tips pengembangan Cloud Run umum. |
| Semua produk dalam arsitektur |
Enkripsi data: Secara default, Google Cloud mengenkripsi data dalam penyimpanan menggunakan Google-owned and Google-managed encryption keys. Untuk melindungi data agen Anda menggunakan kunci enkripsi yang Anda kontrol, Anda dapat menggunakan CMEK yang Anda buat dan kelola di Cloud KMS. Untuk mengetahui informasi tentang Google Cloud layanan yang kompatibel dengan Cloud KMS, lihat Layanan yang kompatibel. Memitigasi risiko pemindahan data yang tidak sah: Untuk mengurangi risiko pemindahan data yang tidak sah, buat perimeter Kontrol Layanan VPC di seputar infrastruktur. Kontrol Layanan VPC mendukung semua layanan Google Cloud yang digunakan oleh arsitektur referensi ini. Kontrol akses: Saat Anda mengonfigurasi izin untuk resource dalam topologi, ikuti prinsip hak istimewa terendah. Keamanan lingkungan cloud: Gunakan alat di Security Command Center untuk mendeteksi kerentanan, mengidentifikasi dan memitigasi ancaman, menentukan dan men-deploy postur keamanan, serta mengekspor data untuk analisis lebih lanjut. Pengoptimalan setelah deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan keamanan dengan menggunakan Active Assist. Tinjau rekomendasi dan terapkan sesuai kebutuhan lingkungan Anda. Untuk informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist. |
Rekomendasi keamanan lainnya
- Perspektif AI dan ML Well-Architected Framework: Keamanan
- Pendekatan Google untuk Agen AI yang Aman: Pengantar
Keandalan
Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk membangun dan mengoperasikan infrastruktur yang andal untuk deployment Anda di Google Cloud.
| Komponen | Pertimbangan dan rekomendasi desain |
|---|---|
| Agen |
Simulasikan kegagalan: Sebelum men-deploy sistem AI agentik ke produksi, validasikan dengan menyimulasikan lingkungan produksi. Mengidentifikasi dan memperbaiki masalah serta perilaku yang tidak terduga. Menskalakan secara horizontal: Untuk membantu memastikan ketersediaan tinggi dan fault tolerance, jalankan beberapa instance aplikasi agen Anda di belakang load balancer. Pendekatan ini juga dapat membantu mengurangi latensi dan waktu tunggu habis dengan mendistribusikan permintaan di seluruh instance. Beberapa runtime agen menangani load balancing untuk Anda secara otomatis, seperti dengan penskalaan otomatis instance di layanan Cloud Run. Pulihkan dari gangguan: Untuk membantu memastikan bahwa agen dapat menangani mulai ulang dengan baik dan mempertahankan konteks, pisahkan status dari runtime. Untuk menerapkan aplikasi agen stateless seperti itu, gunakan penyimpanan data eksternal seperti database atau cache terdistribusi. Misalnya, Anda dapat menggunakan Memory Bank, Memorystore for Redis, atau layanan database seperti Cloud SQL. Menangani error: Untuk memungkinkan diagnosis dan pemecahan masalah error, terapkan mekanisme logging, penanganan pengecualian, dan coba lagi. |
| Vertex AI |
Pengelolaan kuota: Vertex AI mendukung kuota bersama dinamis (DSQ) untuk model Gemini. DSQ membantu mengelola permintaan bayar sesuai penggunaan secara fleksibel, dan menghilangkan kebutuhan untuk mengelola kuota secara manual atau meminta penambahan kuota. DSQ mengalokasikan resource yang tersedia secara dinamis untuk model dan region tertentu di seluruh pelanggan aktif. Dengan DSQ, tidak ada batas kuota yang telah ditentukan sebelumnya untuk setiap pelanggan. Perencanaan kapasitas: Jika jumlah permintaan ke model melebihi kapasitas yang dialokasikan, kode error 429 akan ditampilkan. Untuk workload yang penting bagi bisnis dan memerlukan throughput tinggi yang konsisten, Anda dapat memesan throughput menggunakan Throughput yang Disediakan. Ketersediaan endpoint model: Jika data dapat dibagikan di beberapa wilayah atau negara, Anda dapat menggunakan endpoint global untuk model. |
| Cloud Run |
Ketahanan terhadap gangguan infrastruktur: Cloud Run adalah layanan regional. Layanan ini menyimpan data secara sinkron di beberapa zona dalam satu region dan secara otomatis melakukan load balancing traffic di seluruh zona. Jika terjadi pemadaman layanan zona, Cloud Run akan terus berjalan dan data tidak akan hilang. Jika terjadi pemadaman layanan di suatu region, layanan akan berhenti berjalan hingga Google menyelesaikan pemadaman layanan tersebut. Penskalaan horizontal: Layanan Cloud Run menangani penskalaan otomatis instance untuk Anda. Penskalaan otomatis membantu memastikan bahwa instance dapat menangani semua permintaan, peristiwa, dan pemanfaatan CPU yang masuk yang diperlukan untuk memastikan ketersediaan tinggi. |
| Semua produk dalam arsitektur |
Pengoptimalan pasca-deployment: Setelah Anda men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan keamanan dengan menggunakan Active Assist. Tinjau rekomendasi dan terapkan sesuai kebutuhan untuk lingkungan Anda. Untuk informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist. |
Untuk prinsip dan rekomendasi keandalan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keandalan dalam Well-Architected Framework.
Operasi
Bagian ini menjelaskan faktor-faktor yang harus dipertimbangkan saat Anda menggunakan arsitektur referensi ini untuk mendesain topologi yang dapat Anda operasikan secara efisien. Google Cloud
| Komponen | Pertimbangan dan rekomendasi desain |
|---|---|
| Agen |
Proses debug dan analisis: Terapkan pencatatan ke log terstruktur dalam aplikasi agen Anda. Logging dan pelacakan memungkinkan Anda merekam informasi penting dalam format terstruktur, seperti alat yang dipanggil, input dan output agen, serta latensi setiap langkah. |
| Vertex AI |
Pemantauan menggunakan log: Secara default, log agen yang
ditulis ke aliran Evaluasi berkelanjutan: Lakukan evaluasi kualitatif secara rutin terhadap output agen dan arah atau langkah-langkah yang dilakukan agen untuk menghasilkan output. Untuk menerapkan evaluasi agen, Anda dapat menggunakan layanan evaluasi AI generatif atau metode evaluasi yang didukung ADK. |
| Cloud Run |
Kesehatan dan performa: Pantau layanan Cloud Run Anda menggunakan Google Cloud Observability. Siapkan pemberitahuan di Cloud Monitoring untuk memberi tahu Anda tentang potensi masalah, seperti peningkatan rasio error, latensi tinggi, atau penggunaan resource yang tidak normal. |
| Database |
Kesehatan dan performa: Pantau database Anda dengan menggunakan Google Cloud Observability. Siapkan pemberitahuan di Monitoring untuk memberi tahu Anda tentang potensi masalah, seperti peningkatan rasio error, latensi tinggi, atau penggunaan resource yang tidak normal. |
| MCP |
Alat database: Untuk mengelola alat database secara efisien bagi agen AI Anda dan memastikan bahwa agen menangani kompleksitas seperti penggabungan koneksi dan autentikasi secara aman, gunakan MCP Toolbox for Databases. Direktori ini menyediakan lokasi terpusat untuk menyimpan dan memperbarui alat database. Anda dapat membagikan alat di seluruh agen dan memperbarui alat tanpa men-deploy ulang agen. Toolbox ini mencakup berbagai alat untuk database seperti AlloyDB untuk PostgreSQL dan untuk database pihak ketiga seperti MongoDB. Google Cloud Model AI generatif: Untuk mengizinkan agen AI menggunakan model AI generatif Google seperti Imagen dan Veo, Anda dapat menggunakan Server MCP untuk Google Cloud API media generatif. Produk dan alat keamanan Google: Agar agen AI Anda dapat mengakses produk dan alat keamanan Google seperti Google Security Operations, Google Threat Intelligence, dan Security Command Center, gunakan server MCP untuk produk keamanan Google. |
| Semua produk Google Cloud dalam arsitektur |
Pelacakan: Terus mengumpulkan dan menganalisis data pelacakan menggunakan Trace. Data rekaman aktivitas memungkinkan Anda mengidentifikasi dan mendiagnosis masalah latensi dengan cepat dalam alur kerja agen yang kompleks. Anda dapat melakukan analisis mendalam melalui visualisasi di halaman penjelajah rekaman aktivitas Google Cloud console. Untuk mengetahui informasi selengkapnya, lihat Melacak agen. |
Untuk mengetahui prinsip dan rekomendasi keunggulan operasional yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keunggulan operasional dalam Framework yang Dirancang dengan Baik.
Pengoptimalan biaya
Bagian ini memberikan panduan untuk mengoptimalkan biaya penyiapan dan pengoperasian topologi Google Cloud yang Anda buat menggunakan arsitektur referensi ini.
| Komponen | Pertimbangan dan rekomendasi desain |
|---|---|
| Vertex AI |
Analisis dan pengelolaan biaya: Untuk menganalisis dan mengelola biaya Vertex AI, sebaiknya Anda membuat metrik dasar untuk kueri per detik (QPS) dan token per detik (TPS). Kemudian, pantau metrik ini setelah deployment. Dasar pengukuran juga membantu perencanaan kapasitas. Misalnya, garis dasar membantu Anda menentukan kapan Throughput yang Disediakan mungkin diperlukan. Pemilihan model: Model yang Anda pilih untuk aplikasi AI secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya mulai dengan model yang paling hemat biaya dan secara bertahap beralih ke opsi yang lebih canggih. Perintah yang hemat biaya: Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "sebutkan 3 poin utama". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Context caching: Untuk mengurangi biaya permintaan yang berisi konten berulang dengan jumlah token input yang tinggi, gunakan context caching. Permintaan batch: Jika relevan, pertimbangkan prediksi batch. Permintaan batch menimbulkan biaya yang lebih rendah daripada permintaan standar. |
| Cloud Run |
Alokasi resource: Saat membuat layanan Cloud Run, Anda dapat menentukan jumlah memori dan CPU yang akan dialokasikan. Mulai dengan alokasi CPU dan memori default. Amati penggunaan dan biaya resource dari waktu ke waktu, dan sesuaikan alokasi sesuai kebutuhan. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut: Pengoptimalan tarif: Jika dapat memprediksi persyaratan CPU dan memori, Anda dapat menghemat uang dengan diskon abonemen (DA). |
| Semua produk dalam arsitektur | Pengoptimalan setelah deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan biaya dengan menggunakan Active Assist. Tinjau rekomendasi dan terapkan rekomendasi tersebut sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist. |
Untuk memperkirakan biaya resource Google Cloud , gunakan Google Cloud Kalkulator Harga.
Untuk prinsip dan rekomendasi pengoptimalan biaya yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan biaya dalam Well-Architected Framework.
Pengoptimalan performa
Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk merancang topologi di Google Cloud yang memenuhi persyaratan performa beban kerja Anda.
| Komponen | Pertimbangan dan rekomendasi desain |
|---|---|
| Agen |
Pemilihan model: Saat memilih model untuk sistem AI agentic Anda, pertimbangkan kemampuan yang diperlukan untuk tugas yang perlu dilakukan oleh agen. Pengoptimalan perintah: Untuk meningkatkan dan mengoptimalkan performa perintah dengan cepat dalam skala besar dan menghilangkan kebutuhan untuk penulisan ulang manual, gunakan Pengoptimal perintah Vertex AI. Pengoptimal membantu Anda menyesuaikan perintah secara efisien di berbagai model. |
| Vertex AI |
Pemilihan model: Model yang Anda pilih untuk aplikasi AI secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya mulai dengan model yang paling hemat biaya dan secara bertahap beralih ke opsi yang lebih canggih. Rekayasa perintah: Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "buat daftar 3 poin penting". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Context caching: Untuk mengurangi latensi permintaan yang berisi konten berulang dengan jumlah token input yang tinggi, gunakan context caching. |
| Cloud Run |
Alokasi resource: Bergantung pada persyaratan performa, konfigurasikan memori dan CPU yang akan dialokasikan ke layanan Cloud Run. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut: Untuk panduan pengoptimalan performa selengkapnya, lihat Tips pengembangan umum Cloud Run. |
| Semua produk dalam arsitektur | Pengoptimalan setelah deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk mengoptimalkan performa lebih lanjut dengan menggunakan Active Assist. Tinjau rekomendasi dan terapkan rekomendasi tersebut sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist. |
Untuk prinsip dan rekomendasi pengoptimalan performa yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan performa dalam Well-Architected Framework.
Deployment
Deployment otomatis untuk arsitektur referensi ini tidak tersedia. Gunakan contoh kode berikut untuk membantu Anda membangun arsitektur agen tunggal:
- Deploy arsitektur serupa dengan men-deploy Software Bug Assistant - ADK Python Sample Agent.
- Pelajari lebih lanjut memori dan status dengan Python Tutor - ADK State and Memory Example.
Untuk contoh kode guna mulai menggunakan ADK bersama dengan server MCP, lihat Alat MCP.
Untuk contoh sistem AI satu agen tambahan, Anda dapat menggunakan contoh kode berikut. Contoh kode ini adalah titik awal yang berfungsi penuh untuk pembelajaran dan eksperimen. Untuk pengoperasian yang optimal di lingkungan produksi, Anda harus menyesuaikan kode berdasarkan persyaratan bisnis dan teknis tertentu.
- Belanja yang dipersonalisasi: Memberikan rekomendasi produk yang dipersonalisasi untuk merek, penjual, atau marketplace online tertentu.
- Pengelolaan insiden: Validasi token dan identitas pengguna akhir per permintaan menggunakan propagasi identitas dinamis.
- Pemrosesan pesanan: Memproses dan menyimpan pesanan serta mengatur konfirmasi email dengan peninjauan manual bersyarat untuk jumlah pesanan tertentu.
- Data engineering: Mengembangkan pipeline Dataform, memecahkan masalah pipeline, dan mengelola data engineering dari kueri SQL yang kompleks hingga transformasi data dan dependensi data.
- Pengambilan dokumentasi: Gunakan RAG untuk membuat kueri dokumen yang Anda upload ke Vertex AI RAG Engine dan dapatkan jawaban dengan kutipan ke dokumentasi dan kode.
Langkah berikutnya
- Jelajahi contoh agen dan alat di Agent Garden.
- Membangun agen menggunakan ADK.
- Deploy agen ke Google Cloud.
- Menghosting server MCP di Cloud Run.
- Menghosting aplikasi dan agen AI di Cloud Run.
- Pelajari cara menerapkan infrastruktur RAG untuk aplikasi AI generatif di Google Cloud.
- Untuk mengetahui ringkasan prinsip dan rekomendasi arsitektur khusus untuk workload AI dan ML di Google Cloud, lihat perspektif AI dan ML dalam Well-Architected Framework.
- Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.
Kontributor
- Kumar Dhanagopal | Cross-Product Solution Developer
- Megan O'Keefe | Developer Advocate
- Shir Meir Lador | Developer Relations Engineering Manager