Integrasi Model Armor dengan layanan Google Cloud

Model Armor terintegrasi dengan berbagai layanan Google Cloud :

  • Google Kubernetes Engine (GKE) dan Ekstensi Layanan
  • Vertex AI
  • Gemini Enterprise
  • Server MCP Google Cloud (Pratinjau)

GKE dan Ekstensi Layanan

Model Armor dapat diintegrasikan dengan GKE melalui Service Extensions. Ekstensi Layanan memungkinkan Anda mengintegrasikan layanan internal (Google Cloud ) atau eksternal (dikelola pengguna) untuk memproses traffic. Anda dapat mengonfigurasi ekstensi layanan di load balancer aplikasi, termasuk gateway inferensi GKE, untuk menyaring traffic ke dan dari cluster GKE. Hal ini memverifikasi bahwa semua interaksi dengan model AI dilindungi oleh Model Armor. Untuk mengetahui informasi selengkapnya, lihat Integrasi dengan GKE.

Vertex AI

Model Armor dapat diintegrasikan langsung ke Vertex AI menggunakan setelan batas bawah atau template. Integrasi ini menyaring permintaan dan respons model Gemini, memblokir permintaan dan respons yang melanggar setelan batas minimum. Integrasi ini memberikan perlindungan perintah dan respons dalam Gemini API di Vertex AI untuk metode generateContent. Anda harus mengaktifkan Cloud Logging untuk mendapatkan visibilitas ke dalam hasil pembersihan perintah dan respons. Untuk mengetahui informasi selengkapnya, lihat Integrasi dengan Vertex AI.

Gemini Enterprise

Model Armor dapat diintegrasikan langsung dengan Gemini Enterprise menggunakan template. Gemini Enterprise merutekan interaksi antara pengguna dan agen serta LLM yang mendasarinya melalui Model Armor. Artinya, perintah dari pengguna atau agen, dan respons yang dihasilkan oleh LLM, diperiksa oleh Model Armor sebelum ditampilkan kepada pengguna. Untuk informasi selengkapnya, lihat Integrasi dengan Gemini Enterprise.

Server MCP Google Cloud

Model Armor dapat dikonfigurasi untuk membantu melindungi data Anda dan mengamankan konten saat mengirim permintaan ke layanan Google Cloud yang mengekspos alat dan server Model Context Protocol (MCP). Model Armor membantu mengamankan aplikasi AI agentic Anda dengan membersihkan panggilan dan respons alat MCP menggunakan setelan batas bawah. Proses ini memitigasi risiko seperti injeksi perintah dan pengungkapan data sensitif. Untuk mengetahui informasi selengkapnya, lihat Integrasi dengan server MCP Google Cloud.

Sebelum memulai

Mengaktifkan API

Anda harus mengaktifkan Model Armor API sebelum dapat menggunakan Model Armor.

Konsol

  1. Aktifkan Model Armor API.

    Peran yang diperlukan untuk mengaktifkan API

    Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

    Mengaktifkan API

  2. Pilih project tempat Anda ingin mengaktifkan Model Armor.

gcloud

Sebelum memulai, ikuti langkah-langkah berikut menggunakan Google Cloud CLI dengan Model Armor API:

  1. Di konsol Google Cloud , aktifkan Cloud Shell.

    Aktifkan Cloud Shell

    Di bagian bawah konsol Google Cloud , sesi Cloud Shell akan dimulai dan menampilkan perintah command line. Cloud Shell adalah lingkungan shell dengan Google Cloud CLI yang sudah terinstal, dan dengan nilai yang sudah ditetapkan untuk project Anda saat ini. Diperlukan waktu beberapa detik untuk melakukan inisialisasi pada sesi.

  2. Jalankan perintah berikut untuk menetapkan endpoint API bagi layanan Model Armor.

    gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"

    Ganti LOCATION dengan region tempat Anda ingin menggunakan Model Armor.

Kelola kuota

Model Armor menggunakan sistem kuota untuk memastikan penggunaan yang adil dan melindungi stabilitas sistem. Kuota default untuk Model Armor API adalah 1.200 QPM per project. Anda dapat menerapkan nilai antara 0 hingga 1.200 QPM per project. Untuk meminta penyesuaian, lihat Meminta penyesuaian kuota. Jika Anda memerlukan kuota yang lebih besar dari kuota default, hubungi Cloud Customer Care.

Kuota Model Armor memerlukan pertimbangan penting saat diintegrasikan dengan layanan lain. Kuota utama yang Anda gunakan adalah jumlah permintaan API per menit per project.

  • Kuota default Model Armor: Saat layanan melakukan panggilan ke Model Armor API untuk analisis (misalnya, memeriksa perintah atau respons), hal ini akan menggunakan kuota Model Armor API project Anda.
  • Kuota layanan yang terintegrasi: Kuota Model Armor terpisah dari kuota yang terkait dengan layanan yang terintegrasi. Anda harus memastikan ada kuota yang cukup untuk semua layanan di jalur permintaan Anda. Setiap panggilan yang dilakukan ke Model Armor API untuk membersihkan konten aplikasi Anda dihitung berdasarkan batas kuota Model Armor API.

Menemukan situasi di luar kuota

Anda mencapai batas kuota Model Armor jika log aplikasi Anda menampilkan error dari Model Armor, biasanya error HTTP 429 RESOURCE_EXHAUSTED, yang menunjukkan terlalu banyak permintaan.

Memperkirakan kebutuhan kuota

Untuk menentukan jumlah kuota Model Armor yang akan diminta:

  • Perkirakan jumlah puncak permintaan per menit yang akan dikirim layanan Anda ke Model Armor.
  • Pertimbangkan berapa kali Model Armor dipanggil per interaksi pengguna dengan layanan Anda (misalnya, sekali untuk perintah dan sekali untuk respons).
  • Perhitungkan jumlah maksimum pengguna atau sesi serentak.
  • Minta kuota dengan buffer yang wajar (misalnya, 20-30% di atas puncak yang diharapkan) untuk menangani lonjakan yang tidak terduga.
  • Mulailah dengan perkiraan terbaik Anda, pantau penggunaan secara cermat setelah peluncuran, dan minta penyesuaian lebih lanjut sesuai kebutuhan.

Misalnya, jika Anda memperkirakan ada 500 pengguna per menit, dan setiap interaksi pengguna memanggil Model Armor dua kali (perintah dan respons), Anda memerlukan setidaknya 1.000 QPM. Dengan mempertimbangkan buffer, meminta 1.200-1.300 QPM adalah titik awal yang baik.

Pastikan Anda memantau dan mengelola kuota untuk layanan lain. Kehabisan kuota untuk layanan lain akan memengaruhi aplikasi Anda, meskipun Anda memiliki kuota Model Armor yang cukup.

Opsi saat mengintegrasikan Model Armor

Model Armor menawarkan opsi integrasi berikut. Setiap opsi menyediakan fitur dan kemampuan yang berbeda.

Opsi integrasi Penegak/pendeteksi kebijakan Mengonfigurasi deteksi Hanya periksa Memeriksa dan memblokir Cakupan model dan cloud
REST API Pendeteksi Hanya menggunakan template Ya Ya Semua model dan semua cloud
Vertex AI Penerapan inline Menggunakan setelan minimum atau template Ya Ya Gemini (non-streaming) di Google Cloud
Google Kubernetes Engine Penerapan inline Hanya menggunakan template Ya Ya Model dengan format OpenAI di Google Cloud1
Gemini Enterprise Penerapan inline Hanya menggunakan template Ya Ya Semua model dan semua cloud
Server MCPGoogle Cloud (Pratinjau) Penerapan inline Hanya menggunakan setelan minimum Ya Ya MCP di Google Cloud

1Beberapa model populer—termasuk Anthropic Claude, Mistral AI, dan Grok—mendukung spesifikasi OpenAI. Model ini biasanya di-deploy menggunakan mesin inferensi seperti vLLM, yang menyediakan lapisan API yang kompatibel dengan OpenAI yang diperlukan. vLLM mendukung berbagai model, termasuk seri Meta Llama, DeepSeek, Mistral dan Mixtral, serta Gemma.

Untuk opsi integrasi REST API, Model Armor hanya berfungsi sebagai detektor menggunakan template. Artinya, alat ini mengidentifikasi dan melaporkan potensi pelanggaran kebijakan berdasarkan template yang telah ditentukan, bukan secara aktif mencegahnya. Saat terintegrasi dengan Model Armor API, aplikasi Anda dapat menggunakan outputnya untuk memblokir atau mengizinkan tindakan berdasarkan hasil evaluasi keamanan yang diberikan. Model Armor API menampilkan informasi tentang potensi ancaman atau pelanggaran kebijakan terkait traffic API Anda, terutama dalam kasus interaksi AI/LLM. Aplikasi Anda dapat memanggil Model Armor API dan menggunakan informasi yang diterima dalam respons untuk membuat keputusan dan mengambil tindakan berdasarkan logika kustom yang telah ditentukan sebelumnya.

Dengan opsi integrasi Vertex AI, Model Armor memberikan penegakan inline menggunakan setelan atau template batas bawah. Artinya, Model Armor secara aktif menerapkan kebijakan dengan melakukan intervensi langsung dalam proses tanpa memerlukan modifikasi pada kode aplikasi Anda.

Integrasi GKE dan Gemini Enterprise hanya menggunakan template untuk penerapan kebijakan inline. Artinya, Model Armor dapat menerapkan kebijakan secara langsung tanpa mengharuskan Anda mengubah kode aplikasi baik dalam gateway inferensi GKE maupun selama interaksi pengguna atau agen dalam instance Gemini Enterprise.

Integrasi Model Armor dan Gemini Enterprise hanya menyaring perintah pengguna awal dan respons akhir agen atau model. Langkah-langkah perantara yang terjadi antara perintah pengguna awal dan pembuatan respons akhir tidak tercakup dalam integrasi ini.

Model Armor di Security Command Center

Model Armor memeriksa perintah dan respons LLM untuk mendeteksi berbagai ancaman, termasuk injeksi perintah, upaya jailbreak, URL berbahaya, dan konten berbahaya. Saat Model Armor mendeteksi pelanggaran terhadap setelan batas bawah yang dikonfigurasi, Model Armor akan memblokir perintah atau respons dan mengirimkan temuan ke Security Command Center. Untuk mengetahui informasi selengkapnya, lihat Temuan Model Armor.