Model Armor 可與各種 Google Cloud 服務整合:
- Google Kubernetes Engine (GKE) 和服務擴充功能
- Vertex AI
- Gemini Enterprise
- Google Cloud MCP 伺服器 (預先發布版)
GKE 和 Service Extensions
您可以透過 Service Extensions 將 Model Armor 與 GKE 整合。Service Extensions 可讓您整合內部 (Google Cloud 服務) 或外部 (使用者管理) 服務,以處理流量。您可以在應用程式負載平衡器 (包括 GKE 推論閘道) 上設定服務擴充功能,篩選進出 GKE 叢集的流量。這項設定可確保所有與 AI 模型的互動都受到 Model Armor 保護。詳情請參閱「與 GKE 整合」。
Vertex AI
您可以透過底限設定或範本,將 Model Armor 直接整合至 Vertex AI。這項整合功能會篩選 Gemini 模型的要求和回覆,並封鎖違反底限設定的內容。這項整合功能會在 Vertex AI 的 Gemini API 中,為 generateContent 方法提供提示和回覆保護機制。您必須啟用 Cloud Logging,才能查看提示和回覆的清除結果。詳情請參閱「與 Vertex AI 整合」。
Gemini Enterprise
您可以使用範本,直接將 Model Armor 與 Gemini Enterprise 整合。Gemini Enterprise 會透過 Model Armor,將使用者與代理程式和基礎 LLM 之間的互動路徑導向。也就是說,在向使用者顯示提示或回覆之前,Model Armor 會先檢查使用者或代理程式的提示,以及 LLM 生成的回覆。詳情請參閱「與 Gemini Enterprise 整合」。
Google Cloud MCP 伺服器
您可以設定 Model Armor,在傳送要求至公開 Model Context Protocol (MCP) 工具和伺服器的 Google Cloud 服務時,保護資料和確保內容安全。Model Armor 會使用底限設定,清除 MCP 工具呼叫和回應,協助保護代理式 AI 應用程式。這個程序可降低提示注入和私密/機密資料外洩等風險。詳情請參閱「與 Google Cloud MCP 伺服器整合」。
事前準備
啟用 API
您必須先啟用 Model Armor API,才能使用 Model Armor。
控制台
gcloud
開始前,請使用 Google Cloud CLI 搭配 Model Armor API 執行下列步驟:
在 Google Cloud 控制台中啟用 Cloud Shell。
Google Cloud 主控台底部會開啟一個 Cloud Shell 工作階段,並顯示指令列提示。Cloud Shell 是已安裝 Google Cloud CLI 的殼層環境,並已針對您目前的專案設定好相關值。工作階段可能要幾秒鐘的時間才能初始化。
-
執行下列指令,為 Model Armor 服務設定 API 端點。
gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"
將
LOCATION替換為要使用 Model Armor 的區域。
管理配額
Model Armor 採用配額制度,確保公平使用並維護系統穩定性。Model Armor API 的預設配額為每個專案每分鐘 1,200 次查詢。您可以為每個專案套用介於 0 到 1,200 QPM 的值。如要申請調整配額,請參閱「要求調整配額」。如果預設配額不敷使用,請與 Cloud Customer Care 聯絡。
整合其他服務時,請務必考量 Model Armor 配額。您主要會與每項專案每分鐘的 API 要求數配額互動。
- Model Armor 預設配額:當服務呼叫 Model Armor API 進行分析 (例如檢查提示或回覆) 時,會耗用專案的 Model Armor API 配額。
- 整合服務配額:Model Armor 配額與整合服務相關聯的任何配額不同。請確認要求路徑中的所有服務都有足夠配額。對 Model Armor API 進行的任何呼叫,都會計入Model Armor API 配額限制。
瞭解超出配額的情況
如果應用程式記錄顯示 Model Armor 發生錯誤 (通常是 HTTP 429 RESOURCE_EXHAUSTED 錯誤,表示要求過多),就表示您已達到 Model Armor 配額限制。
預估配額需求
如要判斷要申請多少 Model Armor 配額,請按照下列步驟操作:
- 預估服務每分鐘傳送至 Model Armor 的要求數量上限。
- 請考量使用者與服務互動時,Model Armor 的呼叫次數 (例如提示詞呼叫一次,回覆呼叫一次)。
- 考量並行使用者或工作階段數上限。
- 要求配額時,請預留合理的緩衝區 (例如高於預期尖峰用量 20% 至 30%),以因應突如其來的用量暴增。
- 請先盡量準確估算,上線後密切監控用量,並視需要要求進一步調整。
舉例來說,如果您預期每分鐘會有 500 位使用者,且每次使用者互動都會呼叫 Model Armor 兩次 (提示和回覆),則至少需要 1,000 QPM。考量緩衝區後,建議先要求每分鐘 1,200 到 1,300 次查詢。
注意事項
- 請務必監控及管理其他服務的配額。即使您有足夠的 Model Armor 配額,其他服務的配額用盡仍會影響應用程式。
- 在應用程式設定中,導入具指數輪詢機制的用戶端重試功能,以處理暫時的配額問題或其他可重試的錯誤。詳情請參閱「重試策略」。
整合 Model Armor 時的選項
Model Armor 提供下列整合選項。每種選項提供的功能和能力都不相同。
| 整合選項 | 政策強制執行者/偵測器 | 設定偵測作業 | 僅限檢查 | 檢查並封鎖 | 模型和雲端涵蓋範圍 |
|---|---|---|---|---|---|
| REST API | 偵測工具 | 僅使用範本 | 是 | 是 | 所有模型和所有雲端 |
| Vertex AI | 內嵌強制執行 | 使用底限設定或範本 | 是 | 是 | 在 Google Cloud上使用 Gemini (非串流) |
| Google Kubernetes Engine | 內嵌強制執行 | 僅使用範本 | 是 | 是 | 已啟用 OpenAI 格式的模型 Google Cloud1 |
| Gemini Enterprise | 內嵌強制執行 | 僅使用範本 | 是 | 是 | 所有模型和所有雲端 |
| Google Cloud MCP 伺服器 (預先發布版) | 內嵌強制執行 | 僅使用底限設定 | 是 | 是 | MCP on Google Cloud |
1許多熱門模型 (包括 Anthropic Claude、Mistral AI 和 Grok) 都支援 OpenAI 規格。這些模型通常會使用 vLLM 等推論引擎部署,這類引擎提供必要的 OpenAI 相容 API 層。vLLM 支援各種模型,包括 Meta Llama 系列、DeepSeek、Mistral 和 Mixtral 系列,以及 Gemma。
如果是 REST API 整合選項,Model Armor 只能使用範本做為偵測器。也就是說,這項功能會根據預先定義的範本,找出並回報潛在的違規行為,但不會主動防範。與 Model Armor API 整合後,應用程式就能根據安全評估結果,使用其輸出內容封鎖或允許動作。Model Armor API 會傳回與 API 流量相關的潛在威脅或違反政策情形資訊,特別是 AI/LLM 互動。應用程式可以呼叫 Model Armor API,並使用回應中收到的資訊,根據預先定義的自訂邏輯做出決策並採取行動。
透過 Vertex AI 整合選項,Model Armor 可使用底線設定或範本提供內嵌強制執行功能。也就是說,Model Armor 會直接介入程序,主動強制執行政策,不需修改應用程式程式碼。
GKE 和 Gemini Enterprise 整合功能只會使用範本,強制執行內嵌政策。也就是說,Model Armor 可以直接強制執行政策,您不需要在 GKE 推論閘道內,以及在 Gemini Enterprise 執行個體內的使用者或代理程式互動期間,修改應用程式程式碼。
整合 Model Armor 和 Gemini Enterprise 後,系統只會清理初始使用者提示,以及最終的代理程式或模型回覆。從使用者最初的提示到最終生成的回覆之間,任何中間步驟都不會納入這項整合功能。
Security Command Center 中的 Model Armor
Model Armor 會檢查 LLM 提示詞和回覆,找出各種威脅,包括提示詞注入、越獄活動、惡意網址和有害內容。如果 Model Armor 偵測到違反設定底限的情況,就會封鎖提示或回覆,並將發現項目傳送至 Security Command Center。詳情請參閱「Model Armor 發現項目」。