Model Armor 可与 Google Cloud 服务集成,以保护 AI 和大语言模型 (LLM) 互动。Model Armor 可识别和报告潜在的违规行为,并可根据安全评估结果主动阻止操作。
支持的模态
在 Model Armor 与其他 Google Cloud 服务的集成中, Model Armor 仅扫描和分析基于文本的输入和输出 进出 LLM、智能体和 Google Cloud MCP 服务器。其他模态 不会被扫描,但 Gemini Enterprise 集成中的文档除外。如需详细了解 支持的文档类型,请参阅 文档筛查。
支持的服务
本部分介绍了可与 Model Armor 集成的服务。 Google Cloud
Agent Gateway
将 Model Armor 与 Agent Gateway 集成,以对流向和流出网关所管理的所有智能体的流量强制执行安全政策。此集成支持内联检查和屏蔽恶意或不合规的内容。此集成旨在提高工作流安全性并遵守组织安全准则,而无需修改应用代码。此保护适用于入口(到智能体)和出口(从智能体)路径上的受支持协议。如需了解详情,请参阅与 Agent Gateway 集成。
Apigee
借助 Model Armor 和 Apigee 集成,您可以直接在 Apigee API 网关层中使用 Model Armor 的 AI 保护功能。您可以在 Apigee API 代理中配置特定的 Model Armor 政策。当 API 调用通过具有这些政策的 Apigee 代理时,Apigee 会将提示和回答发送给 Model Armor 服务以进行检查。如需了解详情, 请参阅与 Apigee 集成。
Gemini Enterprise
Model Armor 可通过 模板 直接与 Gemini Enterprise 集成。 Gemini Enterprise 通过 Model Armor 路由用户与智能体之间的互动以及与底层 LLM 的互动。这意味着,Model Armor 会先检查用户或智能体的提示以及 LLM 生成的回答,然后才会将它们呈现给用户。如需了解 详情,请参阅与 Gemini Enterprise 集成。
除了支持的模态中列出的模态之外, Model Armor 与 Gemini Enterprise 的集成 还支持文档。 不过,嵌入文档中的图片不会被过滤。
Google 和 Google Cloud MCP 服务器
您可以配置 Model Armor,以便在向 Google Cloud 公开 Model Context Protocol (MCP) 工具和服务器的服务发送请求时,帮助保护您的数据和 安全内容。Model Armor helps 保护您的智能体 AI 应用,方法是使用 下限设置清理 MCP 工具调用和回答 。此过程可降低提示注入和敏感数据披露等风险。如需了解详情,请参阅与 Google 和 Google Cloud MCP 服务器集成。
Service Extensions
Model Armor 可通过 Service Extensions 与 Google Cloud 网络服务 集成。借助 Service Extensions,您可以 集成 Google Cloud 服务或用户管理的服务来 处理流量。您可以在应用负载平衡器上配置服务扩展程序,以过滤各种 AI 互动的网络流量,例如与智能体和 MCP 服务器的互动。您还可以将服务扩展程序与 GKE 推理网关搭配使用,以过滤进出 GKE 集群的流量。这样做有助于确保通过负载均衡器的所有 AI 互动都受到 Model Armor 的保护。如需了解更多 信息,请参阅与网络服务 Google Cloud 集成。
Gemini Enterprise Agent Platform
Model Armor 可以使用
下限设置或
模板直接集成到 Gemini Enterprise Agent Platform 中。
此集成会过滤 Gemini 模型请求和回答,并阻止违反下限设置的请求和回答。此集成功能可为 generateContent 方法提供 Vertex AI 中的 Gemini API 中的提示和回答保护。您需要启用 Cloud Logging,才能查看提示和回答的清理结果。如需了解详情,请参阅
与 Gemini Enterprise Agent Platform 集成。
准备工作
启用 API
您必须先启用 Model Armor API,然后才能使用 Model Armor。
控制台
gcloud
在开始之前,请使用 Google Cloud CLI 和 Model Armor API 按照以下步骤操作:
在 Google Cloud 控制台中,激活 Cloud Shell。
Cloud Shell 会话随即会在控制台的底部启动,并显示命令行提示符。 Google Cloud Cloud Shell 是一个已安装 Google Cloud CLI 且已为当前项目设置值的 Shell 环境 。该会话可能需要几秒钟来完成初始化。
使用 gcloud CLI 设置 API 端点替换
仅当您使用 gcloud CLI 启用 Model Armor API 时,才需要执行此步骤。您必须手动设置 API 端点替换,以确保 gcloud CLI 正确地将请求路由到 Model Armor 服务。
运行以下命令,为 Model Armor 服务设置 API 端点。
gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"
将 LOCATION 替换为您要使用 Model Armor 的区域。
管理配额
Model Armor 使用配额系统 来确保公平使用并保护系统稳定性。Model Armor API 的默认配额为每个项目 1,200 QPM。您可以为每个项目应用 0 到 1,200 QPM 之间的值。如需申请调整,请参阅 申请配额调整。 如果您需要的配额超过默认配额,请与 Cloud Customer Care联系。
在与其他服务集成时,Model Armor 配额需要考虑一些重要事项。您主要使用的配额是每个项目每分钟的 API 请求数。
将 Model Armor 与其他服务集成时,请考虑以下配额类型。
- Model Armor 默认配额 :当服务调用 Model Armor API 进行分析(例如检查提示或回答)时,这会消耗项目的 Model Armor API 配额。
- 集成服务配额 :Model Armor 配额与任何与集成服务关联的配额分开。您需要确保请求路径中的所有服务都有足够的配额。对 Model Armor API 进行的任何调用 (用于清理您的 应用的内容)都会计入 Model Armor API 配额限制。
发现超出配额的情况
如果您的应用日志显示来自 Model Armor 的错误(通常是 HTTP 429 RESOURCE_EXHAUSTED 错误,表示请求过多),则表示您已达到 Model Armor 配额限制。
估算配额需求
如需确定要申请多少 Model Armor 配额,请执行以下操作:
- 估算您的服务每分钟将发送给 Model Armor 的请求峰值。
- 考虑用户与您的服务互动时调用 Model Armor 的次数(例如,提示一次,回答一次)。
- 考虑并发用户或会话的数量上限。
- 申请具有合理缓冲的配额(例如,比预期峰值高 20-30%),以处理意外的峰值。
- 从最佳估算值开始,在发布后密切监控使用情况,并根据需要申请进一步调整。
例如,如果您预计每分钟有 500 位用户,并且每次用户互动都会调用 Model Armor 两次(提示和回答),则您至少需要 1,000 QPM。 考虑到缓冲,申请 1,200-1,300 QPM 是一个不错的起点。
注意事项
与其他服务集成时,请考虑以下事项:
- 确保监控和管理其他服务的配额。即使您有足够的 Model Armor 配额,其他服务的配额用完也会影响您的应用。
- 在应用设置中实现具有指数退避算法的客户端重试,以处理暂时性配额问题或其他可重试的错误。如需了解详情,请参阅重试策略。
违规处置类型
将 Model Armor 与其他服务集成时,需要配置的一个关键方面是强制执行类型。此设置决定了 Model Armor 在检测到其检查的数据(例如 LLM 提示或回答)中存在潜在违规行为时如何采取行动。强制执行类型决定了 Model Armor 是仅报告违规行为还是主动介入。如需了解详情,请参阅定义强制执行类型。
使用 REST API 进行集成
当您使用 REST API 进行集成时,Model Armor 仅使用模板作为检测器。它只会根据预定义的模板识别和报告潜在的违规行为,而不会主动阻止这些行为。 在与 Model Armor API 集成后,您的应用可以使用 Model Armor 的输出,根据提供的安全评估结果来阻止或允许操作。Model Armor API 会返回与您的 API 流量相关的潜在威胁或违规行为信息,尤其是在 AI 互动的情况下。您的应用可以调用 Model Armor API,并使用响应中收到的信息来根据预定义的自定义逻辑做出决策并采取相应措施。
集成 Model Armor 时的选项
Model Armor 提供以下集成选项。每种方案都提供不同的特性和功能。
| 集成选项 | 配置检测 | 仅检查 | 检查并屏蔽 | 覆盖率 |
|---|---|---|---|---|
| Agent Gateway(预览版) | 仅使用模板 | 是 | 是 | 所有模型和所有云 |
| Apigee | 仅使用模板 | 是 | 是 | 所有模型和所有云2 |
| Gemini Enterprise | 仅使用模板 | 是 | 是 | 所有模型和所有云2 |
| Google 和 Google Cloud MCP 服务器 | 仅使用下限设置 | 是 | 是 | Google 和 Google Cloud MCP 服务器 |
| Service Extensions | 仅使用模板 | 是 | 是 | 所有云2上的 OpenAI 格式模型1、智能体和 MCP 服务器 |
| Gemini Enterprise Agent Platform | 同时使用下限设置和模板 | 是 | 是 | Gemini 模型(非流式) |
1一些热门模型(包括 Anthropic Claude、Mistral AI 和 Grok)支持 OpenAI 规范。这些模型通常使用推理引擎(如 vLLM)进行部署,这些引擎提供必要的 OpenAI 兼容 API 层。vLLM 支持各种模型,包括 Meta Llama 系列、DeepSeek、Mistral 和 Mixtral 系列以及 Gemma。
2包括其他公有云,例如 AWS 和 Azure。
借助 Gemini Enterprise Agent Platform 集成选项,Model Armor 可使用下限设置或模板提供内嵌强制执行。这意味着,Model Armor 会直接介入流程来主动执行政策,而无需修改应用代码。
Service Extensions 和 Gemini Enterprise 集成仅使用模板进行内嵌政策强制执行。这意味着,Model Armor 可以直接强制执行政策,而无需在 Service Extensions 内以及在 Gemini Enterprise 实例内的用户或智能体互动期间修改应用代码。
Model Armor 与 Gemini Enterprise 的集成只会清理初始的用户提示和最终的智能体或模型回答。初始的用户提示与最终生成的回答之间发生的任何中间步骤都不在此集成涵盖范围内。
Security Command Center 中的 Model Armor
Model Armor 会检查 LLM 提示和回答是否存在各种威胁,包括提示注入、越狱攻击、恶意网址和有害内容。当 Model Armor 检测到违反 配置的下限设置时,它会阻止提示或回答,并将 发现结果发送给 Security Command Center。如需了解详情,请参阅 Model Armor 发现结果。