概览

Model Armor 可与 Google Cloud 服务集成,以保护 AI 和大语言模型 (LLM) 互动。Model Armor 可识别和报告潜在的违规行为,并可根据安全评估结果主动阻止操作。

Model Armor 可与各种 Google Cloud 服务集成:

Apigee

通过此集成,您可以在 Apigee API 网关层中直接使用 Model Armor 的 AI 保护功能。您可以在 Apigee API 代理中配置特定的 Model Armor 政策。当 API 调用通过具有这些政策的 Apigee 代理时,Apigee 会将提示和回答发送给 Model Armor 服务以进行检查。如需了解详情, 请参阅与 Apigee 集成

Gemini Enterprise

Model Armor 可通过模板直接与 Gemini Enterprise 集成。Gemini Enterprise 通过 Model Armor 路由用户与智能体之间的互动以及与底层 LLM 的互动。这意味着,Model Armor 会先检查用户或智能体的提示以及 LLM 生成的回答,然后才会将它们呈现给用户。如需了解详情,请参阅 与 Gemini Enterprise 集成

Google 和 Google Cloud MCP 服务器

您可以配置 Model Armor,以便在向 Google Cloud 公开 Model Context Protocol (MCP) 工具和服务器的服务发送请求时,帮助保护您的数据和 安全内容。Model Armor helps 保护您的智能体 AI 应用,方法是使用 下限设置清理 MCP 工具调用和回答 。此过程可降低提示注入和敏感数据披露等风险。如需了解详情,请参阅与 Google 和 Google Cloud MCP 服务器集成

Service Extensions

Model Armor 可通过 Service Extensions 与 Google Cloud 网络服务 集成。借助 Service Extensions,您可以 集成内部(Google Cloud 服务)或外部(用户管理的)服务来 处理流量。您可以在应用负载平衡器上配置 Service Extensions,以筛查各种 AI 互动(例如与智能体和 MCP 服务器的互动)的网络流量。您还可以将 Service Extensions 与 GKE 推理网关搭配使用,以筛查进出 GKE 集群的数据流量。这有助于确保通过负载均衡器的所有 AI 互动都受到 Model Armor 的保护。如需了解更多 信息,请参阅与网络服务集成 Google Cloud

Vertex AI

Model Armor 可以使用下限设置模板直接集成到 Vertex AI 中。此集成会过滤 Gemini 模型请求和回答,并阻止违反下限设置的请求和回答。此集成功能可为 generateContent 方法提供 Vertex AI 中的 Gemini API 中的提示和回答保护。您需要启用 Cloud Logging,才能查看提示和回答的清理结果。如需了解详情,请参阅 与 Vertex AI 集成

准备工作

启用 API

您必须先启用 Model Armor API,然后才能使用 Model Armor。

控制台

  1. 启用 Model Armor API。

    启用 API 所需的角色

    如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予角色

    启用 API

  2. 选择要启用 Model Armor 的项目。

gcloud

在开始之前,请使用 Google Cloud CLI 和 Model Armor API 按照以下步骤操作:

  1. 在 Google Cloud 控制台中,激活 Cloud Shell。

    激活 Cloud Shell

    Cloud Shell 会话随即会在控制台的底部启动,并显示命令行提示符。 Google Cloud Cloud Shell 是一个已安装 Google Cloud CLI 且已为当前项目设置值的 Shell 环境 。该会话可能需要几秒钟来完成初始化。

  2. 使用 gcloud CLI 设置 API 端点替换

使用 gcloud CLI 设置 API 端点替换

仅当您使用 gcloud CLI 启用 Model Armor API 时,才需要执行此步骤。您必须手动设置 API 端点替换,以确保 gcloud CLI 正确地将请求路由到 Model Armor 服务。

运行以下命令,为 Model Armor 服务设置 API 端点。

gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"

LOCATION 替换为您要使用 Model Armor 的区域。

管理配额

Model Armor 使用配额系统 来确保公平使用并保护系统稳定性。Model Armor API 的默认配额为每个项目 1,200 QPM。您可以为每个项目应用 0 到 1,200 QPM 之间的值。如需申请调整,请参阅 申请配额调整。 如果您需要的配额超过默认配额,请与 Cloud Customer Care联系。

在与其他服务集成时,需要考虑 Model Armor 配额。您主要使用的配额是每个项目每分钟的 API 请求数。

  • Model Armor 默认配额 :当服务调用 Model Armor API 进行分析(例如检查提示或回答)时,这会消耗项目的 Model Armor API 配额。
  • 集成服务配额 :Model Armor 配额与任何与集成服务关联的配额分开。您需要确保请求路径中的所有服务都有足够的配额。为应用清理内容而对 Model Armor API 进行的任何调用都会计入 Model Armor API 配额限制

了解超出配额的情况

如果您的应用日志显示来自 Model Armor 的错误(通常是 HTTP 429 RESOURCE_EXHAUSTED 错误,表示请求过多),则表示您已达到 Model Armor 配额限制。

估算配额需求

如需确定要申请多少 Model Armor 配额,请执行以下操作:

  • 估算您的服务每分钟将发送给 Model Armor 的请求峰值。
  • 考虑在用户与您的服务互动时调用 Model Armor 的次数(例如,提示调用一次,回答调用一次)。
  • 考虑并发用户或会话的数量上限。
  • 申请具有合理缓冲的配额(例如,比预期峰值高 20-30%),以处理意外的峰值。
  • 从最佳估算开始,在发布后密切监控使用情况,并根据需要申请进一步调整。

例如,如果您预计每分钟有 500 位用户,并且每次用户互动都会调用 Model Armor 两次(提示和回答),则您至少需要 1,000 QPM。 考虑到缓冲,申请 1,200-1,300 QPM 是一个不错的起点。

注意事项

  • 请务必监控和管理其他服务的配额。即使您有足够的 Model Armor 配额,其他服务的配额用完也会影响您的应用。
  • 在应用设置中实现具有指数退避算法的客户端重试,以处理暂时性配额问题或其他可重试的错误。如需了解详情,请参阅重试策略

使用 REST API 集成

当您使用 REST API 进行集成时,Model Armor 只是作为一个使用模板的检测器来运行。它只会根据预定义的模板识别和报告潜在的违规行为,而不会主动阻止这些行为。在与 Model Armor API 集成后,您的应用可以使用 Model Armor 的输出,根据提供的安全评估结果来阻止或允许操作。Model Armor API 会返回与您的 API 流量相关的潜在威胁或违规行为信息,尤其是在与 AI/大语言模型 互动的情况下。您的应用可以调用 Model Armor API,并使用响应中收到的信息来根据预定义的自定义逻辑做出决策并采取相应措施。

集成 Model Armor 时的选项

Model Armor 提供以下集成选项。每种方案都提供不同的特性和功能。

集成选项 配置检测 仅检查 检查并屏蔽 模型和云覆盖范围
Apigee 仅使用模板 所有模型和所有云2
Gemini Enterprise 仅使用模板 所有模型和所有云2
Google 和 Google Cloud MCP 服务器预览版 仅使用下限设置 Google 和 Google Cloud MCP 服务器
Service Extensions 仅使用模板 所有云2上的 OpenAI 格式模型1、智能体和 MCP 服务器
Vertex AI 使用下限设置模板 Gemini 模型(非流式)

1一些热门模型(包括 Anthropic Claude、Mistral AI 和 Grok)支持 OpenAI 规范。这些模型通常使用 vLLM 等推理引擎进行部署,这些引擎提供必要的 OpenAI 兼容 API 层。vLLM 支持各种模型,包括 Meta Llama 系列、DeepSeek、Mistral 和 Mixtral 系列以及 Gemma。

2包括其他公有云,例如 AWS 和 Azure。

借助 Vertex AI 集成选项,Model Armor 可使用下限设置或模板提供内嵌强制执行。这意味着,Model Armor 会直接介入流程来主动执行政策,而无需修改应用代码。

Service Extensions 和 Gemini Enterprise 集成仅使用模板进行内嵌政策强制执行。这意味着,Model Armor 可以直接强制执行政策,而无需您在 Service Extensions 内以及在 Gemini Enterprise 实例内的用户或智能体互动期间修改应用代码。

Model Armor 与 Gemini Enterprise 的集成只会清理初始的用户提示和最终的智能体或模型回答。初始的用户提示与最终生成的回答之间发生的任何中间步骤都不在此集成涵盖范围内。

Security Command Center 中的 Model Armor

Model Armor 会检查 LLM 提示和回答是否存在各种威胁,包括提示注入、越狱攻击、恶意网址和有害内容。当 Model Armor 检测到违反 配置的下限设置时,它会阻止提示或回答,并将 发现结果发送给 Security Command Center。如需了解详情,请参阅 Model Armor 发现结果