Descripción general

Model Armor se integra con Google Cloud los servicios para proteger las interacciones de IA y modelos de lenguaje grandes (LLM). Model Armor identifica y notifica posibles incumplimientos de políticas, y puede bloquear acciones de forma activa en función de las evaluaciones de seguridad.

Model Armor se integra con varios Google Cloud servicios:

Apigee

La integración te permite usar las capacidades de protección de IA de Model Armor directamente dentro de la capa de puerta de enlace de la API de Apigee. Configuras políticas específicas de Model Armor dentro de tus proxies de API de Apigee. Cuando una llamada a la API pasa por un proxy de Apigee que tiene estas políticas, Apigee envía las instrucciones y las respuestas al servicio de Model Armor para su inspección. Para obtener más información, consulta Integración con Apigee.

Gemini Enterprise

Model Armor se puede integrar directamente con Gemini Enterprise mediante plantillas. Gemini Enterprise enruta las interacciones entre los usuarios y los agentes, y los LLM subyacentes a través de Model Armor. Esto significa que Model Armor inspecciona las instrucciones de los usuarios o agentes, y las respuestas generadas por los LLM antes de presentarlas al usuario. Para obtener más información, consulta Integración con Gemini Enterprise.

Servidores de Google y Google Cloud MCP

Model Armor se puede configurar para proteger tus datos y el contenido seguro cuando envías solicitudes a los Google Cloud servicios que exponen herramientas y servidores del Protocolo de contexto del modelo (MCP). Model Armor ayuda a proteger tus aplicaciones de IA de agentes mediante la limpieza de las llamadas y respuestas de las herramientas de MCP con la configuración de límites. Este proceso mitiga riesgos como la inyección de instrucciones y la divulgación de datos sensibles. Para obtener más información, consulta Integración con servidores de Google y{/}MCP. Google Cloud

Extensiones del servicio

Model Armor se puede integrar con Google Cloud los servicios de redes a través de las Extensiones del servicio. Las Extensiones del servicio te permiten integrar servicios internos (Google Cloud servicios) o externos (administrados por el usuario) para procesar el tráfico. Puedes configurar una extensión de servicio en los balanceadores de cargas de aplicaciones para filtrar el tráfico de red en busca de varias interacciones de IA, como con agentes y servidores de MCP. También puedes usar extensiones de servicio con puertas de enlace de inferencia de GKE para filtrar el tráfico que fluye desde y hacia un clúster de GKE. Esto ayuda a garantizar que Model Armor proteja todas las interacciones de IA que pasan por el balanceador de cargas. Para obtener más información, consulta Integración con Google Cloud servicios de redes.

Vertex AI

Model Armor se puede integrar directamente en Vertex AI con la configuración de límites o las plantillas. Esta integración filtra las solicitudes y respuestas del modelo de Gemini, y bloquea las que incumplen la configuración de límites. Esta integración proporciona protección de instrucciones y respuestas dentro de la API de Gemini en Vertex AI para el método generateContent. Debes habilitar Cloud Logging para obtener visibilidad de los resultados de limpieza de las instrucciones y respuestas. Para obtener más información, consulta Integración con Vertex AI.

Antes de comenzar

Habilita las APIs

Para poder usar Model Armor, debes habilitar la API de Model Armor.

Console

  1. Habilitar la API de Model Armor

    Roles necesarios para habilitar las APIs

    Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.

    Habilitar la API

  2. Elige el proyecto en el que quieres activar Model Armor.

gcloud

Antes de empezar, sigue estos pasos a través de la Google Cloud CLI con la API de Model Armor:

  1. En la Google Cloud consola de, activa Cloud Shell.

    Activa Cloud Shell

    En la parte inferior de la Google Cloud consola de, se inicia una sesión de Cloud Shell en la que se muestra una ventana de línea de comandos. Cloud Shell es un entorno de shell con Google Cloud CLI ya instalada y con valores ya establecidos para el proyecto actual. La sesión puede tardar unos segundos en inicializarse.

  2. Configura la anulación del extremo de API con gcloud CLI.

Configura la anulación del extremo de API con gcloud CLI

Este paso solo es necesario si usas gcloud CLI para habilitar la API de Model Armor. Debes configurar manualmente la anulación del extremo de API para asegurarte de que gcloud CLI enrute correctamente las solicitudes al servicio de Model Armor.

Ejecuta el comando siguiente para configurar el extremo de API del servicio de Model Armor.

gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"

Reemplaza LOCATION por la región en la que quieres usar Model Armor.

Administrar cuota

Model Armor usa un sistema de cuotas para garantizar un uso justo y proteger la estabilidad del sistema. La cuota predeterminada para la API de Model Armor es de 1,200 QPM por proyecto. Puedes aplicar un valor entre 0 y 1,200 QPM por proyecto. Para solicitar un ajuste, consulta Solicita un ajuste de cuota. Si necesitas más que la cuota predeterminada, comunícate con Atención al cliente de Cloud.

La cuota de Model Armor requiere consideraciones importantes cuando se integra con otros servicios. La cuota principal con la que interactúas es la cantidad de solicitudes a la API por minuto y por proyecto.

  • Cuota predeterminada de Model Armor: Cuando un servicio realiza una llamada a la API de Model Armor para el análisis (por ejemplo, para verificar instrucciones o respuestas), se consume la cuota de la API de Model Armor de tu proyecto.
  • Cuota de servicios de integración: La cuota de Model Armor está separada de las cuotas asociadas con los servicios de integración. Debes asegurarte de que haya cuota suficiente para todos los servicios en tu ruta de solicitud. Cualquier llamada que se realice a la API de Model Armor para limpiar el contenido de tu aplicación cuenta para los límites de cuota de la API de Model Armor.

Descubre situaciones fuera de la cuota

Alcanzas los límites de cuota de Model Armor si los registros de tu aplicación muestran errores de Model Armor, por lo general, errores HTTP 429 RESOURCE_EXHAUSTED, que indican demasiadas solicitudes.

Estima las necesidades de cuota

Para determinar cuánta cuota de Model Armor solicitar, haz lo siguiente:

  • Estima la cantidad máxima de solicitudes por minuto que tus servicios enviarán a Model Armor.
  • Considera cuántas veces se llama a Model Armor por interacción del usuario con tu servicio (por ejemplo, una vez para la instrucción y otra para la respuesta).
  • Ten en cuenta la cantidad máxima de usuarios o sesiones simultáneas.
  • Solicita una cuota con un búfer razonable (por ejemplo, un 20 o 30% por encima de tu máximo esperado) para controlar los aumentos inesperados.
  • Comienza con tu mejor estimación, supervisa el uso de cerca después del lanzamiento y solicita más ajustes según sea necesario.

Por ejemplo, si esperas 500 usuarios por minuto y cada interacción del usuario llama a Model Armor dos veces (instrucción y respuesta), necesitas al menos 1,000 QPM. Si tienes en cuenta un búfer, solicitar entre 1,200 y 1,300 QPM es un buen punto de partida.

Consideraciones

  • Asegúrate de supervisar y administrar las cuotas de otros servicios. Si te quedas sin cuota para otros servicios, se verá afectada tu aplicación, incluso si tienes cuota suficiente de Model Armor.
  • Implementa reintentos del cliente con retirada exponencial en la configuración de tu aplicación para controlar problemas de cuota transitorios o cualquier otro error que se pueda reintentar. Para obtener más información, consulta Estrategia de reintento.

Integración con la API de REST

Cuando usas la API de REST para la integración, Model Armor funciona solo como un detector que usa plantillas. Identifica y notifica posibles incumplimientos de políticas en función de plantillas predefinidas en lugar de prevenirlos de forma activa. Cuando se integra con la API de Model Armor, tu aplicación puede usar el resultado de Model Armor para bloquear o permitir acciones en función de los resultados de la evaluación de seguridad proporcionados. La API de Model Armor muestra información sobre posibles amenazas o incumplimientos de políticas relacionados con el tráfico de tu API, en especial en el caso de las interacciones de IA/LLM. Tu aplicación puede llamar a la API de Model Armor y usar la información recibida en la respuesta para tomar una decisión y realizar acciones en función de tu lógica personalizada predefinida.

Opciones cuando se integra Model Armor

Model Armor ofrece las siguientes opciones de integración. Cada opción proporciona diferentes funciones y capacidades.

Opción de integración Configura las detecciones Solo inspección Inspeccionar y bloquear Cobertura de modelos y nubes
Apigee Solo con plantillas Todos los modelos y todas las nubes2
Gemini Enterprise Solo con plantillas Todos los modelos y todas las nubes2
Servidores de Google y Google Cloud MCP (vista previa) Solo con la configuración de límites Servidores de Google y Google Cloud MCP
Extensiones del servicio Solo con plantillas Modelos de formato OpenAI1, agentes y servidores de MCP en todas las nubes2
Vertex AI Con la configuración de límites o las plantillas Modelos de Gemini (sin transmisión)

1Varios modelos populares, incluidos Claude de Anthropic, Mistral AI y Grok, admiten especificaciones de OpenAI. Por lo general, estos modelos se implementan con motores de inferencia como vLLM, que proporcionan la capa de API compatible con OpenAI necesaria. vLLM admite una amplia variedad de modelos, incluidas las series Meta Llama, DeepSeek, las familias Mistral y Mixtral, y Gemma.

2Incluye otras nubes públicas como AWS y Azure.

Con la opción de integración de Vertex AI, Model Armor proporciona aplicación intercalada con la configuración de límites o las plantillas. Esto significa que Model Armor aplica políticas de forma activa mediante la intervención directa en el proceso sin necesidad de modificar el código de la aplicación.

Las integraciones de Extensiones del servicio y Gemini Enterprise solo usan plantillas para la aplicación intercalada de políticas. Esto significa que Model Armor puede aplicar políticas directamente sin necesidad de que modifiques el código de la aplicación dentro de las Extensiones del servicio y durante las interacciones del usuario o del agente dentro de las instancias de Gemini Enterprise.

La integración de Model Armor y Gemini Enterprise solo limpia la instrucción inicial del usuario y la respuesta final del agente o del modelo. Esta integración no cubre ningún paso intermedio que ocurra entre la instrucción inicial del usuario y la generación de la respuesta final.

Model Armor en Security Command Center

Model Armor inspecciona las instrucciones y respuestas de LLM en busca de varias amenazas, incluidas la inyección de instrucciones, los intentos de jailbreak, las URLs maliciosas y el contenido dañino. Cuando Model Armor detecta un incumplimiento de un parámetro de configuración de límites configurado, bloquea la instrucción o la respuesta y envía un resultado a Security Command Center. Para obtener más información, consulta Hallazgos de Model Armor.