Model Armor se integra en varios Google Cloud servicios:
- Google Kubernetes Engine (GKE) y Service Extensions
- Vertex AI
- Gemini Enterprise
- Servidores de MCP de Google Cloud (vista previa)
GKE y Service Extensions
Model Armor se puede integrar en GKE a través de Service Extensions. Service Extensions te permite integrar servicios internos (Google Cloud servicios) o externos (administrados por el usuario) para procesar el tráfico. Puedes configurar una extensión de servicio en los balanceadores de cargas de aplicaciones, incluidas las puertas de enlace de inferencia de GKE, para filtrar el tráfico que fluye desde y hacia un clúster de GKE. Esto verifica que Model Armor proteja todas las interacciones con los modelos de IA. Para obtener más información, consulta Integración con GKE.
Vertex AI
Model Armor se puede integrar directamente en Vertex AI con la configuración de
límites o las
plantillas.
Esta integración examina las solicitudes y respuestas del modelo de Gemini, y bloquea las que infringen la configuración de límites. Esta integración proporciona protección de instrucciones y respuestas dentro de la API de Gemini en Vertex AI para el método generateContent. Debes habilitar Cloud Logging para obtener visibilidad de los resultados de limpieza de instrucciones y respuestas. Para obtener más información, consulta
Integración con Vertex AI.
Gemini Enterprise
Model Armor se puede integrar directamente en Gemini Enterprise con plantillas. Gemini Enterprise enruta las interacciones entre los usuarios y los agentes, y los LLM subyacentes a través de Model Armor. Esto significa que Model Armor inspecciona las instrucciones de los usuarios o agentes, y las respuestas generadas por los LLM antes de que se presenten al usuario. Para obtener más información, consulta Integración con Gemini Enterprise.
Servidores de MCP de Google Cloud
Model Armor se puede configurar para ayudar a proteger tus datos y el contenido seguro cuando envías solicitudes a Google Cloud servicios que exponen herramientas y servidores del Protocolo de contexto del modelo (MCP). Model Armor ayuda a proteger tus aplicaciones de IA de agentes mediante la limpieza de las llamadas y respuestas de herramientas de MCP con la configuración de límites. Este proceso mitiga riesgos como la inyección de instrucciones y la divulgación de datos sensibles. Para obtener más información, consulta Integración con servidores de MCP de Google Cloud.
Antes de comenzar
Habilita las APIs
Para poder usar las APIs de Model Armor, debes habilitarlas.
Console
Habilitar la API de Model Armor
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (
roles/serviceusage.serviceUsageAdmin), que contiene el permisoserviceusage.services.enable. Obtén más información para otorgar roles.Elige el proyecto en el que quieres activar Model Armor.
gcloud
Antes de empezar, sigue estos pasos a través de la Google Cloud CLI con la API de Model Armor:
En la Google Cloud consola de, activa Cloud Shell.
En la parte inferior de la Google Cloud consola de, se inicia una sesión de Cloud Shell en la que se muestra una ventana de línea de comandos. Cloud Shell es un entorno de shell con Google Cloud CLI ya instalada y con valores ya establecidos para el proyecto actual. La sesión puede tardar unos segundos en inicializarse.
-
Ejecuta el comando siguiente para configurar el extremo de API del servicio de Model Armor.
gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"
Reemplaza
LOCATIONpor la región en la que quieres usar Model Armor.
Administrar cuota
Model Armor usa un sistema de cuotas para garantizar un uso justo y proteger la estabilidad del sistema. La cuota predeterminada para la API de Model Armor es de 1,200 QPM por proyecto. Puedes aplicar un valor entre 0 y 1,200 QPM por proyecto. Para solicitar un ajuste, consulta Solicita un ajuste de cuota. Si necesitas más que la cuota predeterminada, comunícate con Atención al cliente de Cloud.
La cuota de Model Armor requiere consideraciones importantes cuando se integra con otros servicios. La cuota principal con la que interactúas es la cantidad de solicitudes de API por minuto y por proyecto.
- Cuota predeterminada de Model Armor: Cuando un servicio realiza una llamada a la API de Model Armor para el análisis (por ejemplo, para verificar instrucciones o respuestas), se consume la cuota de la API de Model Armor de tu proyecto.
- Cuota de servicios de integración: La cuota de Model Armor está separada de las cuotas asociadas con los servicios de integración. Debes asegurarte de que haya suficiente cuota para todos los servicios en tu ruta de acceso de solicitud. Cualquier llamada que se realice a la API de Model Armor para limpiar contenido para tu aplicación cuenta para los límites de cuota de la API de Model Armor.
Descubre situaciones fuera de la cuota
Alcanzas los límites de cuota de Model Armor si los registros de tu aplicación muestran errores de Model Armor, por lo general, errores HTTP 429 RESOURCE_EXHAUSTED, lo que indica que hay demasiadas solicitudes.
Estima las necesidades de cuota
Para determinar cuánta cuota de Model Armor solicitar, haz lo siguiente:
- Estima la cantidad máxima de solicitudes por minuto que tus servicios enviarán a Model Armor.
- Considera cuántas veces se llama a Model Armor por interacción del usuario con tu servicio (por ejemplo, una vez para la instrucción y otra para la respuesta).
- Ten en cuenta la cantidad máxima de usuarios o sesiones simultáneas.
- Solicita una cuota con un búfer razonable (por ejemplo, un 20 o 30% por encima de tu máximo esperado) para controlar los aumentos inesperados.
- Comienza con tu mejor estimación, supervisa el uso de cerca después del lanzamiento y solicita más ajustes según sea necesario.
Por ejemplo, si esperas 500 usuarios por minuto y cada interacción del usuario llama a Model Armor dos veces (instrucción y respuesta), necesitas al menos 1,000 QPM. Si tienes en cuenta un búfer, solicitar entre 1,200 y 1,300 QPM es un buen punto de partida.
Asegúrate de supervisar y administrar las cuotas de otros servicios. Quedarte sin cuota para otros servicios afecta tu aplicación, incluso si tienes suficiente cuota de Model Armor.
Opciones cuando se integra Model Armor
Model Armor ofrece las siguientes opciones de integración. Cada opción proporciona diferentes funciones y capacidades.
| Opción de integración | Aplicador o detector de políticas | Configurar detecciones | Solo inspeccionar | Inspeccionar y bloquear | Cobertura de modelos y nubes |
|---|---|---|---|---|---|
| API de REST | Detector | Solo con plantillas | Sí | Sí | Todos los modelos y todas las nubes |
| Vertex AI | Aplicación intercalada | Con la configuración de límites o las plantillas | Sí | Sí | Gemini (sin transmisión) en Google Cloud |
| Google Kubernetes Engine | Aplicación intercalada | Solo con plantillas | Sí | Sí | Modelos con formato OpenAI en Google Cloud1 |
| Gemini Enterprise | Aplicación intercalada | Solo con plantillas | Sí | Sí | Todos los modelos y todas las nubes |
| Google Cloud Servidores de MCP (vista previa) | Aplicación intercalada | Solo con la configuración de límites | Sí | Sí | MCP en Google Cloud |
1Varios modelos populares, incluidos Anthropic Claude, Mistral AI y Grok, admiten especificaciones de OpenAI. Por lo general, estos modelos se implementan con motores de inferencia como vLLM, que proporcionan la capa de API compatible con OpenAI necesaria. vLLM admite una amplia gama de modelos, incluidas las series Meta Llama, DeepSeek, las familias Mistral y Mixtral, y Gemma.
Para la opción de integración de la API de REST, Model Armor funciona solo como un detector que usa plantillas. Esto significa que identifica y notifica posibles incumplimientos de políticas en función de plantillas predefinidas en lugar de prevenirlos de forma activa. Cuando se integra con la API de Model Armor, tu aplicación puede usar su resultado para bloquear o permitir acciones según los resultados de la evaluación de seguridad proporcionados. La API de Model Armor muestra información sobre posibles amenazas o incumplimientos de políticas relacionados con el tráfico de tu API, en especial en el caso de las interacciones de IA o LLM. Tu aplicación puede llamar a la API de Model Armor y usar la información recibida en la respuesta para tomar una decisión y realizar acciones en función de tu lógica personalizada predefinida.
Con la opción de integración de Vertex AI, Model Armor proporciona la aplicación intercalada con la configuración de límites o las plantillas. Esto significa que Model Armor aplica políticas de forma activa mediante la intervención directa en el proceso sin necesidad de modificar el código de tu aplicación.
Las integraciones de GKE y Gemini Enterprise solo usan plantillas para la aplicación intercalada de políticas. Esto significa que Model Armor puede aplicar políticas directamente sin necesidad de que modifiques el código de la aplicación dentro de la puerta de enlace de inferencia de GKE y durante las interacciones del usuario o del agente dentro de las instancias de Gemini Enterprise.
La integración de Model Armor y Gemini Enterprise solo limpia la instrucción inicial del usuario y la respuesta final del agente o del modelo. Esta integración no cubre los pasos intermedios que ocurren entre la instrucción inicial del usuario y la generación de la respuesta final.
Model Armor en Security Command Center
Model Armor inspecciona las instrucciones y respuestas de LLM en busca de varias amenazas, incluidas la inyección de instrucciones, los intentos de jailbreak, las URLs maliciosas y el contenido dañino. Cuando Model Armor detecta un incumplimiento de un parámetro de configuración de límites configurado, bloquea la instrucción o la respuesta y envía un resultado a Security Command Center. Para obtener más información, consulta Resultados de Model Armor.