O Model Armor se integra aos Google Cloud serviços para proteger as interações de IA e modelos de linguagem grandes (LLMs). O Model Armor identifica e informa possíveis violações de política e pode bloquear ações ativamente com base em avaliações de segurança.
O Model Armor se integra a vários Google Cloud serviços:
Apigee
A integração permite usar os recursos de proteção de IA do Model Armor diretamente na camada do gateway de API da Apigee. Você configura políticas específicas do Model Armor nos proxies de API da Apigee. Quando uma chamada de API passa por um proxy da Apigee que tem essas políticas, a Apigee envia os comandos e as respostas ao serviço Model Armor para inspeção. Para mais informações, consulte Integração com a Apigee.
Gemini Enterprise
O Model Armor pode ser integrado diretamente ao Gemini Enterprise usando modelos. O Gemini Enterprise encaminha as interações entre usuários e agentes e os LLMs subjacentes pelo Model Armor. Isso significa que os comandos de usuários ou agentes e as respostas geradas pelos LLMs são inspecionados pelo Model Armor antes de serem apresentados ao usuário. Para mais informações, consulte Integração com o Gemini Enterprise.
Servidores do Google e Google Cloud MCP
O Model Armor pode ser configurado para ajudar a proteger seus dados e conteúdo seguro ao enviar solicitações aos Google Cloud serviços que expõem ferramentas e servidores do Protocolo de Contexto de Modelo (MCP). O Model Armor ajuda a proteger seus aplicativos de IA agêntica higienizando chamadas e respostas de ferramentas MCP usando configurações mínimas. Esse processo atenua riscos como injeção de comandos e divulgação de dados sensíveis. Para mais informações, consulte Integração com servidores do Google e Google Cloud MCP.
GKE e Service Extensions
O Model Armor pode ser integrado ao GKE pelas extensões de serviço. As extensões de serviço permitem integrar serviços internos (Google Cloud serviços) ou externos (gerenciados pelo usuário) para processar o tráfego. É possível configurar uma extensão de serviço em balanceadores de carga de aplicativos, incluindo gateways de inferência do GKE, para filtrar o tráfego de e para um cluster do GKE. Isso verifica se todas as interações com os modelos de IA estão protegidas pelo Model Armor. Para mais informações, consulte Integração com o GKE.
Vertex AI
O Model Armor pode ser integrado diretamente à Vertex AI usando
configurações mínimas ou
modelos.
Essa integração examina as solicitações e respostas do modelo do Gemini, bloqueando aquelas que violam as configurações mínimas. Essa integração oferece proteção de comandos e respostas na API Gemini na Vertex AI para o método generateContent. É necessário ativar o Cloud Logging para ter visibilidade dos resultados da higienização de comandos e respostas. Para mais informações, consulte
Integração com a Vertex AI.
Antes de começar
Ativar APIs
É necessário ativar as APIs do Model Armor antes de usar o Model Armor.
Console
Ativar a API Model Armor.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (
roles/serviceusage.serviceUsageAdmin), que contém a permissãoserviceusage.services.enable. Saiba como conceder papéis.Selecione o projeto em que você quer ativar o Model Armor.
gcloud
Antes de começar, siga estas etapas usando a Google Cloud CLI com a API Model Armor:
No Google Cloud console, ative o Cloud Shell.
Na parte de baixo do Google Cloud console, uma sessão do Cloud Shell é iniciada e exibe um prompt de linha de comando. O Cloud Shell é um ambiente shell com a Google Cloud CLI já instalada e com valores já definidos para o projeto atual. A inicialização da sessão pode levar alguns segundos.
-
Execute o comando a seguir para definir o endpoint de API para o serviço Model Armor.
gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"
Substitua
LOCATIONpela região em que você quer usar o Model Armor.
Gerenciar cota
O Model Armor usa um sistema de cotas para garantir o uso justo e proteger a estabilidade do sistema. A cota padrão para a API Model Armor é de 1.200 QPM por projeto. É possível aplicar um valor entre 0 e 1.200 QPM por projeto. Para solicitar um ajuste, consulte Solicitar um ajuste de cota. Se você precisar de mais do que a cota padrão, entre em contato com o Cloud Customer Care.
A cota do Model Armor exige considerações importantes ao integrar com outros serviços. A cota principal com que você interage é o número de solicitações de API por minuto por projeto.
- Cota padrão do Model Armor:quando um serviço faz uma chamada para a API Model Armor para análise (por exemplo, verificar comandos ou respostas), isso consome a cota da API Model Armor do seu projeto.
- Cota de serviços de integração:a cota do Model Armor é separada de todas as cotas associadas aos serviços de integração. É necessário garantir que haja cota suficiente para todos os serviços no caminho da solicitação. Qualquer chamada feita para a API Model Armor para higienizar o conteúdo do seu aplicativo conta para os limites de cota da API Model Armor.
Descobrir situações fora da cota
Você atinge os limites de cota do Model Armor se os registros do aplicativo mostrarem erros do Model Armor, normalmente erros HTTP 429 RESOURCE_EXHAUSTED, que indicam muitas solicitações.
Estimar as necessidades de cota
Para determinar a quantidade de cota do Model Armor a ser solicitada:
- Estime o número máximo de solicitações por minuto que seus serviços vão enviar ao Model Armor.
- Considere quantas vezes o Model Armor é chamado por interação do usuário com o serviço (por exemplo, uma vez para o comando e uma vez para a resposta).
- Considere o número máximo de usuários ou sessões simultâneas.
- Solicite uma cota com um buffer razoável (por exemplo, 20 a 30% acima do pico esperado) para lidar com picos inesperados.
- Comece com sua melhor estimativa, monitore o uso de perto após o lançamento e solicite mais ajustes conforme necessário.
Por exemplo, se você espera 500 usuários por minuto e cada interação do usuário chama o Model Armor duas vezes (comando e resposta), você precisa de pelo menos 1.000 QPM. Considerando um buffer, solicitar 1.200 a 1.300 QPM é um bom ponto de partida.
Considerações
- Monitore e gerencie as cotas de outros serviços. A falta de cota para outros serviços afeta seu aplicativo, mesmo que você tenha cota suficiente do Model Armor.
- Implemente novas tentativas do lado do cliente com espera exponencial na configuração do aplicativo para lidar com problemas de cota temporários ou outros erros repetíveis. Para mais informações, consulte Estratégia de repetição.
Integrar usando a API REST
Ao usar a API REST para integração, o Model Armor funciona apenas como um detector usando modelos. Ele identifica e informa possíveis violações de política com base em modelos predefinidos, em vez de evitá-las ativamente. Ao integrar com a API Model Armor, seu aplicativo pode usar a saída do Model Armor para bloquear ou permitir ações com base nos resultados da avaliação de segurança fornecidos. A API Model Armor retorna informações sobre possíveis ameaças ou violações de política relacionadas ao tráfego da API, especialmente no caso de interações de IA/LLM. Seu aplicativo pode chamar a API Model Armor e usar as informações recebidas na resposta para tomar uma decisão e agir com base na lógica personalizada predefinida.
Opções ao integrar o Model Armor
O Model Armor oferece as seguintes opções de integração. Cada opção oferece recursos e capacidades diferentes.
| Opção de integração | Aplicador/detector de políticas | Configurar detecções | Somente inspecionar | Inspecionar e bloquear | Cobertura de modelo e nuvem |
|---|---|---|---|---|---|
| Apigee | Aplicação inline | Somente usando modelos | Sim | Sim | Todos os modelos e todas as nuvens |
| Gemini Enterprise | Aplicação inline | Somente usando modelos | Sim | Sim | Todos os modelos e todas as nuvens |
| Servidores do Google e Google Cloud MCP (pré-lançamento) | Aplicação inline | Somente usando configurações mínimas | Sim | Sim | Servidores do Google e Google Cloud MCP |
| Google Kubernetes Engine | Aplicação inline | Somente usando modelos | Sim | Sim | Modelos com formato OpenAI em Google Cloud1 |
| Vertex AI | Aplicação inline | Usando configurações mínimas ou modelos | Sim | Sim | Gemini (não streaming) em Google Cloud |
1Vários modelos populares, incluindo Anthropic Claude, Mistral AI e Grok, oferecem suporte a especificações do OpenAI. Esses modelos são normalmente implantados usando mecanismos de inferência como o vLLM, que fornecem a camada de API compatível com o OpenAI necessária. O vLLM oferece suporte a uma ampla variedade de modelos, incluindo a série Meta Llama, DeepSeek, famílias Mistral e Mixtral e Gemma.
Com a opção de integração da Vertex AI, o Model Armor oferece aplicação inline usando configurações mínimas ou modelos. Isso significa que o Model Armor aplica ativamente as políticas intervindo diretamente no processo sem exigir modificações no código do aplicativo.
As integrações do GKE e do Gemini Enterprise usam apenas modelos para aplicação de políticas inline. Isso significa que o Model Armor pode aplicar políticas diretamente sem exigir que você modifique o código do aplicativo no gateway de inferência do GKE e durante as interações do usuário ou do agente nas instâncias do Gemini Enterprise.
A integração do Model Armor e do Gemini Enterprise higieniza apenas o comando inicial do usuário e a resposta final do agente ou modelo. Todas as etapas intermediárias que ocorrem entre o comando inicial do usuário e a geração de respostas final não são cobertas por essa integração.
Model Armor no Security Command Center
O Model Armor inspeciona comandos e respostas de LLM em busca de várias ameaças, incluindo injeção de comandos, tentativas de jailbreak, URLs maliciosos e conteúdo nocivo. Quando o Model Armor detecta uma violação de uma configuração mínima configurada, ele bloqueia o comando ou a resposta e envia uma descoberta ao Security Command Center. Para mais informações, consulte Descobertas do Model Armor.