O Model Armor se integra a vários serviços do Google Cloud :
- Google Kubernetes Engine (GKE) e extensões de serviço
- Vertex AI
- Gemini Enterprise
- Servidores MCP do Google Cloud (prévia)
GKE e Service Extensions
O Model Armor pode ser integrado ao GKE usando Service Extensions. Com as extensões de serviço, é possível integrar serviços internos (Google Cloud ) ou externos (gerenciados pelo usuário) para processar o tráfego. É possível configurar uma extensão de serviço em balanceadores de carga de aplicativo, incluindo gateways de inferência do GKE, para filtrar o tráfego de e para um cluster do GKE. Isso verifica se todas as interações com os modelos de IA estão protegidas pelo Model Armor. Para mais informações, consulte Integração com o GKE.
Vertex AI
O Model Armor pode ser integrado diretamente à Vertex AI usando configurações mínimas ou modelos.
Essa integração examina as solicitações e respostas do modelo do Gemini, bloqueando aquelas que violam as configurações mínimas. Essa integração oferece proteção de comandos e respostas na API Gemini na Vertex AI para o método generateContent. É necessário ativar o Cloud Logging para ter visibilidade dos resultados da sanitização de comandos e respostas. Para mais informações, consulte
Integração com a Vertex AI.
Gemini Enterprise
O Model Armor pode ser integrado diretamente ao Gemini Enterprise usando modelos. O Gemini Enterprise encaminha as interações entre usuários e agentes e os LLMs subjacentes pelo Model Armor. Isso significa que os comandos dos usuários ou agentes e as respostas geradas pelos LLMs são inspecionados pelo Model Armor antes de serem apresentados ao usuário. Para mais informações, consulte Integração com o Gemini Enterprise.
Servidores MCP do Google Cloud
O Model Armor pode ser configurado para ajudar a proteger seus dados e conteúdo seguro ao enviar solicitações para serviços Google Cloud que expõem ferramentas e servidores do Protocolo de Contexto de Modelo (MCP). O Model Armor ajuda a proteger seus aplicativos de IA agêntica, higienizando chamadas e respostas de ferramentas do MCP usando configurações mínimas. Esse processo reduz riscos como injeção de comandos e divulgação de dados sensíveis. Para mais informações, consulte Integração com servidores do MCP no Google Cloud.
Antes de começar
Ativar APIs
É necessário ativar as APIs do Model Armor antes de usar o Model Armor.
Console
Ativar a API Model Armor.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (
roles/serviceusage.serviceUsageAdmin), que contém a permissãoserviceusage.services.enable. Saiba como conceder papéis.Selecione o projeto em que você quer ativar o Model Armor.
gcloud
Antes de começar, siga estas etapas usando a Google Cloud CLI com a API Model Armor:
No console do Google Cloud , ative o Cloud Shell.
Na parte de baixo do console Google Cloud , uma sessão do Cloud Shell é iniciada e exibe um prompt de linha de comando. O Cloud Shell é um ambiente shell com a CLI do Google Cloud já instalada e com valores já definidos para o projeto atual. A inicialização da sessão pode levar alguns segundos.
-
Execute o comando a seguir para definir o endpoint de API do serviço Model Armor.
gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"
Substitua
LOCATIONpela região em que você quer usar o Model Armor.
Gerenciar cota
O Model Armor usa um sistema de cotas para garantir o uso justo e proteger a estabilidade do sistema. A cota padrão para a API Model Armor é de 1.200 QPM por projeto. É possível aplicar um valor entre 0 e 1.200 QPM por projeto. Para solicitar um ajuste, consulte Solicitar um ajuste de cota. Se você precisar de mais do que a cota padrão, entre em contato com o Cloud Customer Care.
A cota do Model Armor exige considerações importantes ao integrar com outros serviços. A cota principal com que você interage é o número de solicitações de API por minuto em cada projeto.
- Cota padrão do Model Armor:quando um serviço faz uma chamada para a API Model Armor para análise (por exemplo, verificação de comandos ou respostas), isso consome a cota da API Model Armor do seu projeto.
- Cota de serviços de integração:a cota do Model Armor é separada de todas as cotas associadas aos serviços de integração. Verifique se há cota suficiente para todos os serviços no caminho da solicitação. Qualquer chamada feita para a API Model Armor para higienizar conteúdo do seu aplicativo conta para os limites de cota da API Model Armor.
Descobrir situações de estouro de cota
Você atinge os limites de cota do Model Armor se os registros do aplicativo mostrarem erros do Model Armor, geralmente erros HTTP 429 RESOURCE_EXHAUSTED, que indicam um número excessivo de solicitações.
Estimar as necessidades de cota
Para determinar a cota do Model Armor a ser solicitada:
- Estime o número máximo de solicitações por minuto que seus serviços vão enviar ao Model Armor.
- Considere quantas vezes o Model Armor é chamado por interação do usuário com seu serviço (por exemplo, uma vez para o comando e uma vez para a resposta).
- Considere o número máximo de usuários ou sessões simultâneas.
- Solicite uma cota com um buffer razoável (por exemplo, 20 a 30% acima do pico esperado) para lidar com picos inesperados.
- Comece com sua melhor estimativa, monitore o uso de perto após o lançamento e solicite mais ajustes conforme necessário.
Por exemplo, se você espera 500 usuários por minuto e cada interação do usuário chama o Model Armor duas vezes (comando e resposta), você precisa de pelo menos 1.000 QPM. Considerando um buffer, solicitar de 1.200 a 1.300 QPM é um bom ponto de partida.
Monitore e gerencie as cotas de outros serviços. A falta de cota para outros serviços afeta seu aplicativo, mesmo que você tenha cota suficiente do Model Armor.
Opções ao integrar o Model Armor
O Model Armor oferece as seguintes opções de integração. Cada opção oferece recursos e capacidades diferentes.
| Opção de integração | Aplicador/detector de políticas | Configurar detecções | Somente inspecionar | Inspecionar e bloquear | Cobertura de modelos e nuvem |
|---|---|---|---|---|---|
| API REST | Detector | Usando apenas modelos | Sim | Sim | Todos os modelos e todas as nuvens |
| Vertex AI | Aplicação inline | Usando configurações mínimas ou modelos | Sim | Sim | Gemini (não streaming) no Google Cloud |
| Google Kubernetes Engine | Aplicação inline | Usando apenas modelos | Sim | Sim | Modelos com formato da OpenAI em Google Cloud1 |
| Gemini Enterprise | Aplicação inline | Usando apenas modelos | Sim | Sim | Todos os modelos e todas as nuvens |
| ServidoresGoogle Cloud MCP (pré-lançamento) | Aplicação inline | Usando apenas configurações mínimas | Sim | Sim | MCP em Google Cloud |
1Vários modelos conhecidos, incluindo Anthropic Claude, Mistral AI e Grok, são compatíveis com as especificações da OpenAI. Esses modelos geralmente são implantados usando mecanismos de inferência como o vLLM, que fornece a camada de API compatível com o OpenAI necessária. O vLLM oferece suporte a uma ampla variedade de modelos, incluindo as séries Meta Llama, DeepSeek, Mistral e Mixtral, além do Gemma.
Para a opção de integração da API REST, o Model Armor funciona apenas como um detector usando modelos. Isso significa que ele identifica e informa possíveis violações da política com base em modelos predefinidos, em vez de impedir ativamente que elas aconteçam. Ao fazer a integração com a API Model Armor, seu aplicativo pode usar a saída dela para bloquear ou permitir ações com base nos resultados da avaliação de segurança fornecidos. A API Model Armor retorna informações sobre possíveis ameaças ou violações de política relacionadas ao tráfego da sua API, especialmente no caso de interações de IA/LLM. Seu aplicativo pode chamar a API Model Armor e usar as informações recebidas na resposta para tomar uma decisão e agir com base na sua lógica personalizada predefinida.
Com a opção de integração da Vertex AI, o Model Armor oferece aplicação inline usando configurações mínimas ou modelos. Isso significa que o Model Armor aplica ativamente as políticas intervindo diretamente no processo sem exigir modificações no código do aplicativo.
As integrações do GKE e do Gemini Enterprise usam apenas modelos para aplicação de políticas inline. Isso significa que o Model Armor pode aplicar políticas diretamente sem exigir que você modifique o código do aplicativo no gateway de inferência do GKE e durante as interações do usuário ou do agente nas instâncias do Gemini Enterprise.
A integração do Model Armor e do Gemini Enterprise higieniza apenas o comando inicial do usuário e a resposta final do agente ou modelo. As etapas intermediárias que ocorrem entre o comando inicial do usuário e a geração da resposta final não são cobertas por essa integração.
Model Armor no Security Command Center
O Model Armor inspeciona comandos e respostas de LLMs em busca de várias ameaças, incluindo injeção de comandos, tentativas de jailbreak, URLs maliciosos e conteúdo nocivo. Quando o Model Armor detecta uma violação de uma configuração de valor mínimo configurada, ele bloqueia a solicitação ou resposta e envia uma descoberta para o Security Command Center. Para mais informações, consulte Descobertas do Model Armor.