Model Armor si integra con vari servizi Google Cloud :
- Google Kubernetes Engine (GKE) ed estensioni di servizio
- Vertex AI
- Gemini Enterprise
- Server MCP di Google Cloud (anteprima)
GKE e Service Extensions
Model Armor può essere integrato con GKE tramite Service Extensions. Le estensioni di servizio consentono di integrare servizi interni (Google Cloud ) o esterni (gestiti dall'utente) per elaborare il traffico. Puoi configurare un'estensione di servizio sui bilanciatori del carico delle applicazioni, inclusi i gateway di inferenza GKE, per filtrare il traffico da e verso un cluster GKE. In questo modo viene verificato che tutte le interazioni con i modelli di AI siano protette da Model Armor. Per maggiori informazioni, consulta Integrazione con GKE.
Vertex AI
Model Armor può essere integrato direttamente in Vertex AI utilizzando le impostazioni di base o i modelli.
Questa integrazione filtra le richieste e le risposte del modello Gemini, bloccando
quelle che violano le impostazioni di base. Questa integrazione fornisce la protezione di prompt e risposte
all'interno dell'API Gemini in Vertex AI per il
metodo generateContent. Devi abilitare Cloud Logging per ottenere visibilità
sui risultati della sanificazione di prompt e risposte. Per ulteriori informazioni, consulta
Integrazione con Vertex AI.
Gemini Enterprise
Model Armor può essere integrato direttamente con Gemini Enterprise utilizzando i modelli. Gemini Enterprise indirizza le interazioni tra utenti e agenti e i LLM sottostanti tramite Model Armor. Ciò significa che i prompt degli utenti o degli agenti e le risposte generate dai LLM vengono ispezionati da Model Armor prima di essere presentati all'utente. Per maggiori informazioni, consulta Integrazione con Gemini Enterprise.
Server MCP di Google Cloud
Model Armor può essere configurato per proteggere i tuoi dati e proteggere i contenuti quando invii richieste ai servizi Google Cloud che espongono strumenti e server Model Context Protocol (MCP). Model Armor aiuta a proteggere le tue applicazioni di AI agentiche sanificando le chiamate e le risposte degli strumenti MCP utilizzando le impostazioni di base. Questo processo mitiga i rischi come il prompt injection e la divulgazione di dati sensibili. Per maggiori informazioni, consulta Integrazione con i server MCP di Google Cloud.
Prima di iniziare
Abilita API
Prima di poter utilizzare Model Armor, devi abilitare le API Model Armor.
Console
Abilita l'API Model Armor.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (
roles/serviceusage.serviceUsageAdmin), che include l'autorizzazioneserviceusage.services.enable. Scopri come concedere i ruoli.Seleziona il progetto in cui vuoi attivare Model Armor.
gcloud
Prima di iniziare, segui questi passaggi utilizzando Google Cloud CLI con l'API Model Armor:
Nella console Google Cloud , attiva Cloud Shell.
Nella parte inferiore della console Google Cloud viene avviata una sessione di Cloud Shell e viene visualizzato un prompt della riga di comando. Cloud Shell è un ambiente shell con Google Cloud CLI già installata e con valori già impostati per il progetto corrente. L'inizializzazione della sessione può richiedere alcuni secondi.
-
Esegui questo comando per impostare l'endpoint API per il servizio Model Armor.
gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"
Sostituisci
LOCATIONcon la regione in cui vuoi utilizzare Model Armor.
Gestisci quota
Model Armor utilizza un sistema di quote per garantire un utilizzo equo e proteggere la stabilità del sistema. La quota predefinita per l'API Model Armor è 1200 QPM per progetto. Puoi applicare un valore compreso tra 0 e 1200 QPM per progetto. Per richiedere un aggiustamento, consulta Richiedi un aggiustamento delle quote. Se hai bisogno di una quota superiore a quella predefinita, contatta l'assistenza clienti Google Cloud.
La quota di Model Armor richiede importanti considerazioni quando l'integrazione con altri servizi. La quota principale con cui interagisci è il numero di richieste API al minuto per progetto.
- Quota predefinita di Model Armor:quando un servizio effettua una chiamata all'API Model Armor per l'analisi (ad esempio, il controllo di prompt o risposte), viene utilizzata la quota dell'API Model Armor del progetto.
- Quota dei servizi di integrazione: la quota di Model Armor è separata da eventuali quote associate ai servizi di integrazione. Devi assicurarti che la quota sia sufficiente per tutti i servizi nel percorso della richiesta. Qualsiasi chiamata effettuata all'API Model Armor per sanificare i contenuti per la tua applicazione viene conteggiata in base ai limiti di quota dell'API Model Armor.
Scoprire le situazioni di superamento della quota
Se i log dell'applicazione mostrano errori di Model Armor, in genere errori HTTP 429 RESOURCE_EXHAUSTED, che indicano un numero eccessivo di richieste, hai raggiunto i limiti di quota di Model Armor.
Stima delle esigenze di quota
Per determinare la quota di Model Armor da richiedere:
- Stima il numero massimo di richieste al minuto che i tuoi servizi invieranno a Model Armor.
- Considera il numero di volte in cui Model Armor viene chiamato per interazione utente con il tuo servizio (ad esempio, una volta per il prompt e una volta per la risposta).
- Tieni conto del numero massimo di utenti o sessioni simultanei.
- Richiedi una quota con un buffer ragionevole (ad esempio, il 20-30% in più rispetto al picco previsto) per gestire picchi imprevisti.
- Inizia con la tua migliore stima, monitora attentamente l'utilizzo dopo il lancio e richiedi ulteriori modifiche in base alle necessità.
Ad esempio, se prevedi 500 utenti al minuto e ogni interazione utente chiama Model Armor due volte (prompt e risposta), hai bisogno di almeno 1000 QPM. Tenendo conto di un buffer, richiedere 1200-1300 QPM è un buon punto di partenza.
Assicurati di monitorare e gestire le quote per altri servizi. L'esaurimento della quota per altri servizi influisce sulla tua applicazione, anche se hai una quota Model Armor sufficiente.
Opzioni durante l'integrazione di Model Armor
Model Armor offre le seguenti opzioni di integrazione. Ogni opzione offre funzionalità e capacità diverse.
| Opzione di integrazione | Policy enforcer/detector | Configura i rilevamenti | Solo ispezione | Ispeziona e blocca | Copertura di modelli e cloud |
|---|---|---|---|---|---|
| API REST | Rilevatore | Utilizzo esclusivo di modelli | Sì | Sì | Tutti i modelli e tutti i cloud |
| Vertex AI | Applicazione in linea | Utilizzo delle impostazioni di base o dei modelli | Sì | Sì | Gemini (non in streaming) su Google Cloud |
| Google Kubernetes Engine | Applicazione in linea | Utilizzo esclusivo di modelli | Sì | Sì | Modelli con formato OpenAI su Google Cloud1 |
| Gemini Enterprise | Applicazione in linea | Utilizzo esclusivo di modelli | Sì | Sì | Tutti i modelli e tutti i cloud |
| Google Cloud Server MCP (anteprima) | Applicazione in linea | Utilizzando solo le impostazioni di base | Sì | Sì | MCP su Google Cloud |
1Diversi modelli popolari, tra cui Anthropic Claude, Mistral AI e Grok, supportano le specifiche di OpenAI. Questi modelli vengono in genere implementati utilizzando motori di inferenza come vLLM, che forniscono il livello API compatibile con OpenAI necessario. vLLM supporta un'ampia gamma di modelli, tra cui le serie Meta Llama, DeepSeek, Mistral e Mixtral e Gemma.
Per l'opzione di integrazione dell'API REST, Model Armor funziona solo come detector che utilizza i modelli. Ciò significa che identifica e segnala potenziali violazioni delle norme in base a modelli predefiniti anziché prevenirle attivamente. Quando si integra con l'API Model Armor, l'applicazione può utilizzare il suo output per bloccare o consentire azioni in base ai risultati della valutazione della sicurezza forniti. L'API Model Armor restituisce informazioni su potenziali minacce o violazioni delle norme relative al traffico API, soprattutto nel caso di interazioni AI/LLM. La tua applicazione può chiamare l'API Model Armor e utilizzare le informazioni ricevute nella risposta per prendere una decisione e intraprendere un'azione in base alla logica personalizzata predefinita.
Con l'opzione di integrazione di Vertex AI, Model Armor fornisce l'applicazione in linea utilizzando impostazioni o modelli di base. Ciò significa che Model Armor applica attivamente i criteri intervenendo direttamente nel processo senza richiedere modifiche al codice dell'applicazione.
Le integrazioni di GKE e Gemini Enterprise utilizzano solo modelli per l'applicazione dei criteri incorporati. Ciò significa che Model Armor può applicare le policy direttamente senza richiedere la modifica del codice dell'applicazione sia all'interno del gateway di inferenza GKE sia durante le interazioni dell'utente o dell'agente all'interno delle istanze di Gemini Enterprise.
L'integrazione di Model Armor e Gemini Enterprise sanitizza solo il prompt iniziale dell'utente e la risposta finale dell'agente o del modello. Eventuali passaggi intermedi che si verificano tra il prompt iniziale dell'utente e la generazione della risposta finale non sono coperti da questa integrazione.
Model Armor in Security Command Center
Model Armor ispeziona prompt e risposte LLM per varie minacce, tra cui prompt injection, tentativi di jailbreak, URL dannosi e contenuti dannosi. Quando Model Armor rileva una violazione di un'impostazione di base configurata, blocca il prompt o la risposta e invia un risultato a Security Command Center. Per saperne di più, consulta la sezione Risultati di Model Armor.