Model Armor si integra con vari Google Cloud servizi:
- Google Kubernetes Engine (GKE) ed estensioni di servizio
- Vertex AI
- Gemini Enterprise
- Server MCP di Google Cloud (anteprima)
GKE ed estensioni di servizio
Model Armor può essere integrato con GKE tramite le estensioni di servizio. Le estensioni di servizio consentono di integrare servizi interni (Google Cloud servizi) o esterni (gestiti dall'utente) per elaborare il traffico. Puoi configurare un'estensione di servizio sui bilanciatori del carico delle applicazioni, inclusi i gateway di inferenza GKE, per filtrare il traffico da e verso un cluster GKE. In questo modo, tutte le interazioni con i modelli di AI sono protette da Model Armor. Per ulteriori informazioni, consulta Integrazione con GKE.
Vertex AI
Model Armor può essere integrato direttamente in Vertex AI utilizzando le impostazioni di base o i modelli.
Questa integrazione filtra le richieste e le risposte del modello Gemini, bloccando quelle che violano le impostazioni di base. Questa integrazione fornisce la protezione di prompt e risposte all'interno dell'API Gemini in Vertex AI per il metodo generateContent. Devi abilitare Cloud Logging per visualizzare i risultati della sanitizzazione di prompt e risposte. Per ulteriori informazioni, consulta
Integrazione con Vertex AI.
Gemini Enterprise
Model Armor può essere integrato direttamente con Gemini Enterprise utilizzando i modelli. Gemini Enterprise instrada le interazioni tra utenti e agenti e gli LLM sottostanti tramite Model Armor. Ciò significa che i prompt degli utenti o degli agenti e le risposte generate dagli LLM vengono ispezionati da Model Armor prima di essere presentati all'utente. Per ulteriori informazioni, consulta Integrazione con Gemini Enterprise.
Server MCP di Google Cloud
Model Armor può essere configurato per proteggere i dati e i contenuti quando invii richieste ai Google Cloud servizi che espongono gli strumenti e i server Model Context Protocol (MCP). Model Armor contribuisce a proteggere le applicazioni di AI agentiche sanitizzando le chiamate e le risposte degli strumenti MCP utilizzando le impostazioni di base. Questa procedura riduce i rischi come prompt injection e divulgazione di dati sensibili. Per ulteriori informazioni, consulta Integrazione con i server MCP di Google Cloud.
Prima di iniziare
Abilita API
Devi abilitare le API Model Armor prima di poter utilizzare Model Armor.
Console
Abilita l'API Model Armor.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo servizi (
roles/serviceusage.serviceUsageAdmin), che contiene l'autorizzazioneserviceusage.services.enable. Scopri come concedere i ruoli.Seleziona il progetto in cui vuoi attivare Model Armor.
gcloud
Prima di iniziare, segui questi passaggi utilizzando Google Cloud CLI con l'API Model Armor:
Nella Google Cloud console, attiva Cloud Shell.
Nella parte inferiore della Google Cloud console viene avviata una sessione di Cloud Shell e viene visualizzato un prompt della riga di comando. Cloud Shell è un ambiente shell con Google Cloud CLI già inclusa e installata e con valori già impostati per il progetto corrente. L'inizializzazione della sessione può richiedere alcuni secondi.
-
Esegui il seguente comando per impostare l'endpoint API per il servizio Model Armor.
gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"
Sostituisci
LOCATIONcon la regione in cui vuoi utilizzare Model Armor.
Gestisci quota
Model Armor utilizza un sistema di quote per garantire un utilizzo equo e proteggere la stabilità del sistema. La quota predefinita per l'API Model Armor è di 1200 QPM per progetto. Puoi applicare un valore compreso tra 0 e 1200 QPM per progetto. Per richiedere una modifica, consulta Richiedi una modifica della quota. Se hai bisogno di una quota superiore a quella predefinita, contatta l'assistenza clienti Google Cloud.
La quota di Model Armor richiede considerazioni importanti durante l'integrazione con altri servizi. La quota principale con cui interagisci è il numero di richieste API al minuto per progetto.
- Quota predefinita di Model Armor: quando un servizio effettua una chiamata all'API Model Armor per l'analisi (ad esempio, il controllo di prompt o risposte), viene utilizzata la quota API Model Armor del tuo progetto.
- Quota dei servizi di integrazione: la quota di Model Armor è separata da eventuali quote associate ai servizi di integrazione. Devi assicurarti che la quota sia sufficiente per tutti i servizi nel percorso della richiesta. Qualsiasi chiamata all'API Model Armor per sanitizzare i contenuti della tua applicazione viene conteggiata rispetto ai limiti di quota dell'API Model Armor.
Scopri le situazioni in cui la quota è esaurita
Raggiungi i limiti di quota di Model Armor se i log dell'applicazione mostrano errori di Model Armor, in genere errori HTTP 429 RESOURCE_EXHAUSTED, che indicano un numero eccessivo di richieste.
Stima le esigenze di quota
Per determinare la quota di Model Armor da richiedere:
- Stima il numero massimo di richieste al minuto che i tuoi servizi invieranno a Model Armor.
- Considera quante volte viene chiamata Model Armor per interazione utente con il tuo servizio (ad esempio, una volta per il prompt e una volta per la risposta).
- Tieni conto del numero massimo di utenti o sessioni simultanee.
- Richiedi una quota con un buffer ragionevole (ad esempio, il 20-30% in più rispetto al picco previsto) per gestire picchi imprevisti.
- Inizia con la tua stima migliore, monitora attentamente l'utilizzo dopo il lancio e richiedi ulteriori modifiche, se necessario.
Ad esempio, se prevedi 500 utenti al minuto e ogni interazione utente chiama Model Armor due volte (prompt e risposta), hai bisogno di almeno 1000 QPM. Tenendo conto di un buffer, richiedere 1200-1300 QPM è un buon punto di partenza.
Considerazioni
- Assicurati di monitorare e gestire le quote per altri servizi. L'esaurimento della quota per altri servizi influisce sulla tua applicazione, anche se hai una quota di Model Armor sufficiente.
- Implementa i tentativi di ripetizione lato client con backoff esponenziale nella configurazione dell'applicazione per gestire problemi di quota temporanei o altri errori ripetibili. Per ulteriori informazioni, consulta Strategia di ripetizione.
Opzioni per l'integrazione di Model Armor
Model Armor offre le seguenti opzioni di integrazione. Ogni opzione fornisce funzionalità e capacità diverse.
| Opzione di integrazione | Applicatore/rilevatore di policy | Configura i rilevamenti | Solo ispezione | Ispezione e blocco | Copertura di modelli e cloud |
|---|---|---|---|---|---|
| API REST | Rilevatore | Solo utilizzando i modelli | Sì | Sì | Tutti i modelli e tutti i cloud |
| Vertex AI | Applicazione in linea | Utilizzando le impostazioni di base o i modelli | Sì | Sì | Gemini (non in streaming) su Google Cloud |
| Google Kubernetes Engine | Applicazione in linea | Solo utilizzando i modelli | Sì | Sì | Modelli con formato OpenAI su Google Cloud1 |
| Gemini Enterprise | Applicazione in linea | Solo utilizzando i modelli | Sì | Sì | Tutti i modelli e tutti i cloud |
| Google Cloud Server MCP (anteprima) | Applicazione in linea | Solo utilizzando le impostazioni di base | Sì | Sì | MCP su Google Cloud |
1 Diversi modelli popolari, tra cui Anthropic Claude, Mistral AI e Grok, supportano le specifiche OpenAI. Questi modelli vengono in genere sottoposti a deployment utilizzando motori di inferenza come vLLM, che forniscono il livello API compatibile con OpenAI necessario. vLLM supporta un'ampia gamma di modelli, tra cui la serie Meta Llama, DeepSeek, le famiglie Mistral e Mixtral e Gemma.
Per l'opzione di integrazione dell'API REST, Model Armor funziona solo come rilevatore utilizzando i modelli. Ciò significa che identifica e segnala potenziali violazioni delle policy in base a modelli predefiniti anziché impedirle attivamente. Quando esegui l'integrazione con l'API Model Armor, la tua applicazione può utilizzare il suo output per bloccare o consentire le azioni in base ai risultati della valutazione di sicurezza forniti. L'API Model Armor restituisce informazioni su potenziali minacce o violazioni delle policy relative al traffico API, in particolare nel caso di interazioni AI/LLM. La tua applicazione può chiamare l'API Model Armor e utilizzare le informazioni ricevute nella risposta per prendere una decisione e intraprendere un'azione in base alla logica personalizzata predefinita.
Con l'opzione di integrazione di Vertex AI, Model Armor fornisce l'applicazione in linea utilizzando le impostazioni di base o i modelli. Ciò significa che Model Armor applica attivamente le policy intervenendo direttamente nel processo senza richiedere modifiche al codice dell'applicazione.
Le integrazioni GKE e Gemini Enterprise utilizzano solo i modelli per l'applicazione in linea delle policy. Ciò significa che Model Armor può applicare le policy direttamente senza richiedere la modifica del codice dell'applicazione sia all'interno del gateway di inferenza GKE sia durante le interazioni utente o agente all'interno delle istanze di Gemini Enterprise.
L'integrazione di Model Armor e Gemini Enterprise sanitizza solo il prompt utente iniziale e la risposta finale dell'agente o del modello. Questa integrazione non copre i passaggi intermedi che si verificano tra il prompt utente iniziale e la generazione di risposte finale.
Model Armor in Security Command Center
Model Armor ispeziona i prompt e le risposte degli LLM per varie minacce, tra cui prompt injection, tentativi di jailbreak, URL dannosi e contenuti dannosi. Quando Model Armor rileva una violazione di un'impostazione di base configurata, blocca il prompt o la risposta e invia un risultato a Security Command Center. Per ulteriori informazioni, consulta Risultati di Model Armor.