Architettura
Questo diagramma mostra un'applicazione che utilizza Model Armor per proteggere un LLM e un utente. I passaggi seguenti spiegano il flusso di dati:
- Fornisci un prompt all'applicazione.
- Model Armor ispeziona il prompt in entrata per individuare potenziali contenuti sensibili.
- Il prompt (o il prompt sottoposto a sanitizzazione) viene inviato al modello LLM.
- L'LLM genera una risposta.
- Model Armor esamina la risposta generata per individuare contenuti potenzialmente sensibili.
- La risposta (o la risposta sanificata) ti viene inviata. Model Armor invia una descrizione dettagliata dei filtri attivati e non attivati nella risposta.
Model Armor filtra sia l'input (prompt) sia l'output (risposte) per impedire all'LLM di essere esposto a contenuti dannosi o sensibili o di generarli.
Requisiti di rete
Per accedere agli endpoint regionali di Model Armor dall'interno di una rete VPC, devi creare un endpoint Private Service Connect per le API Model Armor. Questo è necessario per evitare errori dei certificati quando si accede agli endpoint regionali utilizzando l'accesso privato Google o i Controlli di servizio VPC. Per ulteriori informazioni, consulta Risolvere i problemi di Model Armor e Informazioni sull'accesso agli endpoint regionali tramite gli endpoint Private Service Connect.
Casi d'uso
Model Armor ha diversi casi d'uso in termini di sicurezza, affidabilità e protezione e AI responsabile, tra cui:
- Mitiga il rischio di divulgazione di proprietà intellettuale (IP) sensibile e informazioni che consentono l'identificazione personale (PII) nei prompt o nelle risposte LLM.
- Proteggi da attacchi di prompt injection e jailbreaking, impedendo agli autori di minacce di manipolare i sistemi di AI per eseguire azioni indesiderate.
- Analizza il testo nei PDF per individuare contenuti sensibili o dannosi.
- Impedisci al tuo chatbot di consigliare soluzioni della concorrenza, mantenendo l'integrità del brand e la fedeltà dei clienti.
- Filtra i post sui social media generati da applicazioni di AI che contengono messaggi dannosi, come contenuti pericolosi o che incitano all'odio.
Modelli Model Armor
I template Model Armor ti consentono di configurare il modo in cui Model Armor filtra prompt e risposte. Funzionano come insiemi di filtri e soglie personalizzati per diversi livelli di confidenza di sicurezza, il che ti consente di controllare quali contenuti vengono segnalati.
Le soglie rappresentano i livelli di confidenza, ovvero il grado di certezza
di Model Armor che il prompt o la risposta includano contenuti
offensivi. Ad esempio, puoi creare un modello che filtri i prompt per contenuti che incitano all'odio con una soglia HIGH, il che significa che Model Armor segnala un'alta confidenza che il prompt contenga contenuti che incitano all'odio. Una soglia LOW_AND_ABOVE
indica qualsiasi livello di confidenza (LOW, MEDIUM e HIGH) nell'effettuare
l'affermazione.
Per saperne di più, consulta Template Model Armor.
Livelli di confidenza di Model Armor
Puoi impostare i livelli di confidenza per le categorie di sicurezza dell'AI responsabile (contenuti sessualmente espliciti, pericolosi, di molestie e incitamento all'odio), il rilevamento di prompt injection e jailbreak e la protezione dei dati sensibili (inclusa l'attualità).
Per i livelli di confidenza che supportano soglie granulari, Model Armor li interpreta nel seguente modo:
- Alto: identifica i contenuti con un'alta probabilità di violazione.
- Medio o superiore: identifica i contenuti con una probabilità media o alta di violazione.
- Bassa e superiore: identifica i contenuti con una probabilità bassa, media o alta di violazione.
La sensibilità del filtro controlla il tasso di rilevamento. Una soglia più bassa identifica più eventi, ma potrebbe aumentare la frequenza di falsi positivi.
| Livello di confidenza | Probabilità di rilevamento | Rischio di falsi positivi | Caso d'uso consigliato |
|---|---|---|---|
| Alta | Segnala solo i contenuti con una certezza quasi assoluta di violazione. | Molto bassa | Ambienti di produzione che danno la priorità alle interazioni utente ininterrotte. |
| Medio o superiore | Segnala i contenuti con un grado di confidenza bilanciato. | Moderato | Applicazioni aziendali standard. Offre una via di mezzo tra una protezione efficace e tassi di falsi positivi accettabili. Adatti alla sicurezza dei contenuti generici. |
| Basso o superiore | Segnala qualsiasi contenuto con anche una minima indicazione di violazione. | Alta | Da usare con cautela. Potenzialmente adatta a categorie ad alto rischio come l'iniezione di prompt e il rilevamento di jailbreak, in cui la prevenzione di falsi negativi è fondamentale, anche a rischio di accettare falsi positivi. Non consigliato per categorie di contenuti AI responsabile generali a causa dell'alto rischio di blocco di contenuti innocui. |
Considerazioni e best practice
- Disaccoppia i modelli: configura modelli Model Armor separati per i prompt degli utenti e le risposte dei modelli. Gli input dell'utente e gli output del modello hanno profili di rischio e obiettivi diversi:
- Modello di input: si concentra sulla prevenzione di input dannosi, prompt injection, tentativi di jailbreak e caricamento di dati sensibili.
- Modello di output: si concentra sull'impedire al modello di divulgare dati sensibili, generare contenuti dannosi o fuori brand o restituire URL dannosi. La separazione dei modelli consente un controllo più granulare, una migliore tracciabilità dei blocchi e una regolazione più semplice.
- Impatto dei falsi positivi: i falsi positivi possono peggiorare l'esperienza utente
bloccando in modo errato prompt o risposte legittimi. L'impostazione
Low and above, sebbene accurata, può causare un volume elevato di falsi positivi nelle applicazioni di AI. - Ottimizzazione specifica per categoria: il livello di filtro ottimale dipende dalla
categoria di contenuti dannosi che stai cercando di prevenire. Ad esempio, per l'injection di prompt, il rilevamento di jailbreak e la sicurezza generale dei contenuti (incitamento all'odio, molestie, contenuti pericolosi), inizia con
HighoMedium and aboveper ridurre al minimo i falsi positivi. - Test iterativi: testa sempre le configurazioni dei filtri su un set di dati rappresentativo di prompt e risposte, inclusi esempi noti di risposte corrette e non corrette. Stabilisci una base di riferimento per i falsi positivi e regola i livelli di conseguenza.
- Monitoraggio: monitora continuamente le prestazioni del filtro in produzione per rilevare comportamenti di blocco imprevisti o aumenti improvvisi di falsi positivi.
- Feedback degli utenti: fornisci un meccanismo che consenta agli utenti di segnalare i casi in cui i contenuti sono stati bloccati in modo errato. Questo feedback è preziosissimo per la regolazione dei livelli di filtro.
Strategia di configurazione di esempio
- Deployment iniziale:
- Imposta i filtri AI responsabile generali (incitamento all'odio e molestie) su
High. - Imposta i filtri di rilevamento di prompt injection e jailbreaking su
Medium. Per applicazioni come Gemini Enterprise, imposta la soglia suHighper evitare falsi positivi. - Utilizza il modello avanzato di Sensitive Data Protection per configurare gli infotipi richiesti per il tuo caso d'uso. La versione di base di Sensitive Data Protection fornisce infotipi limitati, principalmente indirizzati alla regione degli Stati Uniti.
- Imposta i filtri AI responsabile generali (incitamento all'odio e molestie) su
- Test e convalida:
- Esegui test approfonditi con un insieme di query sicure note per assicurarti che non vengano bloccate.
- Valuta il tasso di falsi positivi sul traffico utente tipico.
- Aggiustamento:
- Se continui a riscontrare un numero elevato di falsi positivi, imposta
la soglia su
High. - Se la protezione contro una categoria specifica sembra insufficiente, valuta con cautela la possibilità di abbassare la soglia solo per quella categoria, dopo aver eseguito test approfonditi.
- Se continui a riscontrare un numero elevato di falsi positivi, imposta
la soglia su
Selezionando con attenzione i livelli di filtro in base al rischio specifico e alla tolleranza ai falsi positivi per ogni categoria, puoi ottimizzare l'efficacia di Model Armor. Per segnalare falsi positivi e falsi negativi, contatta l' assistenza clienti Google Cloud.
Filtri Model Armor
Model Armor offre una serie di filtri per aiutarti a fornire modelli di AI sicuri e protetti. Sono disponibili le seguenti categorie di filtri.
Filtro di sicurezza dell'AI responsabile
Puoi filtrare i prompt e le risposte ai livelli di confidenza specificati per le seguenti categorie:
| Categoria | Definizione |
|---|---|
| Incitamento all'odio | Commenti negativi o dannosi rivolti all'identità e/o agli attributi protetti. |
| Molestie | Commenti minacciosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo. |
| Contenuti sessualmente espliciti | Contiene riferimenti ad atti sessuali o ad altri contenuti osceni. |
| Contenuti sessualmente allusivi1 | Suggerisce atti sessuali o altri contenuti osceni. |
| Contenuti pericolosi | Promuovono o consentono l'accesso a beni, servizi e attività dannosi. |
| Violenza1 | Contiene riferimenti a contenuti violenti. |
| materiale pedopornografico | Contiene riferimenti a materiale pedopornografico. Questo filtro viene applicato per impostazione predefinita e non può essere disattivato. |
1I filtri per contenuti sessualmente allusivi e violenza sono disponibili solo nei template Model Armor e non nelle impostazioni di base.
Rilevamento di prompt injection e jailbreaking
Il prompt injection è una vulnerabilità della sicurezza in cui i malintenzionati creano comandi speciali all'interno dell'input del testo (il prompt) per ingannare un modello di AI. L'AI potrebbe ignorare le istruzioni abituali, rivelare informazioni sensibili o eseguire azioni per le quali non è stata progettata.
Il jailbreaking nel contesto degli LLM si riferisce all'atto di aggirare i protocolli di sicurezza e le linee guida etiche integrati nel modello. In questo modo, il LLM può generare risposte che originariamente era progettato per evitare, come contenuti dannosi, non etici e pericolosi.
Quando il rilevamento di prompt injection e jailbreak è abilitato, Model Armor esegue la scansione di prompt e risposte alla ricerca di contenuti dannosi. Se rilevato, Model Armor blocca il prompt o la risposta.
Sensitive Data Protection
Sensitive Data Protection è un servizio Google Cloud che ti aiuta a scoprire, classificare e anonimizzare i dati sensibili. Sensitive Data Protection può identificare elementi, contesto e documenti sensibili per aiutarti a ridurre il rischio di perdita di dati in entrata e in uscita dai workload AI. Puoi utilizzare Sensitive Data Protection direttamente in Model Armor per trasformare, tokenizzare e oscurare gli elementi sensibili mantenendo il contesto non sensibile. Model Armor può accettare modelli di ispezione esistenti, che fungono da progetti per semplificare il processo di scansione e identificazione dei dati sensibili specifici per le esigenze della tua attività e di conformità. Ciò garantisce coerenza e interoperabilità tra gli altri workload che utilizzano Sensitive Data Protection.
Model Armor offre due modalità per la configurazione di Sensitive Data Protection:
Configurazione di base: in questa modalità, configuri Sensitive Data Protection specificando i tipi di dati sensibili da analizzare. Questa modalità supporta le seguenti categorie:
- Numero della carta di credito
- Numero di previdenza sociale (SSN) statunitense
- Numero di conto finanziario
- Numero di identificazione del contribuente individuale (ITIN) statunitense
- Google Cloud credenziali
- Google Cloud Chiave API
La configurazione di base supporta solo le operazioni di ispezione e non supporta l'utilizzo dei modelli di Sensitive Data Protection. Per saperne di più, consulta la sezione Configurazione di base di Sensitive Data Protection.
Configurazione avanzata: questa modalità offre maggiore flessibilità e personalizzazione tramite i modelli di Sensitive Data Protection. I modelli Sensitive Data Protection sono configurazioni predefinite che ti consentono di specificare regole di rilevamento e tecniche di anonimizzazione più granulari. La configurazione avanzata supporta le operazioni di ispezione e deidentificazione. Per saperne di più, consulta Configurazione avanzata di Sensitive Data Protection.
I livelli di confidenza per Sensitive Data Protection funzionano in modo diverso rispetto a quelli per gli altri filtri. Per ulteriori informazioni sui livelli di confidenza per Sensitive Data Protection, consulta Probabilità di corrispondenza di Sensitive Data Protection. Per ulteriori informazioni su Sensitive Data Protection in generale, consulta la panoramica di Sensitive Data Protection.
Rilevamento di URL dannosi
Gli URL dannosi sono spesso camuffati per sembrare legittimi, il che li rende uno strumento potente per attacchi di phishing, distribuzione di malware e altre minacce online. Ad esempio, se un PDF contiene un URL dannoso incorporato, può essere utilizzato per compromettere qualsiasi sistema downstream che elabora gli output LLM.
Quando il rilevamento di URL dannosi è attivato, Model Armor esegue la scansione degli URL per identificare se sono dannosi. In questo modo puoi intervenire e impedire la restituzione di URL dannosi.
Definisci il tipo di applicazione
L'applicazione definisce cosa succede dopo il rilevamento di una violazione. Per configurare la modalità di gestione dei rilevamenti da parte di Model Armor, imposta il tipo di applicazione. Model Armor offre i seguenti tipi di applicazione:
- Solo ispezione: in questa modalità, Model Armor analizza i contenuti in base alle norme di sicurezza e protezione configurate. Se viene rilevata una violazione, i dettagli vengono registrati in Cloud Logging per il monitoraggio e l'analisi. Tuttavia, non impedisce l'elaborazione della richiesta o della risposta da parte del servizio integrato. Ciò è utile per testare nuove policy, comprendere i potenziali tassi di violazione ed eseguire audit senza influire sul traffico in tempo reale. Per ottenere valore da questa modalità, Cloud Logging deve essere abilitato.
- Ispeziona e blocca: questa modalità fornisce una protezione attiva. Quando Model Armor rileva una violazione, non solo registra l'evento, ma impedisce anche l'avanzamento dei contenuti in violazione. Ad esempio, un prompt non conforme viene bloccato prima di raggiungere il modello oppure una risposta non sicura del modello viene interrotta prima di essere inviata all'utente.
La scelta del tipo di applicazione forzata è fondamentale per il comportamento dell'integrazione di Model Armor e per il livello di protezione che applica. Questa impostazione può in genere essere configurata nei modelli Model Armor e nelle impostazioni del pavimento, consentendo diversi livelli di applicazione per vari casi d'uso e servizi integrati. Per saperne di più, vedi Definisci il tipo di applicazione per i modelli e Definisci il tipo di applicazione per le impostazioni di base.
Ecco come funziona ogni modalità:
| Modalità | Funzione | Impatto | Caso d'uso |
|---|---|---|---|
Inspect only |
Quando Model Armor rileva una potenziale violazione delle norme (ad esempio, contenuti segnalati dai filtri di AI responsabile, potenziali dati sensibili, un sospetto tentativo di prompt injection), registra l'evento di rilevamento in Cloud Logging. Tuttavia, non impedisce l'invio del prompt all'LLM né la restituzione della risposta dell'LLM. | L'interazione con l'applicazione AI continua senza blocchi apparenti o modifiche da parte di Model Armor al momento del rilevamento. Ricevi una risposta come se il controllo non avesse comportato un blocco. | Test e ottimizzazione delle norme: un'organizzazione che implementa un nuovo agente AI potrebbe
voler comprendere i tipi e la frequenza di prompt o risposte potenzialmente problematici
senza interrompere l'esperienza dei primi utenti. Configurano i rilevatori in modalità Monitoraggio delle minacce emergenti: i team di sicurezza potrebbero utilizzare questa modalità per monitorare nuovi tipi di tentativi di prompt injection o l'esposizione imprevista di dati sensibili senza influire sulla funzionalità dell'applicazione. Audit di conformità: la registrazione di tutte le potenziali violazioni, anche se non bloccate, può fornire dati preziosi per i report di conformità e la valutazione del rischio. |
Inspect and block |
Questa è la modalità di applicazione forzata attiva. Quando Model Armor rileva
una violazione delle norme in base ai rilevatori configurati e alle relative soglie, registra l'evento e fornisce un verdetto per bloccare la richiesta. Il servizio chiamante
o il punto di integrazione o il punto di applicazione delle norme (PEP) è responsabile del
blocco dell'ulteriore elaborazione.
|
La tua richiesta viene rifiutata o non ricevi la risposta dal LLM se viene rilevata una violazione. Ricevi un messaggio dall'applicazione che indica che la richiesta non può essere elaborata. Il messaggio specifico dipende da come l'applicazione client è progettata per gestire un verdetto di blocco di Model Armor. |
Prevenire i contenuti dannosi:
Sensitive Data Protection:
Interrompere il rilevamento di prompt injection e jailbreaking:
Blocca URL non sicuri:
Imponi argomenti personalizzati:
|
Come best practice, inizia con Inspect only per comprendere i potenziali tassi di blocco
e l'efficacia per il tuo caso d'uso specifico. Dopo aver analizzato i log e
modificato le configurazioni, puoi passare a Inspect and block per la protezione
attiva.
Per utilizzare in modo efficace Inspect only e ottenere insight preziosi, attiva
Cloud Logging. Se Cloud Logging non è abilitato, Inspect only non fornirà
informazioni utili.
Accedi ai log tramite Cloud Logging. Filtra in base al nome del servizio
modelarmor.googleapis.com. Cerca le voci relative alle operazioni che hai
attivato nel modello. Per saperne di più, consulta Visualizza i log utilizzando Esplora log.
Impostazioni di base di Model Armor
Sebbene i modelli Model Armor offrano flessibilità per le singole applicazioni, le organizzazioni spesso devono stabilire un livello di base di protezione per tutte le loro applicazioni di AI. Utilizza le impostazioni di base di Model Armor per stabilire questa base di riferimento. Definiscono i requisiti minimi per tutti i modelli creati a livello di progetto nella gerarchia delle risorse Google Cloud .
Per ulteriori informazioni, vedi Impostazioni di base di Model Armor.
Supporto dei linguaggi
I filtri di Model Armor supportano la sanificazione di prompt e risposte in più lingue.
- Il filtro Sensitive Data Protection supporta l'inglese e altre lingue a seconda degli infoTypes che hai selezionato.
I filtri AI responsabile e rilevamento di prompt injection e jailbreaking sono testati nelle seguenti lingue:
- Cinese (mandarino)
- Inglese
- Francese
- Tedesco
- Italiano
- Giapponese
- Coreano
- Portoghese
- Spagnolo
Questi filtri possono funzionare in molte altre lingue, ma la qualità dei risultati potrebbe variare. Per i codici lingua, consulta Lingue supportate.
Esistono due modi per attivare il rilevamento multilingue:
Attiva per ogni richiesta: per un controllo granulare, attiva il rilevamento multilingue per ogni richiesta quando sanitizzi un prompt utente e sanitizzi una risposta del modello.
Attiva una sola volta: se preferisci una configurazione più semplice, puoi attivare il rilevamento multilingue come configurazione una tantum a livello di modello Model Armor utilizzando l'API REST. Per saperne di più, vedi Crea un modello Model Armor.
Controllo dei documenti
Il testo nei documenti può includere contenuti dannosi e sensibili. Model Armor può analizzare i seguenti tipi di documenti per sicurezza, tentativi di prompt injection e jailbreak, dati sensibili e URL dannosi:
- CSV
- File di testo: TXT
- Documenti Microsoft Word: DOCX, DOCM, DOTX, DOTM
- Diapositive Microsoft PowerPoint: PPTX, PPTM, POTX, POTM, POT
- Fogli Microsoft Excel: XLSX, XLSM, XLTX, XLTM
Screening delle immagini
Model Armor analizza le immagini fornite nei prompt e nelle risposte per proteggere le tue applicazioni di AI generativa dai rischi incorporati nelle immagini. Model Armor esamina le immagini utilizzando i seguenti metodi:
- Scansione visiva: esamina i contenuti visivi all'interno delle immagini solo utilizzando il filtro avanzato di Sensitive Data Protection.
- Riconoscimento ottico dei caratteri (OCR): analizza il testo all'interno delle immagini.
Tieni presenti le seguenti limitazioni quando utilizzi Model Armor per lo screening delle immagini:
- Immagini delle schermate di Model Armor solo nei formati JPEG, PNG e BMP.
- Ogni immagine deve avere dimensioni pari o inferiori a 4 MB.
- Model Armor non esamina le immagini incorporate nei file.
- Model Armor non filtra le immagini fornite insieme al testo in prompt e risposte se utilizzi i metodi
SanitizeUserPrompteSanitizeModelResponse. - Model Armor esamina una sola immagine nella richiesta; l'analisi
di più immagini contemporaneamente non è supportata se utilizzi i metodi
SanitizeUserPrompteSanitizeModelResponse. - Il controllo delle immagini è supportato solo nelle multi-regioni
useeu. Se invii un prompt contenente un'immagine a un endpoint regionale in cui Model Armor non supporta il controllo delle immagini, il campoinvocation_resultnella risposta indicaFAILURE.
Per saperne di più, vedi Sanificare i prompt contenenti immagini.
Gestione e archiviazione dei dati
Model Armor è progettato tenendo conto dei principi di privacy e minimizzazione dei dati. Model Armor non archivia i contenuti delle tue interazioni con l'AI, a meno che tu non configuri e attivi esplicitamente la registrazione della piattaforma, in modo da avere il controllo sulla conservazione dei dati. Questa sezione descrive in che modo Model Armor gestisce i tuoi dati:
- Elaborazione stateless e eliminazione dei contenuti: Model Armor funziona come servizio stateless, elaborando tutti i prompt e le risposte del modello interamente in memoria. Non registra, archivia o conserva in modo permanente alcun contenuto analizzato durante il suo funzionamento standard; tutti i dati vengono eliminati immediatamente al termine dell'analisi.
- Logging controllato dal cliente: l'unica circostanza in cui i dati relativi ai contenuti in fase di elaborazione vengono archiviati è tramite Cloud Logging. Se scegli di attivare Cloud Logging per il servizio Model Armor, i dettagli degli eventi, che potrebbero includere metadati o snippet dei contenuti analizzati come configurato, vengono inviati alla destinazione Cloud Logging designata. L'ambito dei dati registrati e la relativa conservazione sono determinati dalla configurazione di Cloud Logging.
- Archiviazione e crittografia sicure: tutti i dati gestiti da Model Armor sono protetti dalla crittografia standard di settore. Sono inclusi i dati in transito che utilizzano TLS 1.2 e versioni successive e tutti i dati che risiedono brevemente in memoria durante l'analisi.
- Residenza dei dati regionale: sebbene l'elaborazione di Model Armor sia
senza stato, il servizio supporta controlli rigorosi della residenza dei dati. In questo modo
tutta l'elaborazione temporanea avviene esclusivamente all'interno dei confini
geografici definiti, ad esempio
USoEU. - Elaborazione selettiva: per garantire l'efficienza operativa e la conformità regionale, Model Armor trasmette ed elabora solo i dati relativi ai filtri attivi. Se un filtro specifico è disattivato (ad esempio, a causa della disponibilità regionale o delle preferenze dell'utente), nessun dato viene inviato o elaborato dal servizio sottostante associato a quel filtro.
- Standard di conformità globali: in quanto parte dell'ecosistema Google Cloud , Model Armor si basa su una sicurezza rigorosa. L'infrastruttura è sottoposta a controlli indipendenti regolari per mantenere le certificazioni, tra cui SOC 1/2/3 e ISO/IEC 27001.
Prezzi
Model Armor può essere acquistato come parte integrante di Security Command Center o come servizio autonomo. Per informazioni sui prezzi, consulta Prezzi di Security Command Center.
Token
I modelli di AI generativa suddividono il testo e altri dati in unità chiamate token. Model Armor utilizza il numero totale di token nei prompt e nelle risposte dell'AI ai fini della determinazione del prezzo. Model Armor limita il numero di token elaborati in ogni prompt e risposta. Per i limiti dei token, consulta Limiti dei token.
Passaggi successivi
- Scopri di più sui modelli Model Armor.
- Scopri di più sulle impostazioni di base di Model Armor.
- Scopri di più sugli endpoint Model Armor.
- Sanifica prompt e risposte.
- Scopri di più sulla registrazione del controllo Model Armor.
- Risolvi i problemi di Model Armor.