Architettura
Questo diagramma mostra un'applicazione che utilizza Model Armor per proteggere un LLM e un utente. I passaggi seguenti spiegano il flusso di dati:
- Fornisci un prompt all'applicazione.
- Model Armor ispeziona il prompt in entrata per individuare potenziali contenuti sensibili.
- Il prompt (o il prompt sottoposto a sanitizzazione) viene inviato al modello LLM.
- L'LLM genera una risposta.
- Model Armor esamina la risposta generata per individuare contenuti potenzialmente sensibili.
- Ti viene inviata la risposta (o la risposta sanificata). Model Armor invia una descrizione dettagliata dei filtri attivati e non attivati nella risposta.
Model Armor filtra sia l'input (prompt) sia l'output (risposte) per impedire all'LLM di essere esposto a contenuti dannosi o sensibili o di generarli.
Requisiti di rete
Per accedere agli endpoint regionali di Model Armor dall'interno di una rete VPC, devi creare un endpoint Private Service Connect per le API Model Armor. Questo è necessario per evitare errori dei certificati quando si accede agli endpoint regionali utilizzando l'accesso privato Google o i Controlli di servizio VPC. Per ulteriori informazioni, consulta Risolvere i problemi di Model Armor e Informazioni sull'accesso agli endpoint regionali tramite gli endpoint Private Service Connect.
Casi d'uso
Model Armor ha diversi casi d'uso in termini di sicurezza, affidabilità e protezione e AI responsabile, tra cui:
- Mitiga il rischio di divulgazione di proprietà intellettuale (IP) sensibile e informazioni che consentono l'identificazione personale (PII) nei prompt o nelle risposte LLM.
- Proteggi da attacchi di prompt injection e jailbreaking, impedendo agli autori di minacce di manipolare i sistemi di AI per eseguire azioni indesiderate.
- Analizza il testo nei PDF per individuare contenuti sensibili o dannosi.
- Impedisci al tuo chatbot di consigliare soluzioni della concorrenza, mantenendo l'integrità del brand e la fedeltà dei clienti.
- Filtra i post sui social media generati da applicazioni di AI che contengono messaggi dannosi, come contenuti pericolosi o che incitano all'odio.
Modelli Model Armor
I template Model Armor ti consentono di configurare la modalità di screening di prompt e risposte da parte di Model Armor. Funzionano come insiemi di filtri e soglie personalizzati per diversi livelli di confidenza in materia di sicurezza e protezione, il che ti consente di controllare quali contenuti vengono segnalati.
Le soglie rappresentano i livelli di confidenza, ovvero il livello di confidenza
di Model Armor che il prompt o la risposta includono contenuti
offensivi. Ad esempio, puoi creare un modello che filtri i prompt per i contenuti
che incitano all'odio con una soglia di HIGH, il che significa che Model Armor segnala un'alta
confidenza che il prompt contenga contenuti che incitano all'odio. Una soglia di LOW_AND_ABOVE
indica qualsiasi livello di confidenza (LOW, MEDIUM e HIGH) nell'affermazione.
Per saperne di più, consulta Template Model Armor.
Livelli di confidenza di Model Armor
Puoi impostare i livelli di confidenza per le categorie di sicurezza dell'AI responsabile (contenuti sessualmente espliciti, pericolosi, di molestie e incitamento all'odio), il rilevamento di prompt injection e jailbreak e la protezione dei dati sensibili (inclusa l'attualità).
Per i livelli di confidenza che supportano soglie granulari, Model Armor li interpreta nel seguente modo:
- Alto: identifica i contenuti con un'alta probabilità di violazione.
- Medio o superiore: identifica i contenuti con una probabilità media o alta di violazione.
- Bassa e superiore: identifica i contenuti con una probabilità bassa, media o alta di violazione.
La sensibilità del filtro controlla il tasso di rilevamento. Una soglia più bassa identifica più eventi, ma potrebbe aumentare la frequenza di falsi positivi.
| Livello di confidenza | Probabilità di rilevamento | Rischio di falsi positivi | Caso d'uso consigliato |
|---|---|---|---|
| Alta | Segnala solo i contenuti con una certezza quasi assoluta di violazione. | Molto bassa | Ambienti di produzione che danno la priorità alle interazioni utente ininterrotte. |
| Medio o superiore | Contrassegna i contenuti con un grado di confidenza bilanciato. | Moderato | Applicazioni aziendali standard. Offre una via di mezzo tra una protezione efficace e tassi di falsi positivi accettabili. Adatti alla sicurezza dei contenuti generici. |
| Basso o superiore | Segnala qualsiasi contenuto con anche una minima indicazione di violazione. | Alta | Da usare con cautela. Potenzialmente adatta a categorie ad alto rischio come il rilevamento di prompt injection e jailbreaking, in cui la prevenzione di falsi negativi è fondamentale, anche a rischio di accettare falsi positivi. Non consigliato per categorie di contenuti AI responsabile generali a causa dell'alto rischio di blocco di contenuti innocui. |
Considerazioni e best practice
- Disaccoppia i modelli: configura modelli Model Armor separati per i prompt degli utenti e le risposte del modello. Gli input degli utenti e gli output del modello hanno profili di rischio e obiettivi diversi:
- Modello di input: si concentra sulla prevenzione di input dannosi, prompt injection, tentativi di jailbreak e caricamento di dati sensibili.
- Modello di output: si concentra sull'impedire al modello di divulgare dati sensibili, generare contenuti dannosi o fuori brand o restituire URL dannosi. La separazione dei modelli consente un controllo più granulare, una migliore tracciabilità dei blocchi e una regolazione più semplice.
- Impatto dei falsi positivi: i falsi positivi possono peggiorare l'esperienza utente
bloccando in modo errato prompt o risposte legittimi. L'impostazione
Low and above, sebbene accurata, può causare un volume elevato di falsi positivi nelle applicazioni di AI. - Ottimizzazione specifica per categoria: il livello di filtro ottimale dipende dalla
categoria di danno che stai cercando di prevenire. Ad esempio, sia per l'iniezione di prompt che per il rilevamento di jailbreak e la sicurezza generale dei contenuti (incitamento all'odio,
molestie, contenuti pericolosi), inizia con
HighoMedium and aboveper ridurre al minimo i falsi positivi. - Test iterativi: testa sempre le configurazioni dei filtri su un set di dati rappresentativo di prompt e risposte, inclusi esempi noti di risposte corrette e non corrette. Stabilisci una base di riferimento per i falsi positivi e regola i livelli di conseguenza.
- Monitoraggio: monitora continuamente le prestazioni del filtro in produzione per rilevare comportamenti di blocco imprevisti o aumenti improvvisi di falsi positivi.
- Feedback degli utenti: fornisci un meccanismo che consenta agli utenti di segnalare i casi in cui i contenuti sono stati bloccati in modo errato. Questo feedback è preziosissimo per la regolazione dei livelli di filtro.
Strategia di configurazione di esempio
- Deployment iniziale:
- Imposta i filtri AI responsabile generali (incitamento all'odio e molestie) su
High. - Imposta i filtri di rilevamento di prompt injection e jailbreaking su
Medium. Per applicazioni come Gemini Enterprise, imposta la soglia suHighper evitare falsi positivi. - Utilizza il modello avanzato di Sensitive Data Protection per configurare gli infotipi richiesti per il tuo caso d'uso. La versione di base di Sensitive Data Protection fornisce infotipi limitati, principalmente indirizzati alla regione degli Stati Uniti.
- Imposta i filtri AI responsabile generali (incitamento all'odio e molestie) su
- Test e convalida:
- Esegui test approfonditi con un insieme di query sicure note per assicurarti che non vengano bloccate.
- Valuta il tasso di falsi positivi sul traffico utente tipico.
- Aggiustamento:
- Se continui a riscontrare un numero elevato di falsi positivi, modifica
la soglia impostandola su
High. - Se la protezione contro una categoria specifica sembra insufficiente, valuta con cautela la possibilità di abbassare la soglia solo per quella categoria, dopo aver eseguito test approfonditi.
- Se continui a riscontrare un numero elevato di falsi positivi, modifica
la soglia impostandola su
Selezionando con attenzione i livelli di filtro in base al rischio specifico e alla tolleranza ai falsi positivi per ogni categoria, puoi ottimizzare l'efficacia di Model Armor. Per segnalare falsi positivi e falsi negativi, contatta l' assistenza clienti Google Cloud.
Filtri Model Armor
Model Armor offre una serie di filtri per aiutarti a fornire modelli di AI sicuri. Sono disponibili le seguenti categorie di filtri.
Filtro di sicurezza dell'AI responsabile
Puoi filtrare i prompt e le risposte ai livelli di confidenza specificati per le seguenti categorie:
| Categoria | Definizione |
|---|---|
| Incitamento all'odio | Commenti negativi o dannosi rivolti all'identità e/o agli attributi protetti. |
| Molestie | Commenti minacciosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo. |
| Contenuti sessualmente espliciti | Contiene riferimenti ad atti sessuali o ad altri contenuti osceni. |
| Contenuti pericolosi | Promuovono o consentono l'accesso a beni, servizi e attività dannosi. |
| materiale pedopornografico | Contiene riferimenti a materiale pedopornografico. Questo filtro viene applicato per impostazione predefinita e non può essere disattivato. |
Rilevamento di prompt injection e jailbreaking
Il prompt injection è una vulnerabilità della sicurezza in cui i malintenzionati creano comandi speciali all'interno dell'input del testo (il prompt) per ingannare un modello di AI. In questo modo, l'AI potrebbe ignorare le istruzioni abituali, rivelare informazioni sensibili o eseguire azioni per le quali non è stata progettata.
Il jailbreaking nel contesto degli LLM si riferisce all'atto di aggirare i protocolli di sicurezza e le linee guida etiche integrati nel modello. In questo modo, il LLM può generare risposte che originariamente era progettato per evitare, come contenuti dannosi, non etici e pericolosi.
Quando il rilevamento di prompt injection e jailbreak è abilitato, Model Armor esegue la scansione di prompt e risposte alla ricerca di contenuti dannosi. Se rilevato, Model Armor blocca il prompt o la risposta.
Sensitive Data Protection
Sensitive Data Protection è un servizio Google Cloud che ti aiuta a scoprire, classificare e anonimizzare i dati sensibili. Sensitive Data Protection può identificare elementi, contesto e documenti sensibili per aiutarti a ridurre il rischio di perdita di dati in entrata e in uscita dai workload AI. Puoi utilizzare Sensitive Data Protection direttamente in Model Armor per trasformare, tokenizzare e oscurare gli elementi sensibili mantenendo il contesto non sensibile. Model Armor può accettare modelli di ispezione esistenti, che fungono da progetti per semplificare il processo di scansione e identificazione dei dati sensibili specifici per le esigenze della tua attività e di conformità. Ciò garantisce coerenza e interoperabilità tra gli altri workload che utilizzano Sensitive Data Protection.
Model Armor offre due modalità per la configurazione di Sensitive Data Protection:
Configurazione di base: in questa modalità, configuri Sensitive Data Protection specificando i tipi di dati sensibili da scansionare. Questa modalità supporta le seguenti categorie:
- Numero della carta di credito
- Numero di previdenza sociale (SSN) statunitense
- Numero di conto finanziario
- Numero di identificazione del contribuente individuale (ITIN) statunitense
- Google Cloud credenziali
- Google Cloud Chiave API
La configurazione di base supporta solo le operazioni di ispezione e non supporta l'utilizzo dei modelli di Sensitive Data Protection. Per saperne di più, consulta la sezione Configurazione di base di Sensitive Data Protection.
Configurazione avanzata: questa modalità offre maggiore flessibilità e personalizzazione tramite i modelli di Sensitive Data Protection. I modelli di Sensitive Data Protection sono configurazioni predefinite che consentono di specificare regole di rilevamento e tecniche di deidentificazione più granulari. La configurazione avanzata supporta sia le operazioni di ispezione che di deidentificazione. Per saperne di più, consulta Configurazione avanzata di Sensitive Data Protection.
I livelli di confidenza per Sensitive Data Protection funzionano in modo diverso rispetto ai livelli di confidenza per gli altri filtri. Per saperne di più sui livelli di confidenza per Sensitive Data Protection, consulta Probabilità di corrispondenza di Sensitive Data Protection. Per saperne di più su Sensitive Data Protection in generale, consulta Panoramica di Sensitive Data Protection.
Rilevamento di URL dannosi
Gli URL dannosi sono spesso camuffati per sembrare legittimi, il che li rende uno strumento potente per attacchi di phishing, distribuzione di malware e altre minacce online. Ad esempio, se un PDF contiene un URL dannoso incorporato, può essere utilizzato per compromettere qualsiasi sistema downstream che elabora gli output LLM.
Quando il rilevamento di URL dannosi è attivato, Model Armor esegue la scansione degli URL per identificare se sono dannosi. In questo modo puoi intervenire e impedire la restituzione di URL dannosi.
Definisci il tipo di applicazione
L'applicazione definisce cosa succede dopo il rilevamento di una violazione. Per configurare la modalità di gestione dei rilevamenti da parte di Model Armor, imposta il tipo di applicazione. Model Armor offre i seguenti tipi di applicazione:
- Solo ispezione: in questa modalità, Model Armor analizza i contenuti in base alle policy di sicurezza e protezione configurate. Se viene rilevata una violazione, registra i dettagli in Cloud Logging per il monitoraggio e l'analisi. Tuttavia, non impedisce l'elaborazione della richiesta o della risposta da parte del servizio integrato. Questa modalità è utile per testare nuove policy, comprendere i potenziali tassi di violazione ed eseguire audit senza influire sul traffico in tempo reale. Per trarre vantaggio da questa modalità, Cloud Logging deve essere abilitato.
- Ispeziona e blocca: questa modalità fornisce una protezione attiva. Quando Model Armor rileva una violazione, non solo registra l'evento, ma impedisce anche l'avanzamento dei contenuti in violazione. Ad esempio, un prompt non conforme viene bloccato prima di raggiungere il modello oppure una risposta non sicura del modello viene interrotta prima di essere inviata all'utente.
La scelta del tipo di applicazione forzata è fondamentale per il comportamento dell'integrazione di Model Armor e per il livello di protezione che applica. Questa impostazione può in genere essere configurata nei modelli Model Armor e nelle impostazioni del pavimento, consentendo diversi livelli di applicazione per vari casi d'uso e servizi integrati. Per saperne di più, vedi Definisci il tipo di applicazione per i modelli e Definisci il tipo di applicazione per le impostazioni di base.
Ecco come funziona ogni modalità:
| Modalità | Funzione | Impatto | Caso d'uso |
|---|---|---|---|
Inspect only |
Quando Model Armor rileva una potenziale violazione delle norme (ad esempio, contenuti segnalati dai filtri di AI responsabile, potenziali dati sensibili, un sospetto tentativo di prompt injection), registra l'evento di rilevamento in Cloud Logging. Tuttavia, non impedisce l'invio del prompt all'LLM né la restituzione della risposta dell'LLM. | L'interazione con l'applicazione AI continua senza blocchi apparenti o modifiche da parte di Model Armor al momento del rilevamento. Ricevi una risposta come se il controllo non avesse comportato un blocco. | Test e ottimizzazione delle norme: un'organizzazione che implementa un nuovo agente AI potrebbe
voler comprendere i tipi e la frequenza di prompt o risposte potenzialmente problematici
senza interrompere l'esperienza dei primi utenti. Configurano i rilevatori in modalità Monitoraggio delle minacce emergenti: i team di sicurezza potrebbero utilizzare questa modalità per monitorare nuovi tipi di tentativi di prompt injection o l'esposizione imprevista di dati sensibili senza influire sulla funzionalità dell'applicazione. Audit di conformità: la registrazione di tutte le potenziali violazioni, anche se non bloccate, può fornire dati preziosi per i report di conformità e la valutazione del rischio. |
Inspect and block |
Questa è la modalità di applicazione forzata attiva. Quando Model Armor rileva
una violazione delle norme in base ai rilevatori configurati e alle relative soglie, registra l'evento e fornisce un verdetto per bloccare la richiesta. Il servizio chiamante
o il punto di integrazione o il punto di applicazione delle norme (PEP) è responsabile del
blocco dell'ulteriore elaborazione.
|
La tua richiesta viene rifiutata o non ricevi la risposta dal LLM se viene rilevata una violazione. Ricevi un messaggio dall'applicazione che indica che la richiesta non può essere elaborata. Il messaggio specifico dipende da come l'applicazione client è progettata per gestire un verdetto di blocco di Model Armor. |
Prevenire i contenuti dannosi:
Sensitive Data Protection:
Interrompere il rilevamento di prompt injection e jailbreaking:
Blocca URL non sicuri:
Imponi argomenti personalizzati:
|
Come best practice, inizia con Inspect only per comprendere i potenziali tassi di blocco e l'efficacia per il tuo caso d'uso specifico. Dopo aver analizzato i log e modificato le configurazioni, puoi passare a Inspect and block per la protezione attiva.
Per utilizzare in modo efficace Inspect only e ottenere insight preziosi, attiva
Cloud Logging. Se Cloud Logging non è attivato, Inspect only non fornirà
informazioni utili.
Accedi ai log tramite Cloud Logging. Filtra in base al nome del servizio
modelarmor.googleapis.com. Cerca le voci relative alle operazioni che hai
attivato nel modello. Per saperne di più, consulta Visualizza i log utilizzando Esplora log.
Impostazioni di base di Model Armor
Sebbene i modelli Model Armor offrano flessibilità per le singole applicazioni, le organizzazioni spesso devono stabilire un livello di base di protezione per tutte le loro applicazioni di AI. Utilizza le impostazioni di base di Model Armor per stabilire questa base di riferimento. Definiscono i requisiti minimi per tutti i modelli creati a livello di progetto nella gerarchia delle risorse Google Cloud .
Per ulteriori informazioni, vedi Impostazioni di base di Model Armor.
Supporto dei linguaggi
I filtri di Model Armor supportano la sanificazione di prompt e risposte in più lingue.
- Il filtro Sensitive Data Protection supporta l'inglese e altre lingue a seconda degli infoTypes che hai selezionato.
I filtri AI responsabile e rilevamento di prompt injection e jailbreaking sono testati nelle seguenti lingue:
- Cinese (mandarino)
- Inglese
- Francese
- Tedesco
- Italiano
- Giapponese
- Coreano
- Portoghese
- Spagnolo
Questi filtri possono funzionare in molte altre lingue, ma la qualità dei risultati potrebbe variare. Per i codici lingua, consulta Lingue supportate.
Esistono due modi per attivare il rilevamento multilingue:
Attiva su ogni richiesta: per un controllo granulare, attiva il rilevamento multilingue in base alla richiesta quando sanifichi un prompt utente e sanifichi una risposta del modello.
Attiva una tantum: se preferisci una configurazione più semplice, puoi attivare il rilevamento multilingue come configurazione una tantum a livello di modello Model Armor utilizzando l'API REST. Per saperne di più, vedi Crea un modello Model Armor.
Controllo dei documenti
Il testo nei documenti può includere contenuti dannosi e sensibili. Model Armor può analizzare i seguenti tipi di documenti per sicurezza, tentativi di prompt injection e jailbreak, dati sensibili e URL dannosi:
- CSV
- File di testo: TXT
- Documenti Microsoft Word: DOCX, DOCM, DOTX, DOTM
- Diapositive Microsoft PowerPoint: PPTX, PPTM, POTX, POTM, POT
- Fogli Microsoft Excel: XLSX, XLSM, XLTX, XLTM
Gestione e archiviazione dei dati
Model Armor è progettato tenendo conto dei principi di privacy e minimizzazione dei dati. Model Armor non archivia i contenuti delle tue interazioni con l'AI, a meno che tu non configuri e attivi esplicitamente la registrazione della piattaforma, in modo da avere il controllo sulla conservazione dei dati. Questa sezione descrive in che modo Model Armor gestisce i tuoi dati:
- Elaborazione stateless e eliminazione dei contenuti: Model Armor funziona come servizio stateless, elaborando tutti i prompt e le risposte del modello interamente in memoria. Non registra, archivia o conserva in modo permanente alcun contenuto analizzato durante il suo funzionamento standard; tutti i dati vengono eliminati immediatamente al termine dell'analisi.
- Logging controllato dal cliente: l'unica circostanza in cui vengono archiviati i dati relativi ai contenuti in fase di elaborazione è tramite Cloud Logging. Se scegli di attivare Cloud Logging per il servizio Model Armor, i dettagli degli eventi, che potrebbero includere metadati o snippet dei contenuti analizzati come configurati, vengono inviati alla destinazione Cloud Logging designata. L'ambito dei dati registrati e la loro conservazione sono determinati dalla configurazione di Cloud Logging.
- Archiviazione e crittografia sicure: tutti i dati gestiti da Model Armor sono protetti dalla crittografia standard del settore. Ciò include i dati in transito che utilizzano TLS 1.2 e versioni successive e tutti i dati che risiedono brevemente in memoria durante l'analisi.
- Residenza dei dati regionale: sebbene l'elaborazione di Model Armor sia
senza stato, il servizio supporta controlli rigorosi della residenza dei dati. Ciò garantisce
che tutta l'elaborazione temporanea avvenga esclusivamente all'interno dei confini
geografici definiti, ad esempio
USoEU. - Elaborazione selettiva: per garantire l'efficienza operativa e la conformità regionale, Model Armor trasmette ed elabora solo i dati relativi ai filtri attivi. Se un filtro specifico è disattivato (ad esempio, a causa della disponibilità regionale o delle preferenze dell'utente), nessun dato viene inviato o elaborato dal servizio sottostante associato a quel filtro.
- Standard di conformità globali: nell'ambito dell'ecosistema Google Cloud , Model Armor si basa su una solida base di sicurezza. L'infrastruttura è sottoposta a regolari controlli indipendenti per mantenere le certificazioni, tra cui SOC 1/2/3 e ISO/IEC 27001.
Prezzi
Model Armor può essere acquistato come parte integrante di Security Command Center o come servizio autonomo. Per informazioni sui prezzi, consulta Prezzi di Security Command Center.
Token
I modelli di AI generativa suddividono il testo e altri dati in unità chiamate token. Model Armor utilizza il numero totale di token nei prompt e nelle risposte dell'AI ai fini della determinazione del prezzo. Model Armor limita il numero di token elaborati in ogni prompt e risposta. Per i limiti dei token, consulta Limiti dei token.
Passaggi successivi
- Scopri di più sui modelli Model Armor.
- Scopri di più sulle impostazioni di base di Model Armor.
- Scopri di più sugli endpoint Model Armor.
- Sanifica prompt e risposte.
- Scopri di più sulla registrazione del controllo Model Armor.
- Risolvi i problemi di Model Armor.