I modelli di AI generativa come Gemini richiedono solide misure di sicurezza per mitigare i rischi, ad esempio la generazione di contenuti dannosi, la divulgazione di informazioni sensibili o l'uso improprio. Google CloudLa piattaforma Vertex AI fornisce una suite di strumenti e pratiche per implementare una sicurezza olistica per i tuoi modelli Gemini.
Potenziali rischi per la sicurezza e strategie di mitigazione
Quando esegui il deployment dei modelli Gemini, è fondamentale identificare e mitigare vari potenziali rischi. Un approccio proattivo alla comprensione di questi rischi consente un'implementazione più efficace delle misure di sicurezza. Un approccio multilivello alla sicurezza è fondamentale, in quanto può mitigare o prevenire:
- Rischi dei contenuti:possono includere contenuti dannosi, volgarità e sessualizzazione, violenza e contenuti cruenti.
- Rischi per la sicurezza del brand: i contenuti generati potrebbero non essere in linea con il tono o i valori del tuo brand, potrebbero promuovere concorrenti o prodotti inappropriati o generare contenuti che possono causare danni alla reputazione.
- Rischi di allineamento: i contenuti generati potrebbero essere irrilevanti o imprecisi.
- Rischi per la sicurezza e la privacy: i contenuti generati potrebbero divulgare dati o prompt di addestramento sensibili oppure utenti ostili potrebbero tentare di forzare il modello a ignorare i protocolli di sicurezza o a comportarsi in modo imprevisto.
I nostri modelli implementati offrono varie funzionalità per risolvere questi potenziali problemi:
- Il modello predefinito e i filtri non configurabili forniscono una rete di sicurezza generale.
- Le istruzioni di sistema forniscono indicazioni dirette al modello sul comportamento e sugli argomenti preferiti da evitare.
- I filtri dei contenuti ti consentono di impostare soglie specifiche per i tipi di danni comuni.
- Gemini come filtro offre un checkpoint avanzato e personalizzabile per problemi di sicurezza complessi o sfumati che potrebbero sfuggire ai livelli precedenti o richiedere una valutazione più sensibile al contesto.
- La DLP affronta in modo specifico il rischio critico di perdita di dati sensibili, nel caso in cui il modello abbia accesso a dati sensibili. Consente inoltre di creare elenchi di blocco personalizzati.
- Content Credentials aggiunge metadati C2PA firmati crittograficamente alle immagini generate utilizzando il modello Gemini 3 Pro Image, indicando che sono create con l'AI e fornendo una cronologia verificabile della loro origine.
Strumenti di sicurezza disponibili in Vertex AI per Gemini
Vertex AI offre diversi strumenti per gestire la sicurezza dei tuoi modelli Gemini. Comprendere il funzionamento di ciascuna, le relative considerazioni e i casi d'uso ideali ti aiuterà a creare una soluzione di sicurezza personalizzata.
| Approccio | Come funziona | Protezione fornita | Rischi | Quando utilizzarlo |
|---|---|---|---|---|
| Impostazioni predefinite: Gemini + filtri non configurabili | I modelli Gemini sono progettati intrinsecamente pensando alla sicurezza e all'equità, anche quando vengono utilizzati prompt malevoli. Google ha investito in valutazioni complete della sicurezza, anche per quanto riguarda pregiudizi e tossicità. Le impostazioni predefinite includono un livello di protezione indipendente progettato per impedire la generazione di contenuti correlati al materiale pedopornografico o a contenuti protetti da copyright (recitazione). | Protezione di base contro il materiale pedopornografico e il copyright (recitazione) | La sicurezza predefinita di Gemini potrebbe non soddisfare le esigenze della tua organizzazione. Il modello può avere allucinazioni o non seguire le istruzioni. Gli aggressori motivati potrebbero comunque riuscire a eseguire jailbreak e prompt injection | Workflows in cui non è previsto alcun input dannoso |
| Filtri configurabili |
I filtri dei contenuti predefiniti di Gemini forniscono una protezione aggiuntiva contro
varie categorie di contenuti dannosi, come contenuti di natura sessuale, che incitano all'odio, che includono molestie o
pericolosi. Puoi configurare le soglie di blocco per ogni categoria di danni
(ad es. BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE,
BLOCK_ONLY_HIGH) in base alla probabilità e/o alla gravità dei contenuti
dannosi. Si tratta di un livello indipendente dal modello, quindi sono resistenti agli
attacchi di jailbreak.
|
Robusto contro le violazioni per le categorie predefinite, sensibilità regolabile | Non offre una personalizzazione granulare oltre alle impostazioni di soglia per le categorie predefinite. Potrebbe occasionalmente bloccare contenuti innocui (falsi positivi) o non rilevare alcuni contenuti dannosi (falsi negativi). Disponibile solo per il filtraggio delle risposte, non per il filtraggio dei prompt. | Fornire un livello base di sicurezza per le applicazioni o gli agenti rivolti agli utenti. Se il tuo obiettivo è garantire la sicurezza dei contenuti e del brand, i filtri dei contenuti devono essere abbinati alle istruzioni di sistema. |
| Istruzioni di sistema | Puoi fornire al modello istruzioni sulle linee guida per la sicurezza del brand e dei contenuti tramite istruzioni di sistema o preamboli. Ad esempio, puoi dire al modello "non rispondere a domande relative alla politica" o di rispettare linee guida specifiche per la voce e il tono del brand. Le istruzioni di sistema guidano direttamente il comportamento del modello. | Personalizzabile per la sicurezza dei contenuti/del brand, può essere molto efficace. | Il modello può avere allucinazioni o non seguire le istruzioni. Gli aggressori motivati potrebbero comunque riuscire a eseguire jailbreak e prompt injection | Applicazioni o agenti che richiedono il rispetto di linee guida specifiche del brand o di norme sui contenuti più dettagliate. Se il tuo obiettivo è garantire la sicurezza dei contenuti e del brand, le istruzioni di sistema devono essere abbinate ai filtri dei contenuti. |
| DLP per elenchi di blocco personalizzati e Sensitive Data Protection | L'API DLP può ispezionare il testo per identificare e classificare le informazioni sensibili in base a un'ampia gamma di rilevatori di infoType predefiniti e personalizzati. Una volta identificati, può applicare tecniche di anonimizzazione come oscuramento, mascheramento o tokenizzazione. L'API DLP può essere utilizzata anche per bloccare le parole chiave. Protezione dell'input: prima di inviare prompt o dati utente a Gemini, puoi passare il testo tramite l'API DLP per oscurare o mascherare qualsiasinformazioni sensibilile. In questo modo si impedisce l'elaborazione o la registrazione di dati sensibili da parte del modello. Protezione dell'output: se esiste il rischio che Gemini possa generare o rivelare inavvertitamente informazioni sensibili (ad es. se riassume documenti di origine contenenti PII), l'output del modello può essere analizzato dall'API DLP prima di essere inviato all'utente. | Filtro efficace per volgarità o parole personalizzate. Filtro efficace per i dati sensibili. | Aggiunge latenza. Può portare a un blocco eccessivo. | Protezione dalla perdita di dati per gli agenti che hanno accesso a dati sensibili. |
| Gemini come filtro | Puoi utilizzare Gemini per filtrare prompt e risposte per il tuo agente o la tua app. Ciò comporta l'esecuzione di una seconda chiamata a un modello Gemini veloce ed economico (come Gemini Flash o Flash Lite) per valutare se l'input di un utente o di uno strumento o l'output del modello Gemini principale è sicuro. Al modello di filtro vengono fornite istruzioni per decidere se i contenuti sono sicuri o non sicuri in base alle norme definite, tra cui sicurezza dei contenuti, sicurezza del brand e disallineamento dell'agente. Offre una protezione solida e altamente personalizzabile contro violazioni della sicurezza dei contenuti, problemi di sicurezza del brand, deriva del modello e allucinazioni e può analizzare testo, immagini, video e audio per una comprensione olistica. | Altamente robusto e personalizzabile per la sicurezza dei contenuti/del brand, la deriva, le allucinazioni; comprensione multimodale. | Costi e latenza aggiuntivi. Possibilità di falsi negativi estremamente rari. | Fornire un livello di sicurezza personalizzato per applicazioni o agenti rivolti agli utenti |
| Approccio multilivello: filtri configurabili + istruzioni di sistema + DLP + Gemini come filtro | Altamente robusto e personalizzabile per la sicurezza di contenuti/brand, deriva, allucinazione; comprensione multimodale | Costi e latenza aggiuntivi. | Fornisci un livello elevato di sicurezza per applicazioni o agenti rivolti agli utenti, soprattutto dove è previsto un uso ostile e dannoso | |
| Content Credentials C2PA | Per i modelli supportati, Vertex AI aggiunge automaticamente Content Credentials firmate crittograficamente alle immagini generate, indicando che sono create con l'AI e fornendo una cronologia verificabile della loro origine in conformità allo standard C2PA. Per saperne di più, consulta Credenziali dei contenuti. | Trasparenza sull'origine dei contenuti; aiuta gli utenti a identificare le immagini generate dall'AI. | L'utilizzo di strumenti non conformi può compromettere l'autenticità dei file; non garantisce l'affidabilità dell'origine multimediale. | Casi d'uso di generazione di contenuti multimediali, in cui la trasparenza sull'origine e la cronologia del file è importante per la fiducia degli utenti. |
Valutazione continua della sicurezza
La valutazione continua della sicurezza è fondamentale per i sistemi di AI, poiché il panorama dell'AI e i metodi di uso improprio sono in continua evoluzione. Le valutazioni regolari aiutano a identificare le vulnerabilità, valutare l'efficacia della mitigazione, adattarsi ai rischi in evoluzione, garantire l'allineamento con le norme e i valori, creare fiducia e mantenere la conformità. A questo scopo, vengono utilizzati vari tipi di valutazione, tra cui valutazioni di sviluppo, valutazioni di garanzia, red teaming, valutazioni esterne e test di benchmark. L'ambito della valutazione deve coprire la sicurezza dei contenuti, la sicurezza del brand, la pertinenza, i pregiudizi e l'equità, la veridicità e la robustezza agli attacchi avversari. Strumenti come il servizio di valutazione dell'AI generativa di Vertex AI possono aiutarti in questi sforzi, sottolineando che i miglioramenti iterativi basati sui risultati della valutazione sono essenziali per lo sviluppo responsabile dell'AI.