Sicurezza in Gemini Enterprise Agent Platform

I modelli di AI generativa come Gemini richiedono solide misure di sicurezza per mitigare i rischi, ad esempio la generazione di contenuti dannosi, la divulgazione di informazioni sensibili o l'uso improprio. Google Cloud's Gemini Enterprise Agent Platform fornisce una suite di strumenti e pratiche per implementare la sicurezza olistica per i modelli Gemini.

Potenziali rischi per la sicurezza e strategie di mitigazione

Quando esegui il deployment dei modelli Gemini, è fondamentale identificare e mitigare vari potenziali rischi. Un approccio proattivo alla comprensione di questi rischi consente un'implementazione più efficace delle misure di sicurezza. Un approccio multilivello alla sicurezza è fondamentale, in quanto può mitigare o prevenire:

  • Rischi relativi ai contenuti: possono includere contenuti dannosi, linguaggio volgare e sessualizzazione, contenuti violenti e cruenti.
  • Rischi per la sicurezza del brand: i contenuti generati potrebbero non essere in linea con il tono o i valori del tuo brand, potrebbero promuovere concorrenti o prodotti inappropriati o generare contenuti che possono causare danni alla reputazione.
  • Rischi di allineamento: i contenuti generati potrebbero essere irrilevanti o imprecisi.
  • Rischi per la sicurezza e la privacy: i contenuti generati potrebbero divulgare dati o prompt di addestramento sensibili oppure gli utenti ostili potrebbero tentare di forzare il modello a ignorare i protocolli di sicurezza o a comportarsi in modi non previsti.

I nostri modelli di cui è stato eseguito il deployment offrono varie funzionalità per risolvere questi potenziali problemi:

  • Il modello predefinito e i filtri non configurabili forniscono una rete di sicurezza generale.
  • Le istruzioni di sistema forniscono indicazioni dirette al modello sul comportamento preferito e sugli argomenti da evitare.
  • I filtri dei contenuti consentono di impostare soglie specifiche per i tipi di danni comuni.
  • Gemini come filtro offre un checkpoint avanzato e personalizzabile per problemi di sicurezza complessi o sfumati che potrebbero essere persi dai livelli precedenti o richiedere una valutazione più sensibile al contesto.
  • Model Armor fornisce una protezione di livello enterprise contro prompt injection e jailbreak, danni ai contenuti, protezione dei dati sensibili, rilevamento di malware e navigazione sicura.
  • DLP affronta in modo specifico il rischio critico di divulgazione di dati sensibili, nel caso in cui il modello abbia accesso a dati sensibili. Consente inoltre di creare elenchi di blocchi personalizzati.
  • Content Credentials aggiungono metadati C2PA firmati crittograficamente alle immagini generate utilizzando il modello di immagini Gemini 3 Pro, indicando che sono generate con l'AI e fornendo una cronologia verificabile della loro origine.

Strumenti di sicurezza disponibili in Gemini Enterprise Agent Platform per Gemini

Gemini Enterprise Agent Platform offre diversi strumenti per gestire la sicurezza dei modelli Gemini. Comprendere il funzionamento di ciascuno strumento, le relative considerazioni e i casi d'uso ideali ti aiuterà a creare una soluzione di sicurezza personalizzata.

Approccio Come funziona Protezione fornita Rischi Quando utilizzarlo
Impostazioni predefinite: Gemini + filtri non configurabili I modelli Gemini sono progettati intrinsecamente con la sicurezza e l'equità in mente, anche quando vengono utilizzati prompt ostili. Google ha investito in valutazioni di sicurezza complete inclusi bias e tossicità. Le impostazioni predefinite includono un livello di protezione indipendente progettato per impedire la generazione di contenuti correlati a materiale pedopornografico o contenuti protetti da copyright (recitazione). Protezione di base contro materiale pedopornografico e copyright (recitazione) La sicurezza predefinita di Gemini potrebbe non soddisfare le esigenze della tua organizzazione. Il modello può avere allucinazioni o non seguire le istruzioni. Gli autori di attacchi motivati potrebbero comunque riuscire a eseguire jailbreak e prompt injection Workflows in cui non sono previsti input dannosi
Filtri configurabili I filtri dei contenuti predefiniti di Gemini forniscono una protezione aggiuntiva contro varie categorie di contenuti dannosi, come contenuti di natura sessuale, che incitano all'odio, che promuovono molestie o pericolosi. Puoi configurare le soglie di blocco per ogni categoria di danni (ad es. BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH) in base alla probabilità e/o alla gravità dei contenuti dannosi. Questi sono un livello indipendente dal modello, quindi sono robusti contro jailbreak. Robusto contro le violazioni per le categorie predefinite, sensibilità regolabile Non è possibile personalizzare in modo granulare le impostazioni oltre le soglie per le categorie predefinite. A volte potrebbe bloccare contenuti innocui (falsi positivi) o non rilevare alcuni contenuti dannosi contenuti (falsi negativi). Disponibile solo per il filtraggio delle risposte, non per il filtraggio dei prompt. Fornisce un livello di sicurezza di base per applicazioni o agenti rivolti agli utenti. Se il tuo obiettivo è garantire la sicurezza dei contenuti e del brand, i filtri dei contenuti devono essere abbinati alle istruzioni di sistema.
Istruzioni di sistema Puoi fornire istruzioni al modello sulle linee guida per la sicurezza dei contenuti e del brand tramite istruzioni di sistema o preamboli. Ad esempio, puoi indicare al modello di "non rispondere a domande relative alla politica" o di rispettare linee guida specifiche per la voce e il tono del brand. Le istruzioni di sistema guidano direttamente il comportamento del modello. Personalizzabile per la sicurezza dei contenuti/del brand, può essere molto efficace. Il modello può avere allucinazioni o non seguire le istruzioni. Gli autori di attacchi motivati potrebbero comunque riuscire a eseguire jailbreak e prompt injection Applicazioni o agenti che richiedono il rispetto di linee guida specifiche del brand o di policy sui contenuti sfumate Se il tuo obiettivo è garantire la sicurezza dei contenuti e del brand, le istruzioni di sistema devono essere abbinate ai filtri dei contenuti.
Model Armor Model Armor è un Google Cloud servizio progettato per migliorare la sicurezza delle applicazioni AI. Funziona controllando in modo proattivo i prompt e le risposte dei LLM, proteggendo da vari rischi e garantendo pratiche di AI responsabile. Indipendentemente dal fatto che tu stia eseguendo il deployment dell'AI in Google Cloud o in altri provider di servizi cloud, Model Armor può aiutarti a prevenire input dannosi , verificare la sicurezza dei contenuti, proteggere i dati sensibili, mantenere la conformità e applicare in modo coerente le policy di sicurezza dell'AI nelle tue applicazioni AI. Filtraggio di prompt injection e jailbreak, filtri dei contenuti, protezione dei dati sensibili, rilevamento di malware e navigazione sicura. Costo e latenza. Offerta a pagamento per i clienti con esigenze aziendali.
DLP per elenchi di blocchi personalizzati e protezione dei dati sensibili L'API DLP può ispezionare il testo per identificare e classificare le informazioni sensibili in base a un'ampia gamma di rilevatori di infoType predefiniti e personalizzati. Una volta identificati, può applicare tecniche di anonimizzazione come la redazione, mascheramento o la tokenizzazione. L'API DLP può essere utilizzata anche per bloccare le parole chiave. Protezione dell'input: prima di inviare prompt o dati utente a Gemini, puoi passare il testo tramite l'API DLP per redigere o mascherare eventuali informazioni sensibili. In questo modo si impedisce al modello di elaborare o registrare dati sensibili. Protezione dell'output: se esiste il rischio che Gemini possa generare o rivelare inavvertitamente informazioni sensibili (ad es. se riepiloga documenti di origine contenenti PII), l'output del modello può essere analizzato dall'API DLP prima di essere inviato all'utente. Filtraggio robusto per volgarità o parole personalizzate. Filtraggio robusto per i dati sensibili data. Aggiunge latenza. Può portare a un blocco eccessivo. Protezione dalla perdita di dati per gli agenti che hanno accesso a dati sensibili.
Gemini come filtro Puoi utilizzare Gemini per filtrare prompt e risposte per il tuo agente o la tua app. Ciò comporta l'esecuzione di una seconda chiamata a un modello Gemini veloce ed economico (come Gemini Flash o Flash Lite) per valutare se l'input di un utente o di uno strumento o l'output del modello Gemini principale è sicuro. Al modello di filtro vengono fornite istruzioni per decidere se i contenuti sono sicuri o non sicuri in base alle policy definite, tra cui sicurezza dei contenuti, sicurezza del brand e disallineamento degli agenti. Questo offre una protezione robusta e altamente personalizzabile contro le violazioni della sicurezza dei contenuti, i problemi di sicurezza del brand, la deriva del modello e le allucinazioni e può analizzare testo, immagini, video e audio per una comprensione olistica. Molto robusto e personalizzabile per la sicurezza dei contenuti/del brand, la deriva, le allucinazioni; comprensione multimodale. Costo e latenza aggiuntivi. Possibilità di falsi negativi estremamente rari. Fornisce un livello di sicurezza personalizzato per applicazioni o agenti rivolti agli utenti
Approccio multilivello: filtri configurabili + istruzioni di sistema + DLP + Gemini come filtro Molto robusto e personalizzabile per la sicurezza dei contenuti/del brand, la deriva, le allucinazioni; comprensione multimodale Costo e latenza aggiuntivi. Fornisce un livello di sicurezza robusto per applicazioni o agenti rivolti agli utenti, soprattutto quando è previsto un uso ostile e dannoso
Credenziali dei contenuti C2PA Per i modelli supportati, Gemini Enterprise Agent Platform aggiunge automaticamente le Content Credentials firmate crittograficamente alle immagini generate, indicando che sono generate con l'AI e fornendo una cronologia verificabile della loro origine in base allo standard C2PA. Per saperne di più, consulta Credenziali dei contenuti. Trasparenza sull'origine dei contenuti; aiuta gli utenti a identificare le immagini generate con l'AI. L'utilizzo di strumenti non conformi può compromettere l'autenticità dei file; non garantisce l'affidabilità dell'origine dei contenuti multimediali. Casi d'uso di generazione di contenuti multimediali, in cui la trasparenza sull'origine e sulla cronologia del file è importante per la fiducia degli utenti.

Valutazione continua della sicurezza

La valutazione continua della sicurezza è fondamentale per i sistemi di AI, poiché il panorama dell'AI e i metodi di uso improprio sono in continua evoluzione. Le valutazioni regolari aiutano a identificare le vulnerabilità, valutare l'efficacia della mitigazione, adattarsi all'evoluzione dei rischi, garantire l'allineamento con le policy e i valori, creare fiducia e mantenere la conformità. A questo scopo contribuiscono vari tipi di valutazione, tra cui valutazioni di sviluppo, valutazioni di garanzia, red teaming, valutazioni esterne e test di benchmark. L'ambito della valutazione deve coprire la sicurezza dei contenuti, la sicurezza del brand, la pertinenza, il bias e l'equità, la veridicità e la robustezza agli attacchi ostili. Strumenti come il servizio di valutazione della Gen AI di Gemini Enterprise Agent Platform possono aiutare in questi sforzi, sottolineando che i miglioramenti iterativi basati sui risultati della valutazione sono essenziali per lo sviluppo dell'AI responsabile.