Panoramica di Model Armor

Model Armor è un servizio Google Cloud progettato per migliorare la sicurezza delle tue applicazioni AI. Funziona controllando in modo proattivo i prompt e le risposte degli LLM, proteggendo da vari rischi e garantendo pratiche di AI responsabile. Che tu stia implementando l'AI in Google Cloud o in altri provider cloud, Model Armor può aiutarti a prevenire input dannosi, verificare la sicurezza dei contenuti, proteggere i dati sensibili, mantenere la conformità e applicare in modo coerente le tue norme di sicurezza dell'AI in tutte le tue applicazioni di AI.

Architettura

Diagramma dell'architettura che mostra il flusso di dati in Model Armor

Questo diagramma dell'architettura mostra un'applicazione che utilizza Model Armor per proteggere un LLM e un utente. I passaggi seguenti spiegano il flusso di dati:

  1. Un utente fornisce un prompt all'applicazione.
  2. Model Armor ispeziona il prompt in entrata per individuare potenziali contenuti sensibili.
  3. Il prompt (o il prompt pulito) viene inviato al LLM.
  4. L'LLM genera una risposta.
  5. Model Armor esamina la risposta generata per individuare contenuti potenzialmente sensibili.
  6. La risposta (o la risposta pulita) viene inviata all'utente. Model Armor invia una descrizione dettagliata dei filtri attivati e non attivati nella risposta.

Model Armor filtra sia l'input (prompt) che l'output (risposte) per impedire all'LLM di essere esposto a contenuti dannosi o sensibili o di generarli.

Casi d'uso

Model Armor ha diversi casi d'uso, tra cui:

  • Sicurezza

    • Mitiga il rischio di divulgazione di proprietà intellettuale (IP) sensibile e informazioni che consentono l'identificazione personale (PII) nei prompt o nelle risposte LLM.
    • Proteggi da prompt injection e attacchi di jailbreaking, impedendo agli autori di attacchi dannosi di manipolare i sistemi di AI per eseguire azioni indesiderate.
    • Analizza il testo nei PDF per individuare contenuti sensibili o dannosi.
  • IA sicura e responsabile

    • Impedisci al chatbot di consigliare soluzioni della concorrenza, mantenendo l'integrità del brand e la fedeltà dei clienti.
    • Filtra i post sui social media generati da applicazioni di AI che contengono messaggi dannosi, come contenuti pericolosi o che incitano all'odio.

Modelli Model Armor

I template Model Armor ti consentono di configurare il modo in cui Model Armor filtra prompt e risposte. Funzionano come insiemi di filtri e soglie personalizzati per diversi livelli di confidenza di sicurezza, consentendo di controllare quali contenuti vengono segnalati.

Le soglie rappresentano i livelli di confidenza, ovvero la sicurezza di Model Armor che il prompt o la risposta includa contenuti offensivi. Ad esempio, puoi creare un modello che filtri i prompt per contenuti che incitano all'odio con una soglia HIGH, il che significa che Model Armor segnala un'alta confidenza che il prompt contenga contenuti che incitano all'odio. Una soglia LOW_AND_ABOVE indica qualsiasi livello di confidenza (LOW, MEDIUM e HIGH) nell'effettuare l'affermazione.

Per saperne di più, consulta Template Model Armor.

Livelli di affidabilità di Model Armor

Puoi impostare i livelli di confidenza per le categorie di sicurezza dell'AI responsabile (contenuti sessualmente espliciti, pericolosi, di molestie e incitamento all'odio), il rilevamento di prompt injection e jailbreak e la protezione dei dati sensibili (inclusa l'attualità).

Per i livelli di confidenza che supportano soglie granulari, Model Armor li interpreta nel seguente modo:

  • Alto: identifica se il messaggio ha contenuti con un'alta probabilità.
  • Media e superiore: identifica se il messaggio contiene contenuti con una probabilità media o alta.
  • Bassa e superiore: identifica se il messaggio contiene contenuti con una probabilità bassa, media o alta.

Filtri Model Armor

Model Armor offre una serie di filtri per aiutarti a fornire modelli di AI sicuri. Sono disponibili le seguenti categorie di filtri.

Filtro di sicurezza dell'AI responsabile

Puoi esaminare i prompt e le risposte ai livelli di confidenza specificati per le seguenti categorie:

Categoria Definizione
Incitamento all'odio Commenti negativi o dannosi rivolti all'identità e/o agli attributi protetti.
Molestie Commenti minacciosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo.
Contenuti sessualmente espliciti Contiene riferimenti ad atti sessuali o ad altri contenuti osceni.
Contenuti pericolosi Promuovono o consentono l'accesso a beni, servizi e attività dannosi.
materiale pedopornografico Contiene riferimenti a materiale pedopornografico. Questo filtro viene applicato per impostazione predefinita e non può essere disattivato.

Rilevamento di prompt injection e jailbreaking

Il prompt injection è una vulnerabilità della sicurezza in cui i malintenzionati creano comandi speciali all'interno dell'input del testo (il prompt) per ingannare un modello di AI. L'AI potrebbe ignorare le istruzioni abituali, rivelare informazioni sensibili o eseguire azioni per le quali non è stata progettata. Il jailbreaking nel contesto dei LLM si riferisce all'atto di bypassare i protocolli di sicurezza e le linee guida etiche integrati nel modello. In questo modo, l'LLM può generare risposte che in origine era progettato per evitare, come contenuti dannosi, non etici e pericolosi.

Quando il rilevamento di prompt injection e jailbreak è attivato, Model Armor esegue la scansione di prompt e risposte alla ricerca di contenuti dannosi. Se rilevato, Model Armor blocca il prompt o la risposta.

Sensitive Data Protection

La protezione dei dati sensibili è un servizio Google Cloud che ti aiuta a scoprire, classificare e anonimizzare i dati sensibili. Sensitive Data Protection può identificare elementi, contesto e documenti sensibili per aiutarti a ridurre il rischio di perdita di dati in entrata e in uscita dai workload AI. Puoi utilizzare Sensitive Data Protection direttamente in Model Armor per trasformare, tokenizzare e oscurare gli elementi sensibili mantenendo il contesto non sensibile. Model Armor può accettare modelli di ispezione esistenti, che fungono da progetti per semplificare il processo di scansione e identificazione dei dati sensibili specifici per le esigenze della tua attività e di conformità. Ciò garantisce coerenza e interoperabilità tra gli altri workload che utilizzano Sensitive Data Protection.

Model Armor offre due modalità per la configurazione di Sensitive Data Protection:

  • Configurazione di base: in questa modalità, configuri Sensitive Data Protection specificando i tipi di dati sensibili da analizzare. Questa modalità supporta le seguenti categorie:

    • Numero della carta di credito
    • Numero di previdenza sociale (SSN) statunitense
    • Numero di conto finanziario
    • Numero di identificazione del contribuente individuale (ITIN) statunitense
    • Google Cloud credenziali
    • Google Cloud Chiave API

    La configurazione di base supporta solo le operazioni di ispezione e non supporta l'utilizzo dei modelli di Sensitive Data Protection. Per saperne di più, consulta la sezione Configurazione di base di Sensitive Data Protection.

  • Configurazione avanzata: questa modalità offre maggiore flessibilità e personalizzazione tramite i modelli Sensitive Data Protection. I modelli Sensitive Data Protection sono configurazioni predefinite che ti consentono di specificare regole di rilevamento e tecniche di anonimizzazione più granulari. La configurazione avanzata supporta le operazioni di ispezione e deidentificazione.

I livelli di confidenza per Sensitive Data Protection funzionano in modo diverso rispetto a quelli per altri filtri. Per ulteriori informazioni sui livelli di confidenza per Sensitive Data Protection, consulta Probabilità di corrispondenza di Sensitive Data Protection. Per ulteriori informazioni su Sensitive Data Protection in generale, consulta la panoramica di Sensitive Data Protection.

Rilevamento di URL dannosi

Gli URL dannosi sono spesso camuffati per sembrare legittimi, il che li rende uno strumento potente per attacchi di phishing, distribuzione di malware e altre minacce online. Ad esempio, se un PDF contiene un URL dannoso incorporato, può essere utilizzato per compromettere qualsiasi sistema downstream che elabora gli output LLM.

Quando il rilevamento di URL dannosi è attivato, Model Armor esegue la scansione degli URL per identificare se sono dannosi. In questo modo puoi intervenire e impedire la restituzione di URL dannosi.

Definisci il tipo di applicazione

L'applicazione definisce cosa succede dopo il rilevamento di una violazione. Per configurare la modalità di gestione dei rilevamenti da parte di Model Armor, imposta il tipo di applicazione. Model Armor offre i seguenti tipi di applicazione:

  • Solo ispezione: Model Armor ispeziona le richieste che violano le impostazioni configurate, ma non le blocca.
  • Ispeziona e blocca: Model Armor blocca le richieste che violano le impostazioni configurate.

Per saperne di più, vedi Definire il tipo di applicazione per i modelli e Definire il tipo di applicazione per le impostazioni di base.

Per utilizzare in modo efficace Inspect only e ottenere insight preziosi, attiva Cloud Logging. Se Cloud Logging non è abilitato, Inspect only non fornirà informazioni utili.

Accedi ai log tramite Cloud Logging. Filtra in base al nome del servizio modelarmor.googleapis.com. Cerca le voci relative alle operazioni che hai attivato nel modello. Per saperne di più, vedi Visualizza i log utilizzando Esplora log.

Impostazioni di base di Model Armor

Sebbene i modelli Model Armor offrano flessibilità per le singole applicazioni, le organizzazioni spesso devono stabilire un livello di base di protezione per tutte le loro applicazioni di AI. Utilizzi le impostazioni del livello di Model Armor per stabilire questa base di riferimento. Definiscono i requisiti minimi per tutti i modelli creati a livello di progetto nella gerarchia delle risorse Google Cloud .

Per ulteriori informazioni, vedi Impostazioni di base di Model Armor.

Supporto dei linguaggi

I filtri di Model Armor supportano la sanificazione di prompt e risposte in più lingue.

Esistono due modi per attivare il rilevamento multilingue:

Controllo dei documenti

Il testo nei documenti può includere contenuti dannosi e sensibili. Model Armor può analizzare i seguenti tipi di documenti per sicurezza, tentativi di prompt injection e jailbreak, dati sensibili e URL dannosi:

  • PDF
  • CSV
  • File di testo: TXT
  • Documenti Microsoft Word: DOCX, DOCM, DOTX, DOTM
  • Diapositive Microsoft PowerPoint: PPTX, PPTM, POTX, POTM, POT
  • Fogli Microsoft Excel: XLSX, XLSM, XLTX, XLTM

Prezzi

Model Armor può essere acquistato come parte integrante di Security Command Center o come servizio autonomo. Per informazioni sui prezzi, consulta Prezzi di Security Command Center.

Token

I modelli di AI generativa suddividono il testo e altri dati in unità chiamate token. Model Armor utilizza il numero totale di token nei prompt e nelle risposte dell'AI ai fini della determinazione del prezzo. Model Armor limita il numero di token elaborati in ogni prompt e risposta. Per i limiti dei token, consulta Limiti dei token.

Passaggi successivi