Model Armor ist ein Google Cloud Dienst, der die Sicherheit Ihrer KI-Anwendungen verbessern soll. Das System überwacht und kontrolliert sowohl die Prompts als auch die Antworten des LLM, um Sie vor verschiedenen Risiken zu schützen und für verantwortungsbewusste Anwendung von KI zu sorgen. Unabhängig davon, ob Sie KI in Google Cloud oder bei anderen Cloud-Anbietern bereitstellen, kann Model Armor Ihnen helfen, schädliche Eingaben zu verhindern, die Sicherheit von Inhalten zu überprüfen, sensible Daten zu schützen, die Compliance aufrechtzuerhalten und Ihre KI-Sicherheitsrichtlinien in Ihren KI-Anwendungen einheitlich durchzusetzen.
Architektur
Dieses Architekturdiagramm zeigt eine Anwendung, die Model Armor verwendet, um ein LLM und einen Nutzer zu schützen. Im Folgenden wird der Datenfluss beschrieben:
- Ein Nutzer gibt einen Prompt in die Anwendung ein.
- Model Armor untersucht den eingehenden Prompt auf potenziell sensible Inhalte.
- Der Prompt (oder der bereinigte Prompt) wird an das LLM gesendet.
- Das LLM generiert eine Antwort.
- Model Armor prüft die generierte Antwort auf potenziell sensible Inhalte.
- Die Antwort (oder bereinigte Antwort) wird an den Nutzer gesendet. Model Armor sendet eine detaillierte Beschreibung der ausgelösten und nicht ausgelösten Filter in der Antwort.
Model Armor filtert sowohl Eingaben (Prompts) als auch Ausgaben (Antworten), um zu verhindern, dass das LLM mit schädlichen oder sensiblen Inhalten in Kontakt kommt oder solche Inhalte generiert.
Anwendungsfälle
Model Armor hat mehrere Anwendungsfälle, darunter:
Sicherheit
- Das Risiko, dass sensibles geistiges Eigentum und personenidentifizierbare Informationen in LLM-Prompts oder -Antworten preisgegeben werden, wird minimiert.
- Schutz vor Prompt-Injection- und Jailbreak-Angriffen, um zu verhindern, dass böswillige Akteure KI-Systeme manipulieren, damit sie unbeabsichtigte Aktionen ausführen.
- Text in PDFs auf sensible oder schädliche Inhalte prüfen
Sicherheit und verantwortungsbewusste KI
- Verhindern Sie, dass Ihr Chatbot Lösungen von Mitbewerbern empfiehlt, um die Markenintegrität und Kundentreue zu wahren.
- Filtern Sie Social-Media-Beiträge, die von KI-Anwendungen generiert wurden und schädliche Inhalte wie gefährliche oder hasserfüllte Inhalte enthalten.
Model Armor-Vorlagen
Mit Model Armor-Vorlagen können Sie konfigurieren, wie Model Armor Prompts und Antworten prüft. Sie funktionieren als Sätze von benutzerdefinierten Filtern und Schwellenwerten für verschiedene Sicherheitskonfidenzniveaus und ermöglichen die Kontrolle darüber, welche Inhalte gekennzeichnet werden.
Die Grenzwerte stellen Konfidenzniveaus dar – wie sicher Model Armor ist, dass der Prompt oder die Antwort anstößige Inhalte enthält. Sie können beispielsweise eine Vorlage erstellen, die Prompts mit einem HIGH-Schwellenwert nach hasserfüllten Inhalten filtert. Das bedeutet, dass Model Armor mit hoher Wahrscheinlichkeit meldet, dass der Prompt hasserfüllte Inhalte enthält. Ein LOW_AND_ABOVE-Grenzwert gibt ein beliebiges Konfidenzniveau (LOW, MEDIUM und HIGH) für die Behauptung an.
Weitere Informationen finden Sie unter Model Armor-Vorlagen.
Konfidenzniveaus von Model Armor
Sie können Konfidenzniveaus für Sicherheitskategorien für die verantwortungsbewusste Anwendung von KI (sexuell explizit, gefährlich, Belästigung und Hassrede), die Erkennung von Prompt Injection und Jailbreaking sowie den Schutz sensibler Daten (einschließlich Aktualität) festlegen.
Bei Konfidenzniveaus, die granulare Grenzwerte unterstützen, werden sie von Model Armor so interpretiert:
- Hoch: Gibt an, ob die Nachricht mit hoher Wahrscheinlichkeit Inhalte enthält,
- Mittel und höher: Es wird ermittelt, ob die Nachricht Inhalte mit mittlerer oder hoher Wahrscheinlichkeit enthält.
- Niedrig und höher: Es wird ermittelt, ob die Nachricht Inhalte mit niedriger, mittlerer oder hoher Wahrscheinlichkeit enthält.
Model Armor-Filter
Model Armor bietet eine Vielzahl von Filtern, mit denen Sie sichere KI-Modelle bereitstellen können. Die folgenden Filterkategorien sind verfügbar.
Sicherheitsfilter für verantwortungsbewusste Anwendung von KI
Sie können Prompts und Antworten auf den angegebenen Konfidenzniveaus für die folgenden Kategorien filtern:
| Kategorie | Definition |
|---|---|
| Hassrede | Negative oder schädliche Kommentare, die auf Identität und/oder geschützte Merkmale ausgerichtet sind |
| Belästigung | Böswillige, einschüchternde, mobbende oder missbräuchliche Kommentare, die auf andere Personen ausgerichtet sind |
| sexuell explizit | Enthält Verweise auf sexuelle Handlungen oder andere vulgäre Inhalte |
| Gefährliche Inhalte | Fördert oder ermöglicht den Zugriff auf schädliche Waren, Dienste und Aktivitäten |
| Darstellungen des sexuellen Missbrauchs von Kindern | Die App enthält Verweise auf Darstellungen des sexuellen Missbrauchs von Kindern. Dieser Filter wird standardmäßig angewendet und kann nicht deaktiviert werden. |
Erkennung von Prompt Injection und Jailbreaking
Prompt Injection ist eine Sicherheitslücke, bei der Angreifer spezielle Befehle in die Texteingabe (den Prompt) einbetten, um ein KI-Modell zu täuschen. Dies kann dazu führen, dass die KI ihre üblichen Anweisungen ignoriert, vertrauliche Informationen preisgibt oder Aktionen ausführt, für die sie nicht vorgesehen war. Jailbreaking im Kontext von LLMs bezieht sich auf das Umgehen der Sicherheits- und Ethikprotokolle, die in das Modell integriert sind. Dadurch kann das LLM Antworten generieren, die es ursprünglich vermeiden sollte, z. B. schädliche, unethische und gefährliche Inhalte.
Wenn die Erkennung von Prompt Injections und Jailbreaking aktiviert ist, scannt Model Armor Prompts und Antworten auf schädliche Inhalte. Wenn sie erkannt werden, blockiert Model Armor den Prompt oder die Antwort.
Sensitive Data Protection
Sensitive Data Protection ist ein Google Cloud -Dienst, mit dem Sie sensible Daten ermitteln, klassifizieren und de-identifizieren können. Mit Sensitive Data Protection können sensible Elemente, Kontext und Dokumente identifiziert werden, um das Risiko von Datenlecks in und aus KI-Arbeitslasten zu verringern. Sie können Sensitive Data Protection direkt in Model Armor verwenden, um sensible Elemente zu transformieren, zu tokenisieren und zu entfernen, während nicht sensibler Kontext beibehalten wird. Model Armor kann vorhandene Prüfvorlagen akzeptieren, die als Blaupausen dienen, um das Scannen und Identifizieren vertraulicher Daten zu optimieren, die für Ihr Unternehmen und Ihre Compliance-Anforderungen spezifisch sind. So wird die Konsistenz und Interoperabilität mit anderen Arbeitslasten sichergestellt, die Sensitive Data Protection verwenden.
Model Armor bietet zwei Modi für die Konfiguration von Sensitive Data Protection:
Einfache Konfiguration: In diesem Modus konfigurieren Sie Sensitive Data Protection, indem Sie die Typen sensibler Daten angeben, nach denen gesucht werden soll. Dieser Modus unterstützt die folgenden Kategorien:
- Kreditkartennummer
- Sozialversicherungsnummer (SSN) in den USA
- Finanzkontonummer
- US-Steuernummer für Einzelpersonen (ITIN)
- Google Cloud Anmeldedaten
- Google Cloud API-Schlüssel
Die einfache Konfiguration unterstützt nur Inspektionsvorgänge und nicht die Verwendung von Vorlagen für den Schutz sensibler Daten. Weitere Informationen finden Sie unter Grundlegende Konfiguration des Schutzes sensibler Daten.
Erweiterte Konfiguration: Dieser Modus bietet mehr Flexibilität und Anpassungsmöglichkeiten durch Vorlagen für den Schutz sensibler Daten. Sensitive Data Protection-Vorlagen sind vordefinierte Konfigurationen, mit denen Sie detailliertere Erkennungsregeln und De-Identifikationstechniken festlegen können. Die erweiterte Konfiguration unterstützt sowohl Prüf- als auch Anonymisierungsvorgänge.
Konfidenzniveaus für Sensitive Data Protection funktionieren anders als Konfidenzniveaus für andere Filter. Weitere Informationen zu den Vertrauenswürdigkeitsstufen für Sensitive Data Protection finden Sie unter Wahrscheinlichkeit von Übereinstimmungen beim Schutz sensibler Daten. Weitere Informationen zum Schutz sensibler Daten im Allgemeinen finden Sie in der Übersicht zum Schutz sensibler Daten.
Erkennung schädlicher URLs
Schädliche URLs sind oft so getarnt, dass sie legitim aussehen. Dadurch sind sie ein wirksames Werkzeug für Phishing-Angriffe, die Verbreitung von Malware und andere Onlinebedrohungen. Wenn ein PDF beispielsweise eine eingebettete schädliche URL enthält, kann es verwendet werden, um alle nachgelagerten Systeme zu gefährden, die LLM-Ausgaben verarbeiten.
Wenn die Erkennung schädlicher URLs aktiviert ist, scannt Model Armor URLs, um festzustellen, ob sie schädlich sind. So können Sie Maßnahmen ergreifen und verhindern, dass bösartige URLs zurückgegeben werden.
Erzwingungstyp definieren
Die Durchsetzung legt fest, was passiert, nachdem ein Verstoß erkannt wurde. Sie legen den Erzwingungstyp fest, um zu konfigurieren, wie Model Armor mit erkannten Inhalten umgeht. Model Armor bietet die folgenden Erzwingungstypen:
- Nur prüfen: Model Armor prüft Anfragen, die gegen die konfigurierten Einstellungen verstoßen, blockiert sie aber nicht.
- Überprüfen und blockieren: Model Armor blockiert Anfragen, die gegen die konfigurierten Einstellungen verstoßen.
Weitere Informationen finden Sie unter Erzwingungstyp für Vorlagen definieren und Erzwingungstyp für Untergrenzeneinstellungen definieren.
Damit Sie Inspect only effektiv nutzen und wertvolle Informationen erhalten können, müssen Sie Cloud Logging aktivieren. Ohne aktiviertes Cloud Logging liefert Inspect only keine nützlichen Informationen.
Über Cloud Logging auf Ihre Logs zugreifen Filtern Sie nach dem Dienstnamen
modelarmor.googleapis.com. Suchen Sie nach Einträgen, die sich auf die Vorgänge beziehen, die Sie in Ihrer Vorlage aktiviert haben. Weitere Informationen finden Sie unter Logs mit dem Log-Explorer aufrufen.
Mindesteinstellungen für Model Armor
Model Armor-Vorlagen bieten zwar Flexibilität für einzelne Anwendungen, Organisationen müssen jedoch oft ein Mindestschutzniveau für alle ihre KI-Anwendungen festlegen. Dazu verwenden Sie die Mindesteinstellungen für Model Armor. Sie definieren Mindestanforderungen für alle Vorlagen, die auf Projektebene in der Google Cloud Ressourcenhierarchie erstellt werden.
Weitere Informationen finden Sie unter Mindesteinstellungen für Model Armor.
Sprachunterstützung
Model Armor-Filter unterstützen das Bereinigen von Prompts und Antworten in mehreren Sprachen.
- Der Filter für den Schutz sensibler Daten unterstützt Englisch und andere Sprachen, je nachdem, welche infoTypes Sie ausgewählt haben.
Die Filter für verantwortungsbewusste KI und Erkennung von Prompt Injection und Jailbreaking werden in den folgenden Sprachen getestet:
- Chinesisch (Mandarin)
- Englisch
- Französisch
- Deutsch
- Italienisch
- Japanisch
- Koreanisch
- Portugiesisch
- Spanisch
Diese Filter können in vielen anderen Sprachen funktionieren, die Qualität der Ergebnisse kann jedoch variieren. Sprachcodes finden Sie unter Unterstützte Sprachen.
Es gibt zwei Möglichkeiten, die Erkennung mehrerer Sprachen zu aktivieren:
Bei jeder Anfrage aktivieren: Für eine detaillierte Steuerung aktivieren Sie die mehrsprachige Erkennung bei jeder Anfrage, wenn Sie einen Nutzer-Prompt bereinigen und eine Modellantwort bereinigen.
Einmalig aktivieren: Wenn Sie eine einfachere Einrichtung bevorzugen, können Sie die mehrsprachige Erkennung einmalig auf Vorlagenebene von Model Armor über die REST API aktivieren. Weitere Informationen finden Sie unter Model Armor-Vorlage erstellen.
Dokumentprüfung
Text in Dokumenten kann schädliche und sensible Inhalte enthalten. Model Armor kann die folgenden Dokumenttypen auf Sicherheitsrisiken, Prompt Injection- und Jailbreaking-Versuche, sensible Daten und schädliche URLs prüfen:
- PDF-Dateien
- CSV
- Textdateien: TXT
- Microsoft Word-Dokumente: DOCX, DOCM, DOTX, DOTM
- Microsoft PowerPoint-Folien: PPTX, PPTM, POTX, POTM, POT
- Microsoft Excel-Tabellen: XLSX, XLSM, XLTX, XLTM
Preise
Model Armor kann als integrierter Bestandteil von Security Command Center oder als eigenständiger Dienst erworben werden. Preisinformationen finden Sie unter Security Command Center-Preise.
Tokens
Modelle für generative KI zerlegen Text und andere Daten in Einheiten, die als Tokens bezeichnet werden. Bei Model Armor wird die Gesamtzahl der Tokens in KI-Prompts und ‑Antworten für die Preisgestaltung verwendet. Model Armor begrenzt die Anzahl der Tokens, die in jedem Prompt und jeder Antwort verarbeitet werden. Informationen zu Token-Limits finden Sie unter Token-Limits.
Nächste Schritte
- Weitere Informationen zu Model Armor-Vorlagen
- Weitere Informationen zu den Mindesteinstellungen für Model Armor
- Weitere Informationen zu Model Armor-Endpunkten
- Prompts und Antworten bereinigen.
- Audit-Logging für Model Armor
- Probleme mit Model Armor beheben