Model Armor ist ein Google Cloud Dienst, der die Sicherheit Ihrer KI-Anwendungen verbessern soll. Das System überprüft proaktiv LLM-Prompts und ‑Antworten, schützt vor verschiedenen Risiken und sorgt für verantwortungsbewusste KI-Praktiken. Unabhängig davon, ob Sie KI in Google Cloud oder bei anderen Cloud-Anbietern bereitstellen, kann Model Armor Sie dabei unterstützen, schädliche Eingaben zu verhindern, die Sicherheit von Inhalten zu überprüfen, sensible Daten zu schützen, die Compliance aufrechtzuerhalten und Ihre KI-Sicherheitsrichtlinien in Ihren KI-Anwendungen einheitlich durchzusetzen.
Architektur
Dieses Architekturdiagramm zeigt eine Anwendung, die Model Armor verwendet, um ein LLM und einen Nutzer zu schützen. Im Folgenden wird der Datenfluss beschrieben:
- Ein Nutzer gibt einen Prompt in die Anwendung ein.
- Model Armor untersucht den eingehenden Prompt auf potenziell sensible Inhalte.
- Der Prompt (oder der bereinigte Prompt) wird an das LLM gesendet.
- Das LLM generiert eine Antwort.
- Model Armor prüft die generierte Antwort auf potenziell sensible Inhalte.
- Die Antwort (oder bereinigte Antwort) wird an den Nutzer gesendet. Model Armor sendet eine detaillierte Beschreibung der ausgelösten und nicht ausgelösten Filter in der Antwort.
Model Armor filtert sowohl Eingaben (Prompts) als auch Ausgaben (Antworten), um zu verhindern, dass das LLM mit schädlichen oder sensiblen Inhalten in Berührung kommt oder solche Inhalte generiert.
Anwendungsfälle
Model Armor hat mehrere Anwendungsfälle, darunter:
Sicherheit
- Das Risiko, dass sensibles geistiges Eigentum und personenidentifizierbare Informationen in LLM-Prompts oder -Antworten preisgegeben werden, wird verringert.
- Schutz vor Prompt Injection und Jailbreak-Angriffen, um zu verhindern, dass böswillige Akteure KI-Systeme manipulieren, damit sie unbeabsichtigte Aktionen ausführen.
- Text in PDFs auf sensible oder schädliche Inhalte prüfen
Sicherheit und verantwortungsbewusste KI
- Verhindern Sie, dass Ihr Chatbot Lösungen von Mitbewerbern empfiehlt, um die Markenintegrität und Kundentreue zu wahren.
- Filtern Sie Social-Media-Beiträge, die von KI-Anwendungen generiert wurden und schädliche Inhalte wie gefährliche oder hasserfüllte Inhalte enthalten.
Model Armor-Vorlagen
Mit Model Armor-Vorlagen können Sie konfigurieren, wie Model Armor Prompts und Antworten prüft. Sie funktionieren als Sätze von benutzerdefinierten Filtern und Schwellenwerten für verschiedene Sicherheitskonfidenzniveaus und ermöglichen die Steuerung der Inhalte, die gekennzeichnet werden.
Die Grenzwerte stellen Konfidenzniveaus dar – wie sicher Model Armor ist, dass der Prompt oder die Antwort anstößige Inhalte enthält. Sie können beispielsweise eine Vorlage erstellen, die Prompts mit hasserfüllten Inhalten mit einem HIGH-Schwellenwert filtert. Das bedeutet, dass Model Armor ein hohes Konfidenzniveau meldet, dass der Prompt hasserfüllte Inhalte enthält. Ein LOW_AND_ABOVE-Grenzwert gibt ein beliebiges Konfidenzniveau (LOW, MEDIUM und HIGH) für die Behauptung an.
Weitere Informationen finden Sie unter Model Armor-Vorlagen.
Konfidenzniveaus von Model Armor
Sie können Konfidenzniveaus für die Sicherheitskategorien für die verantwortungsbewusste Anwendung von KI (sexuell explizit, gefährlich, Belästigung und Hassrede), die Erkennung von Prompt Injection und Jailbreaking sowie den Schutz sensibler Daten (einschließlich Aktualität) festlegen.
Bei Konfidenzniveaus, die granulare Grenzwerte unterstützen, werden sie von Model Armor so interpretiert:
- Hoch: Gibt an, ob die Nachricht Inhalte mit hoher Wahrscheinlichkeit enthält.
- Mittel und höher: Es wird ermittelt, ob die Nachricht Inhalte mit mittlerer oder hoher Wahrscheinlichkeit enthält.
- Niedrig und höher: Es wird ermittelt, ob die Nachricht Inhalte mit niedriger, mittlerer oder hoher Wahrscheinlichkeit enthält.
Model Armor-Filter
Model Armor bietet eine Vielzahl von Filtern, mit denen Sie sichere KI-Modelle bereitstellen können. Die folgenden Filterkategorien sind verfügbar.
Sicherheitsfilter für verantwortungsbewusste Anwendung von KI
Sie können Prompts und Antworten auf den angegebenen Konfidenzniveaus für die folgenden Kategorien filtern:
| Kategorie | Definition |
|---|---|
| Hassrede | Negative oder schädliche Kommentare, die auf Identität und/oder geschützte Merkmale ausgerichtet sind |
| Belästigung | Böswillige, einschüchternde, mobbende oder missbräuchliche Kommentare, die auf andere Personen ausgerichtet sind |
| sexuell explizit | Enthält Verweise auf sexuelle Handlungen oder andere vulgäre Inhalte |
| Gefährliche Inhalte | Fördert oder ermöglicht den Zugriff auf schädliche Waren, Dienste und Aktivitäten |
| Darstellungen des sexuellen Missbrauchs von Kindern | Die App enthält Verweise auf Darstellungen des sexuellen Missbrauchs von Kindern. Dieser Filter wird standardmäßig angewendet und kann nicht deaktiviert werden. |
Erkennung von Prompt Injection und Jailbreaking
Prompt Injection ist eine Sicherheitslücke, bei der Angreifer spezielle Befehle in die Texteingabe (den Prompt) einbetten, um ein KI-Modell zu täuschen. Dies kann dazu führen, dass die KI ihre üblichen Anweisungen ignoriert, vertrauliche Informationen preisgibt oder Aktionen ausführt, für die sie nicht vorgesehen war. Jailbreaking im Kontext von LLMs bezieht sich auf das Umgehen der Sicherheits- und ethischen Richtlinien, die in das Modell integriert sind. So kann das LLM Antworten generieren, die es ursprünglich vermeiden sollte, z. B. schädliche, unethische und gefährliche Inhalte.
Wenn die Erkennung von Prompt Injections und Jailbreaking aktiviert ist, scannt Model Armor Prompts und Antworten auf schädliche Inhalte. Wenn sie erkannt werden, blockiert Model Armor den Prompt oder die Antwort.
Sensitive Data Protection
Sensitive Data Protection ist ein Google Cloud -Dienst, mit dem Sie sensible Daten ermitteln, klassifizieren und de-identifizieren können. Mit Sensitive Data Protection können sensible Elemente, Kontext und Dokumente identifiziert werden, um das Risiko von Datenlecks in und aus KI-Arbeitslasten zu verringern. Sie können Sensitive Data Protection direkt in Model Armor verwenden, um sensible Elemente zu transformieren, zu tokenisieren und zu entfernen, während nicht sensibler Kontext beibehalten wird. Model Armor kann vorhandene Prüfvorlagen akzeptieren, die als Blaupausen dienen, um das Scannen und Identifizieren vertraulicher Daten zu optimieren, die für Ihr Unternehmen und Ihre Compliance-Anforderungen spezifisch sind. So wird die Konsistenz und Interoperabilität zwischen anderen Arbeitslasten, die Sensitive Data Protection verwenden, gewährleistet.
Model Armor bietet zwei Modi für die Konfiguration von Sensitive Data Protection:
Einfache Konfiguration: In diesem Modus konfigurieren Sie Sensitive Data Protection, indem Sie die Typen sensibler Daten angeben, nach denen gesucht werden soll. Dieser Modus unterstützt die folgenden Kategorien:
- Kreditkartennummer
- Sozialversicherungsnummer (SSN) der USA
- Finanzkontonummer
- US-Steuernummer für Einzelpersonen (ITIN)
- Google Cloud Anmeldedaten
- Google Cloud API-Schlüssel
Die einfache Konfiguration unterstützt nur Inspektionsvorgänge und nicht die Verwendung von Vorlagen für den Schutz sensibler Daten. Weitere Informationen finden Sie unter Grundeinstellungen für den Schutz sensibler Daten.
Erweiterte Konfiguration: Dieser Modus bietet mehr Flexibilität und Anpassungsmöglichkeiten durch Vorlagen für den Schutz sensibler Daten. Sensitive Data Protection-Vorlagen sind vordefinierte Konfigurationen, mit denen Sie detailliertere Erkennungsregeln und De-Identifikationstechniken festlegen können. Die erweiterte Konfiguration unterstützt sowohl Prüf- als auch Anonymisierungsvorgänge.
Konfidenzniveaus für Sensitive Data Protection funktionieren anders als Konfidenzniveaus für andere Filter. Weitere Informationen zu Vertrauenswürdigkeitsstufen für Sensitive Data Protection finden Sie unter Wahrscheinlichkeit von Übereinstimmungen beim Schutz sensibler Daten. Weitere Informationen zum Schutz sensibler Daten im Allgemeinen finden Sie in der Übersicht zum Schutz sensibler Daten.
Erkennung schädlicher URLs
Schädliche URLs sind oft so getarnt, dass sie legitim aussehen. Dadurch sind sie ein wirksames Werkzeug für Phishing-Angriffe, die Verbreitung von Malware und andere Onlinebedrohungen. Wenn ein PDF beispielsweise eine eingebettete schädliche URL enthält, kann es verwendet werden, um alle nachgelagerten Systeme zu gefährden, die LLM-Ausgaben verarbeiten.
Wenn die Erkennung schädlicher URLs aktiviert ist, scannt Model Armor URLs, um festzustellen, ob sie schädlich sind. So können Sie Maßnahmen ergreifen und verhindern, dass bösartige URLs zurückgegeben werden.
Erzwingungstyp definieren
Die Durchsetzung definiert, was passiert, nachdem ein Verstoß erkannt wurde. Sie legen den Erzwingungstyp fest, um zu konfigurieren, wie Model Armor mit erkannten Bedrohungen umgeht. Model Armor bietet die folgenden Erzwingungstypen:
- Nur prüfen: Model Armor prüft Anfragen, die gegen die konfigurierten Einstellungen verstoßen, blockiert sie aber nicht.
- Überprüfen und blockieren: Model Armor blockiert Anfragen, die gegen die konfigurierten Einstellungen verstoßen.
Weitere Informationen finden Sie unter Erzwingungstyp für Vorlagen definieren und Erzwingungstyp für Untergrenzeneinstellungen definieren.
Damit Sie Inspect only effektiv nutzen und wertvolle Informationen erhalten können, müssen Sie Cloud Logging aktivieren. Ohne aktiviertes Cloud Logging liefert Inspect only keine nützlichen Informationen.
Über Cloud Logging auf Ihre Logs zugreifen Filtern Sie nach dem Dienstnamen
modelarmor.googleapis.com. Suchen Sie nach Einträgen, die sich auf die Vorgänge beziehen, die Sie in Ihrer Vorlage aktiviert haben. Weitere Informationen finden Sie unter Logs mit dem Log-Explorer aufrufen.
Mindesteinstellungen für Model Armor
Model Armor-Vorlagen bieten zwar Flexibilität für einzelne Anwendungen, Organisationen müssen jedoch oft ein Mindestschutzniveau für alle ihre KI-Anwendungen festlegen. Dazu verwenden Sie die Mindesteinstellungen für Model Armor. Sie definieren Mindestanforderungen für alle Vorlagen, die auf Projektebene in der Ressourcenhierarchie Google Cloud erstellt werden.
Weitere Informationen finden Sie unter Mindesteinstellungen für Model Armor.
Sprachunterstützung
Die Filter von Model Armor unterstützen das Bereinigen von Prompts und Antworten in mehreren Sprachen.
- Der Filter für den Schutz sensibler Daten unterstützt Englisch und andere Sprachen, je nachdem, welche infoTypes Sie ausgewählt haben.
Die Filter für verantwortungsbewusste KI und Erkennung von Prompt Injection und Jailbreaking werden in den folgenden Sprachen getestet:
- Chinesisch (Mandarin)
- Englisch
- Französisch
- Deutsch
- Italienisch
- Japanisch
- Koreanisch
- Portugiesisch
- Spanisch
Diese Filter können in vielen anderen Sprachen funktionieren, die Qualität der Ergebnisse kann jedoch variieren. Die Sprachcodes finden Sie unter Unterstützte Sprachen.
Es gibt zwei Möglichkeiten, die Erkennung mehrerer Sprachen zu aktivieren:
Bei jeder Anfrage aktivieren: Für eine detaillierte Steuerung aktivieren Sie die mehrsprachige Erkennung bei jeder Anfrage, wenn Sie einen Nutzer-Prompt bereinigen und eine Modellantwort bereinigen.
Einmalig aktivieren: Wenn Sie eine einfachere Einrichtung bevorzugen, können Sie die mehrsprachige Erkennung einmalig auf Vorlagenebene von Model Armor über die REST API aktivieren. Weitere Informationen finden Sie unter Model Armor-Vorlage erstellen.
Dokumentprüfung
Text in Dokumenten kann schädliche und sensible Inhalte enthalten. Model Armor kann die folgenden Dokumenttypen auf Sicherheitsrisiken, Prompt Injection- und Jailbreaking-Versuche, sensible Daten und schädliche URLs prüfen:
- PDF-Dateien
- CSV
- Textdateien: TXT
- Microsoft Word-Dokumente: DOCX, DOCM, DOTX, DOTM
- Microsoft PowerPoint-Folien: PPTX, PPTM, POTX, POTM, POT
- Microsoft Excel-Tabellen: XLSX, XLSM, XLTX, XLTM
Umgang mit Daten und Datenspeicherung
Bei der Entwicklung von Model Armor wurden die Grundsätze des Datenschutzes und der Datenminimierung berücksichtigt. In diesem Abschnitt wird beschrieben, wie Model Armor Ihre Daten verarbeitet:
- Zustandslose Verarbeitung und Löschung von Inhalten: Model Armor ist ein zustandsloser Dienst, der alle Prompts und Modellantworten vollständig im Arbeitsspeicher verarbeitet. Im normalen Betrieb werden keine Inhalte protokolliert, gespeichert oder dauerhaft aufbewahrt, die analysiert werden. Alle Daten werden sofort verworfen, sobald die Analyse abgeschlossen ist.
- Vom Kunden gesteuerte Protokollierung: Daten im Zusammenhang mit den verarbeiteten Inhalten werden nur über Cloud Logging gespeichert. Wenn Sie Cloud Logging für den Model Armor-Dienst aktivieren, werden Ereignisdetails, die je nach Konfiguration Metadaten oder Snippets der analysierten Inhalte enthalten können, an das von Ihnen angegebene Cloud Logging-Ziel gesendet. Der Umfang der protokollierten Daten und deren Aufbewahrung werden durch Ihre Cloud Logging-Konfiguration bestimmt.
- Sichere Speicherung und Verschlüsselung: Alle von Model Armor verarbeiteten Daten werden durch branchenübliche Verschlüsselung geschützt. Dazu gehören Daten bei der Übertragung mit TLS 1.2 und höher sowie alle Daten, die während der Analyse kurz im Arbeitsspeicher gespeichert werden.
- Regionaler Datenstandort: Die Verarbeitung von Model Armor ist zwar zustandslos, der Dienst unterstützt jedoch strenge Kontrollen für den Datenstandort. So wird sichergestellt, dass die gesamte vorübergehende Verarbeitung ausschließlich innerhalb der von Ihnen definierten geografischen Grenzen erfolgt, z. B.
USoderEU. - Selektive Verarbeitung: Um die betriebliche Effizienz und die regionale Compliance zu gewährleisten, werden in Model Armor nur Daten für aktive Filter übertragen und verarbeitet. Wenn ein bestimmter Filter deaktiviert ist (z. B. aufgrund der regionalen Verfügbarkeit oder der Nutzereinstellungen), werden keine Daten an den zugrunde liegenden Dienst gesendet, der mit diesem Filter verknüpft ist, und auch nicht von diesem Dienst verarbeitet.
- Globale Compliance-Standards: Als Teil des Google Cloud Ökosystems profitiert Model Armor von einer Grundlage strenger Sicherheitsmaßnahmen. Die Infrastruktur wird regelmäßig von unabhängigen Dritten geprüft, um Zertifizierungen wie SOC 1/2/3 und ISO/IEC 27001 aufrechtzuerhalten.
Zusammenfassend lässt sich sagen, dass Model Armor den Inhalt Ihrer KI-Interaktionen nicht speichert, sofern Sie die Plattformprotokollierung nicht explizit konfigurieren und aktivieren. So behalten Sie die Kontrolle über die Datenaufbewahrung.
Preise
Model Armor kann als integrierter Bestandteil von Security Command Center oder als eigenständiger Dienst erworben werden. Preisinformationen finden Sie unter Security Command Center-Preise.
Tokens
Modelle für generative KI zerlegen Text und andere Daten in Einheiten, die als Tokens bezeichnet werden. Bei Model Armor wird die Gesamtzahl der Tokens in KI-Prompts und ‑Antworten für die Preisgestaltung verwendet. Model Armor begrenzt die Anzahl der Tokens, die in jedem Prompt und jeder Antwort verarbeitet werden. Informationen zu Token-Limits finden Sie unter Token-Limits.
Nächste Schritte
- Weitere Informationen zu Model Armor-Vorlagen
- Weitere Informationen zu den Mindesteinstellungen für Model Armor
- Weitere Informationen zu Model Armor-Endpunkten
- Prompts und Antworten bereinigen.
- Weitere Informationen zum Audit-Logging für Model Armor
- Probleme mit Model Armor beheben