Für generative KI-Modelle wie Gemini sind robuste Sicherheitsmaßnahmen erforderlich, um Risiken wie die Generierung schädlicher Inhalte, das Durchsickern sensibler Informationen oder Missbrauch zu minimieren. Google Cloud's Gemini Enterprise Agent Platform bietet eine Reihe von Tools und Praktiken zur Implementierung umfassender Sicherheitsmaßnahmen für Ihre Gemini-Modelle.
Mögliche Sicherheitsrisiken und Strategien zur Risikominimierung
Bei der Bereitstellung von Gemini-Modellen ist es wichtig, verschiedene potenzielle Risiken zu erkennen und zu minimieren. Wenn Sie diese Risiken proaktiv angehen, können Sie Sicherheitsmaßnahmen effektiver implementieren. Ein mehrstufiger Sicherheitsansatz ist entscheidend, da er Folgendes minimieren oder verhindern kann:
- Inhaltsrisiken:Dazu gehören schädliche Inhalte, vulgäre Sprache und Sexualisierung sowie drastische und blutrünstige Gewaltdarstellungen.
- Risiken für die Markensicherheit:Generierte Inhalte stimmen möglicherweise nicht mit dem Ton oder den Werten Ihrer Marke überein, sie können Konkurrenten oder unangemessene Produkte bewerben oder Inhalte generieren, die zu Reputationsschäden führen können.
- Risiken in Bezug auf die Übereinstimmung:Generierte Inhalte sind möglicherweise irrelevant oder ungenau.
- Risiken in Bezug auf Sicherheit und Datenschutz:Generierte Inhalte können sensible Trainingsdaten oder Prompts durchsickern lassen. Böswillige Nutzer können versuchen, das Modell dazu zu zwingen, Sicherheitsprotokolle zu umgehen oder sich auf unbeabsichtigte Weise zu verhalten.
Unsere bereitgestellten Modelle bieten verschiedene Funktionen, um diese potenziellen Probleme zu beheben:
- Das Standardmodell und die nicht konfigurierbaren Filter bieten ein allgemeines Sicherheitsnetz.
- Systemanweisungen geben dem Modell direkte Anweisungen zum bevorzugten Verhalten und zu Themen, die vermieden werden sollten.
- Inhaltsfilter ermöglichen Ihnen, bestimmte Schwellenwerte für häufige Arten von schädlichen Inhalten festzulegen.
- Gemini als Filter bietet einen erweiterten, anpassbaren Kontrollpunkt für komplexe oder differenzierte Sicherheits bedenken, die von den vorherigen Ebenen möglicherweise nicht erfasst werden oder eine kontextbezogenere Bewertung erfordern.
- Model Armor bietet Schutz auf Unternehmensniveau vor Prompt Injection und Jailbreaking, schädlichen Inhalten, dem Durchsickern sensibler Daten sowie vor Malware und unsicheren Websites.
- DLP befasst sich speziell mit dem kritischen Risiko des Durchsickerns sensibler Daten, falls das Modell Zugriff auf sensible Daten hat. Außerdem können Sie benutzerdefinierte Sperrlisten erstellen.
- Content Credentials fügen Bildern, die mit dem Gemini 3 Pro Image-Modell generiert wurden, kryptografisch signierte C2PA-Metadaten hinzu. Diese geben an, dass die Bilder mit KI generiert wurden, und bieten eine überprüfbare Historie ihrer Herkunft.
Verfügbare Sicherheitstools in der Gemini Enterprise Agent Platform für Gemini
Die Gemini Enterprise Agent Platform bietet verschiedene Tools zum Verwalten der Sicherheit Ihrer Gemini-Modelle. Wenn Sie wissen, wie die einzelnen Tools funktionieren, welche Überlegungen dabei eine Rolle spielen und für welche Anwendungsfälle sie sich am besten eignen, können Sie eine maßgeschneiderte Sicherheitslösung entwickeln.
| Ansatz | Funktionsweise | Schutz | Risiken | Geeignet für |
|---|---|---|---|---|
| Standardeinstellungen: Gemini + nicht konfigurierbare Filter | Gemini-Modelle werden von Natur aus mit Blick auf Sicherheit und Fairness entwickelt, auch wenn sie mit böswilligen Prompts konfrontiert werden. Google hat in umfassende Sicherheits bewertungen investiert, einschließlich Bewertungen in Bezug auf Verzerrungen und Toxizität. Die Standardeinstellungen umfassen eine unabhängige Schutzebene, die die Generierung von Inhalten im Zusammenhang mit Darstellungen des sexuellen Missbrauchs von Kindern oder urheberrechtlich geschützten Inhalten (Rezitation) verhindern soll. | Basisschutz vor Darstellungen des sexuellen Missbrauchs von Kindern und Urheberrechtsverletzungen (Rezitation) | Die Standardsicherheit von Gemini erfüllt möglicherweise nicht die Anforderungen Ihrer Organisation. Das Modell kann halluzinieren oder Anweisungen nicht befolgen. Motivierte Angreifer können möglicherweise trotzdem Jailbreaks und Prompt Injection durchführen. | Workflows, bei denen keine böswilligen Eingaben erwartet werden |
| Konfigurierbare Filter |
Die vordefinierten Inhaltsfilter von Gemini bieten zusätzlichen Schutz vor
verschiedenen Kategorien schädlicher Inhalte, z. B. sexuellen, hasserfüllten, belästigenden oder
gefährlichen Inhalten. Sie können für jede Kategorie von schädlichen Inhalten Blockierungsschwellenwerte konfigurieren
(z.B. BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH), basierend auf der Wahrscheinlichkeit und/oder dem Schweregrad der schädlichen
Inhalte. Diese Filter sind unabhängig vom Modell und daher robust gegen
Jailbreaks.
|
Robust gegen Verstöße für vordefinierte Kategorien, anpassbare Sensibilität | Keine detaillierte Anpassung über die Schwellenwerteinstellungen für vordefinierte Kategorien hinaus möglich. Kann gelegentlich gutartige Inhalte blockieren (falsch positive Ergebnisse) oder einige schädliche Inhalte übersehen (falsch negative Ergebnisse). Nur für die Antwortfilterung verfügbar, nicht für die Prompt filterung. | Bietet ein grundlegendes Maß an Sicherheit für nutzerorientierte Anwendungen oder Agenten. Wenn Sie die Inhalts- und Markensicherheit gewährleisten möchten, sollten Inhaltsfilter mit Systemanweisungen kombiniert werden. |
| Systemanweisungen | Sie können dem Modell über Systemanweisungen oder Präambeln Anweisungen zu Ihren Richtlinien für Marken- und Inhaltsicherheit geben. Sie können dem Modell beispielsweise mitteilen, dass es keine Fragen zu politischen Themen beantworten soll oder dass es sich an bestimmte Richtlinien für den Markenton halten soll. Systemanweisungen steuern das Verhalten des Modells direkt. | Anpassbar für Inhalts-/Markensicherheit, kann sehr effektiv sein. | Das Modell kann halluzinieren oder Anweisungen nicht befolgen. Motivierte Angreifer können möglicherweise trotzdem Jailbreaks und Prompt Injection durchführen. | Anwendungen oder Agenten, die bestimmte Markenrichtlinien oder differenzierte Inhaltsrichtlinien einhalten müssen. Wenn Sie die Inhalts- und Markensicherheit gewährleisten möchten, sollten System anweisungen mit Inhaltsfiltern kombiniert werden. |
| Model Armor | Model Armor ist ein Google Cloud Dienst, der die Sicherheit Ihrer KI-Anwendungen verbessern soll. Dabei werden LLM-Prompts und ‑Antworten proaktiv geprüft, um vor verschiedenen Risiken zu schützen und Best Practices für eine verantwortungsbewusste Anwendung von KI zu gewährleisten. Unabhängig davon, ob Sie KI in Google Cloud oder bei anderen Cloud-Anbietern bereitstellen, kann Model Armor Ihnen helfen, böswillige Eingaben zu verhindern, die Inhaltsicherheit zu überprüfen, sensible Daten zu schützen, die Compliance einzuhalten und Ihre KI-Sicherheitsrichtlinien konsistent in allen Ihren KI Anwendungen durchzusetzen. | Filterung von Prompt Injection und Jailbreaking, Inhaltsfilter, Schutz sensibler Daten sowie Malware-Erkennung und sicheres Surfen. | Kosten und Latenz. | Kostenpflichtiges Angebot für Kunden mit Unternehmensanforderungen. |
| DLP für benutzerdefinierte Sperrlisten und Schutz sensibler Daten | Die DLP API kann Text prüfen, um sensible Informationen anhand einer Vielzahl vordefinierter und benutzerdefinierter InfoType-Detektoren zu erkennen und zu klassifizieren. Nach der Erkennung können De-Identifikationstechniken wie das Entfernen, Maskieren oder Tokenisieren angewendet werden. Die DLP API kann auch verwendet werden, um Keywords zu blockieren. Eingabeschutz: Bevor Sie Nutzerprompts oder ‑daten an Gemini senden, können Sie den Text über die DLP API senden, um sensible Informationen zu entfernen oder zu maskieren. So wird verhindert, dass sensible Daten vom Modell verarbeitet oder protokolliert werden. Ausgabeschutz: Wenn das Risiko besteht, dass Gemini versehentlich sensible Informationen generiert oder preisgibt (z.B. wenn das Modell Quelldokumente zusammenfasst, die personenidentifizierbare Informationen enthalten), kann die Ausgabe des Modells von der DLP API gescannt werden, bevor sie an den Nutzer gesendet wird. | Robuste Filterung für Obszönitäten oder benutzerdefinierte Wörter. Robuste Filterung für sensible Daten. | Erhöht die Latenz. Kann zu einer Überblockierung führen. | Schutz vor Datenverlust für Agenten, die Zugriff auf sensible Daten haben. |
| Gemini als Filter | Sie können Gemini verwenden, um Prompts und Antworten für Ihren Agenten oder Ihre App zu filtern. Dazu ist ein zweiter Aufruf eines schnellen und kostengünstigen Gemini-Modells (z. B. Gemini Flash oder Flash Lite) erforderlich, um zu bewerten, ob die Eingabe eines Nutzers oder Tools oder die Ausgabe Ihres primären Gemini-Modells sicher ist. Das Filtermodell erhält Anweisungen, um zu entscheiden, ob die Inhalte sicher sind oder nicht. Dabei werden Ihre definierten Richtlinien berücksichtigt, einschließlich Inhalts- und Markensicherheit sowie Abweichungen des Agenten. Dies bietet einen robusten und hochgradig anpassbaren Schutz vor Verstößen gegen die Inhalts- und Markensicherheit, Modellabweichungen und Halluzinationen und kann Texte, Bilder, Videos und Audioinhalte analysiert werden, um ein umfassendes Verständnis zu erhalten. | Sehr robust und anpassbar für Inhalts-/Markensicherheit, Abweichungen, Halluzinationen; multimodales Verständnis. | Zusätzliche Kosten und Latenz. Extrem selten falsch negative Ergebnisse möglich. | Bietet ein benutzerdefiniertes Maß an Sicherheit für nutzerorientierte Anwendungen oder Agenten. |
| Mehrstufiger Ansatz: konfigurierbare Filter + Systemanweisungen + DLP + Gemini als Filter | Sehr robust und anpassbar für Inhalts-/Markensicherheit, Abweichungen, Halluzinationen; multimodales Verständnis | Zusätzliche Kosten und Latenz. | Bietet ein robustes Maß an Sicherheit für nutzerorientierte Anwendungen oder Agenten, insbesondere bei erwarteter böswilliger Nutzung | |
| C2PA Content Credentials | Bei unterstützten Modellen fügt die Gemini Enterprise Agent Platform generierten Bildern automatisch kryptografisch signierte Content Credentials hinzu. Diese geben an, dass die Bilder mit KI generiert wurden, und bieten eine überprüfbare Historie ihrer Herkunft gemäß dem C2PA Standard. Weitere Informationen finden Sie unter Content Credentials. | Transparenz über die Herkunft von Inhalten; hilft Nutzern, KI-generierte Bilder zu erkennen. | Die Verwendung nicht konformer Tools kann die Authentizität von Dateien beeinträchtigen; garantiert nicht die Vertrauenswürdigkeit der Medienquelle. | Anwendungsfälle für die Mediengenerierung, bei denen Transparenz über die Herkunft und Historie der Datei für das Vertrauen der Nutzer wichtig ist. |
Kontinuierliche Sicherheitsbewertung
Eine kontinuierliche Sicherheitsbewertung ist für KI-Systeme entscheidend, da sich die KI-Landschaft und die Methoden des Missbrauchs ständig weiterentwickeln. Regelmäßige Bewertungen helfen, Sicherheitslücken zu erkennen, die Wirksamkeit von Maßnahmen zur Risikominimierung zu bewerten, sich an sich entwickelnde Risiken anzupassen, die Übereinstimmung mit Richtlinien und Werten sicherzustellen, Vertrauen aufzubauen und die Compliance einzuhalten. Dazu tragen verschiedene Arten von Bewertungen bei, darunter Entwicklungsbewertungen, Zusicherungsbewertungen, Red Teaming, externe Bewertungen und Benchmark-Tests. Der Umfang der Bewertung sollte die Inhalts- und Markensicherheit, Relevanz, Verzerrungen und Fairness, Wahrhaftigkeit und Robustheit gegenüber böswilligen Angriffen umfassen. Tools wie der Gen AI-Bewertungsdienst der Gemini Enterprise Agent Platform können dabei helfen. Es ist wichtig, dass iterative Verbesserungen auf der Grundlage der Bewertungsergebnisse für eine verantwortungsbewusste Anwendung von KI unerlässlich sind.