Für generative KI-Modelle wie Gemini sind robuste Sicherheitsmaßnahmen erforderlich, um Risiken wie die Generierung schädlicher Inhalte, das Durchsickern sensibler Informationen oder den Missbrauch zu minimieren.Die Vertex AI-Plattform von Google bietet eine Reihe von Tools und Praktiken, um umfassende Sicherheitsmaßnahmen für Ihre Gemini-Modelle zu implementieren. Google Cloud
Mögliche Sicherheitsrisiken und Strategien zur Risikominderung
Beim Bereitstellen von Gemini-Modellen ist es wichtig, verschiedene potenzielle Risiken zu erkennen und zu minimieren. Ein proaktiver Ansatz zum Verständnis dieser Risiken ermöglicht eine effektivere Implementierung von Sicherheitsmaßnahmen. Ein mehrstufiger Sicherheitsansatz ist entscheidend, da er Folgendes minimieren oder verhindern kann:
- Inhaltsrisiken:Dazu gehören schädliche Inhalte, vulgäre Sprache und Sexualisierung sowie drastische und blutrünstige Gewaltdarstellungen.
- Risiken für die Markensicherheit:Generierte Inhalte stimmen möglicherweise nicht mit dem Ton oder den Werten Ihrer Marke überein, sie können Konkurrenten oder unangemessene Produkte empfehlen oder Inhalte generieren, die zu Reputationsschäden führen können.
- Risiken in Bezug auf die Übereinstimmung:Generierte Inhalte sind möglicherweise irrelevant oder ungenau.
- Risiken für Sicherheit und Datenschutz:Generierte Inhalte können sensible Trainingsdaten oder Prompts durchsickern lassen. Böswillige Nutzer können versuchen, das Modell dazu zu zwingen, Sicherheitsprotokolle zu überschreiben oder sich auf unbeabsichtigte Weise zu verhalten.
Unsere bereitgestellten Modelle bieten verschiedene Funktionen, um diese potenziellen Probleme zu beheben:
- Das Standardmodell und die nicht konfigurierbaren Filter bieten ein allgemeines Sicherheitsnetz.
- Systemanweisungen geben dem Modell direkte Anweisungen zum bevorzugten Verhalten und zu Themen, die vermieden werden sollten.
- Inhaltsfilter ermöglichen Ihnen, bestimmte Schwellenwerte für häufige Arten von Schäden festzulegen.
- Model Armor bietet Schutz auf Unternehmensniveau vor Prompt Injection und Jailbreaks, schädlichen Inhalten, dem Schutz sensibler Daten sowie der Erkennung von Malware und sicherem Browsen.
- Gemini als Filter bietet einen erweiterten, anpassbaren Kontrollpunkt für komplexe oder differenzierte Sicherheits bedenken, die von den vorherigen Ebenen möglicherweise nicht erkannt werden oder eine kontextbezogenere Bewertung erfordern.
- DLP befasst sich speziell mit dem kritischen Risiko des Durchsickerns sensibler Daten, falls das Modell Zugriff auf sensible Daten hat. Außerdem können Sie benutzerdefinierte Sperrlisten erstellen.
- Content Credentials fügen Bildern, die mit dem Gemini 3 Pro Image-Modell generiert wurden, kryptografisch signierte C2PA-Metadaten hinzu. Diese geben an, dass die Bilder mit KI generiert wurden, und bieten einen überprüfbaren Verlauf ihrer Herkunft.
Verfügbare Sicherheitstools in Vertex AI für Gemini
Vertex AI bietet verschiedene Tools zum Verwalten der Sicherheit Ihrer Gemini-Modelle. Wenn Sie wissen, wie die einzelnen Tools funktionieren, welche Überlegungen zu berücksichtigen sind und welche idealen Anwendungsfälle es gibt, können Sie eine maßgeschneiderte Sicherheitslösung entwickeln.
| Ansatz | Funktionsweise | Bereitgestellter Schutz | Risiken | Geeignet für |
|---|---|---|---|---|
| Standardeinstellungen: Gemini + nicht konfigurierbare Filter | Gemini-Modelle sind von Natur aus auf Sicherheit und Fairness ausgelegt, auch bei feindseligen Prompts. Google hat in umfassende Sicherheits bewertungen investiert, einschließlich Bewertungen in Bezug auf Verzerrungen und Toxizität. Die Standardeinstellungen umfassen eine unabhängige Schutzebene, die die Generierung von Inhalten im Zusammenhang mit Darstellungen des sexuellen Missbrauchs von Kindern oder urheberrechtlich geschützten Inhalten (Rezitation) verhindern soll. | Basisschutz vor Darstellungen des sexuellen Missbrauchs von Kindern und Urheberrechtsverletzungen (Rezitation) | Die Standardsicherheit von Gemini erfüllt möglicherweise nicht die Anforderungen Ihrer Organisation. Das Modell kann halluzinieren oder Anweisungen nicht befolgen. Motivierte Angreifer können möglicherweise trotzdem Jailbreaks und Prompt Injection durchführen. | Workflows, bei denen keine böswilligen Eingaben erwartet werden |
| Konfigurierbare Filter |
Die vordefinierten Inhaltsfilter von Gemini bieten zusätzlichen Schutz vor verschiedenen Kategorien schädlicher Inhalte, z. B. sexuelle, hasserfüllte, belästigende oder gefährliche Inhalte. Sie können Blockierungsschwellenwerte für jede Kategorie von Schäden konfigurieren
(z.B. BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH), basierend auf der Wahrscheinlichkeit und/oder dem Schweregrad der schädlichen
Inhalte. Diese sind eine unabhängige Ebene vom Modell und daher robust gegen
Jailbreaks.
|
Robust gegen Verstöße für vordefinierte Kategorien, anpassbare Empfindlichkeit | Keine detaillierte Anpassung über die Schwellenwerteinstellungen für vordefinierte Kategorien hinaus. Blockiert gelegentlich gutartige Inhalte (falsch positive Ergebnisse) oder erkennt einige schädliche Inhalte nicht (falsch negative Ergebnisse). Nur für die Antwortfilterung verfügbar, nicht für die Prompt filterung. | Bietet ein grundlegendes Maß an Sicherheit für nutzerorientierte Anwendungen oder Agents. Wenn Sie die Inhalts- und Markensicherheit gewährleisten möchten, sollten Inhaltsfilter mit Systemanweisungen kombiniert werden. |
| Systemanweisungen | Sie können das Modell über Systemanweisungen oder Präambeln über Ihre Richtlinien zur Marken- und Inhaltsicherheit informieren. Sie können dem Modell beispielsweise mitteilen, dass es keine Fragen zu politischen Themen beantworten soll oder dass es sich an bestimmte Richtlinien für den Markenton halten soll. Systemanweisungen steuern das Verhalten des Modells direkt. | Anpassbar für Inhalts-/Markensicherheit, kann sehr effektiv sein. | Das Modell kann halluzinieren oder Anweisungen nicht befolgen. Motivierte Angreifer können möglicherweise trotzdem Jailbreaks und Prompt Injection durchführen. | Anwendungen oder Agents, die bestimmte Markenrichtlinien oder differenzierte Inhaltsrichtlinien einhalten müssen. Wenn Sie die Inhalts- und Markensicherheit gewährleisten möchten, sollten System anweisungen mit Inhaltsfiltern kombiniert werden. |
| Model Armor | Model Armor ist ein Google Cloud Dienst, der die Sicherheit Ihrer KI-Anwendungen verbessern soll. Dazu werden LLM-Prompts und ‑Antworten proaktiv geprüft, um vor verschiedenen Risiken zu schützen und Best Practices für eine verantwortungsbewusste Anwendung von KI zu gewährleisten. Unabhängig davon, ob Sie KI in Google Cloud oder bei anderen Cloud-Anbietern bereitstellen, kann Model Armor Ihnen helfen, böswillige Eingaben zu verhindern, die Inhaltsicherheit zu überprüfen, sensible Daten zu schützen, die Compliance einzuhalten und Ihre KI-Sicherheitsrichtlinien konsistent in allen Ihren KI Anwendungen durchzusetzen. | Filterung von Prompt Injection und Jailbreaks, Inhaltsfilter, Schutz sensibler Daten sowie Erkennung von Malware und sicheres Browsen. | Kosten und Latenz. | Kostenpflichtiges Angebot für Kunden mit Unternehmensanforderungen. |
| DLP für benutzerdefinierte Sperrlisten und Schutz sensibler Daten | Die DLP API kann Text prüfen, um sensible Informationen anhand einer Vielzahl vordefinierter und benutzerdefinierter InfoType-Detektoren zu identifizieren und zu klassifizieren. Nach der Identifizierung können De-Identifikationstechniken wie Entfernen, Maskieren oder Tokenisierung angewendet werden. Die DLP API kann auch verwendet werden, um Keywords zu blockieren. Eingabeschutz: Bevor Sie Nutzerprompts oder ‑daten an Gemini senden, können Sie den Text über die DLP API übergeben, um sensible Informationen zu unkenntlich zu machen oder zu maskieren. So wird verhindert, dass sensible Daten vom Modell verarbeitet oder protokolliert werden. Ausgabeschutz: Wenn das Risiko besteht, dass Gemini versehentlich sensible Informationen generiert oder preisgibt (z.B. wenn es Quelldokumente zusammenfasst, die personenbezogene Daten enthalten), kann die Ausgabe des Modells von der DLP API gescannt werden, bevor sie an den Nutzer gesendet wird. | Robuste Filterung für Obszönitäten oder benutzerdefinierte Wörter. Robuste Filterung für sensible Daten. | Erhöht die Latenz. Kann zu Überblockierung führen. | Schutz vor Datenverlust für Agents, die Zugriff auf sensible Daten haben. |
| Gemini als Filter | Sie können Gemini verwenden, um Prompts und Antworten für Ihren Agent oder Ihre App zu filtern. Dazu ist ein zweiter Aufruf eines schnellen und kostengünstigen Gemini-Modells (z. B. Gemini Flash oder Flash Lite) erforderlich, um zu bewerten, ob die Eingabe eines Nutzers oder Tools oder die Ausgabe Ihres primären Gemini-Modells sicher ist. Das Filtermodell erhält Anweisungen, um anhand Ihrer definierten Richtlinien zu entscheiden, ob die Inhalte sicher sind oder nicht. Dazu gehören Inhalts-, Markensicherheit und Agent-Fehlausrichtung. Dies bietet robusten und hochgradig anpassbaren Schutz vor Verstößen gegen die Inhalts- und Markensicherheit, Problemen mit der Modellabweichung und Halluzinationen. Außerdem können Texte, Bilder, Videos und Audioinhalte analysiert werden, um ein umfassendes Verständnis zu erhalten. | Sehr robust und anpassbar für Inhalts-/Markensicherheit, Abweichung, Halluzinationen; multimodales Verständnis. | Zusätzliche Kosten und Latenz. Extrem selten falsch negative Ergebnisse möglich. | Bietet ein benutzerdefiniertes Maß an Sicherheit für nutzerorientierte Anwendungen oder Agents. |
| Mehrstufiger Ansatz: konfigurierbare Filter + Systemanweisungen + DLP + Gemini als Filter | Sehr robust und anpassbar für Inhalts-/Markensicherheit, Abweichung, Halluzinationen; multimodales Verständnis | Zusätzliche Kosten und Latenz. | Bietet ein robustes Maß an Sicherheit für nutzerorientierte Anwendungen oder Agents, insbesondere bei erwarteter feindseliger und böswilliger Nutzung. | |
| C2PA Content Credentials | Bei unterstützten Modellen fügt Vertex AI automatisch kryptografisch signierte Content Credentials zu generierten Bildern hinzu. Diese geben an, dass die Bilder mit KI generiert wurden, und bieten einen überprüfbaren Verlauf ihrer Herkunft gemäß dem C2PA-Standard. Weitere Informationen finden Sie unter Content Credentials. | Transparenz über die Herkunft von Inhalten; hilft Nutzern, KI-generierte Bilder zu erkennen. | Die Verwendung nicht konformer Tools kann die Authentizität von Dateien beeinträchtigen; garantiert nicht die Vertrauenswürdigkeit der Medienquelle. | Anwendungsfälle für die Mediengenerierung, bei denen Transparenz über die Herkunft und den Verlauf der Datei für das Vertrauen der Nutzer wichtig ist. |
Kontinuierliche Sicherheitsbewertung
Die kontinuierliche Sicherheitsbewertung ist für KI-Systeme von entscheidender Bedeutung, da sich die KI-Landschaft und die Methoden des Missbrauchs ständig weiterentwickeln. Regelmäßige Bewertungen helfen, Sicherheitslücken zu erkennen, die Wirksamkeit von Maßnahmen zur Risikominderung zu bewerten, sich an sich entwickelnde Risiken anzupassen, die Übereinstimmung mit Richtlinien und Werten sicherzustellen, Vertrauen aufzubauen und die Compliance einzuhalten. Dazu tragen verschiedene Arten von Bewertungen bei, darunter Entwicklungsbewertungen, Zusicherungsbewertungen, Red Teaming, externe Bewertungen und Benchmark-Tests. Der Umfang der Bewertung sollte die Inhalts- und Markensicherheit, Relevanz, Verzerrungen und Fairness, Wahrhaftigkeit und Robustheit gegenüber feindseligen Angriffen umfassen. Tools wie der Gen AI-Bewertungsdienst von Vertex AI können dabei helfen. Es ist wichtig, dass iterative Verbesserungen auf der Grundlage der Bewertungsergebnisse für die verantwortungsbewusste Anwendung von KI unerlässlich sind.