Sicherheit in Vertex AI

Für generative KI-Modelle wie Gemini sind robuste Sicherheitsmaßnahmen erforderlich, um Risiken wie das Generieren schädlicher Inhalte, das Weitergeben vertraulicher Informationen oder den Missbrauch zu minimieren. Google CloudDie Vertex AI-Plattform bietet eine Reihe von Tools und Verfahren, um umfassende Sicherheitsmaßnahmen für Ihre Gemini-Modelle zu implementieren.

Potenzielle Sicherheitsrisiken und Strategien zur Risikominderung

Beim Bereitstellen von Gemini-Modellen ist es wichtig, verschiedene potenzielle Risiken zu identifizieren und zu minimieren. Ein proaktiver Ansatz zur Analyse dieser Risiken ermöglicht eine effektivere Umsetzung von Sicherheitsmaßnahmen. Ein mehrstufiger Sicherheitsansatz ist entscheidend, da er Folgendes verhindern oder abmildern kann:

  • Inhaltsrisiken:Dazu gehören schädliche Inhalte, vulgäre Sprache und Sexualisierung sowie Gewalt und blutrünstige Darstellungen.
  • Risiken für die Markensicherheit:Generierte Inhalte entsprechen möglicherweise nicht dem Stil oder den Werten Ihrer Marke, enthalten Empfehlungen für Mitbewerber oder unangemessene Produkte oder können zu Reputationsschäden führen.
  • Risiken im Zusammenhang mit der Ausrichtung:Generierte Inhalte können irrelevant oder ungenau sein.
  • Sicherheits- und Datenschutzrisiken:Bei generierten Inhalten können sensible Trainingsdaten oder Prompts offengelegt werden. Außerdem können böswillige Nutzer versuchen, das Modell dazu zu zwingen, Sicherheitsprotokolle zu umgehen oder sich auf unerwünschte Weise zu verhalten.

Unsere bereitgestellten Modelle bieten verschiedene Funktionen, um diese potenziellen Probleme zu beheben:

  • Das Standardmodell und die nicht konfigurierbaren Filter bieten ein allgemeines Sicherheitsnetz.
  • Systemanweisungen geben dem Modell direkte Hinweise zum bevorzugten Verhalten und zu Themen, die vermieden werden sollen.
  • Mit Inhaltsfiltern können Sie bestimmte Grenzwerte für häufige Arten von Schäden festlegen.
  • Gemini als Filter bietet einen fortschrittlichen, anpassbaren Checkpoint für komplexe oder differenzierte Sicherheitsbedenken, die von den vorherigen Ebenen möglicherweise nicht erkannt werden oder eine kontextbezogene Bewertung erfordern.
  • DLP befasst sich speziell mit dem kritischen Risiko des Verlusts sensibler Daten, falls das Modell Zugriff auf sensible Daten hat. Außerdem können Sie benutzerdefinierte Blockierlisten erstellen.
  • Mit Content Credentials werden kryptografisch signierte C2PA-Metadaten zu Bildern hinzugefügt, die mit dem Gemini 3 Pro-Bildmodell generiert wurden. So wird angegeben, dass sie KI-generiert sind, und ein überprüfbarer Herkunftsverlauf bereitgestellt.

Verfügbare Sicherheitstools in Vertex AI für Gemini

Vertex AI bietet mehrere Tools zum Verwalten der Sicherheit Ihrer Gemini-Modelle. Wenn Sie wissen, wie die einzelnen Funktionen funktionieren, welche Aspekte zu berücksichtigen sind und welche Anwendungsfälle sich am besten eignen, können Sie eine maßgeschneiderte Sicherheitslösung entwickeln.

Ansatz Funktionsweise Schutz bereitgestellt Risiken Geeignet für
Standardeinstellungen: Gemini + nicht konfigurierbare Filter Gemini-Modelle sind von Natur aus auf Sicherheit und Fairness ausgelegt, auch wenn sie mit schädlichen Prompts konfrontiert werden. Google hat in umfassende Sicherheitsbewertungen investiert, unter anderem in Bezug auf Bias und Toxizität. Die Standardeinstellungen umfassen eine unabhängige Schutzebene, die die Generierung von Inhalten im Zusammenhang mit Darstellungen des sexuellen Missbrauchs von Kindern oder urheberrechtlich geschützten Inhalten (Rezitation) verhindern soll. Basisschutz vor Darstellungen des sexuellen Missbrauchs von Kindern und Urheberrechtsverletzungen (Rezitation) Die Standardeinstellungen für die Sicherheit von Gemini entsprechen möglicherweise nicht den Anforderungen Ihrer Organisation. Das Modell kann halluzinieren oder Anweisungen nicht befolgen. Motivierte Angreifer können trotzdem Jailbreaks und Prompt Injection durchführen. Workflows, bei denen keine schädlichen Eingaben erwartet werden
Konfigurierbare Filter Die integrierten Inhaltsfilter von Gemini bieten zusätzlichen Schutz vor verschiedenen Kategorien schädlicher Inhalte wie sexuelle, hasserfüllte, belästigende oder gefährliche Inhalte. Sie können Grenzwerte für die Blockierung für jede Kategorie schädlichen Inhalts konfigurieren, z.B. BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH) basierend auf der Wahrscheinlichkeit und/oder Schwere der schädlichen Inhalte. Sie sind eine unabhängige Ebene des Modells und daher robust gegenüber Jailbreaks. Robust gegenüber Verstößen bei vordefinierten Kategorien, anpassbare Sensibilität Es gibt keine detaillierten Anpassungsmöglichkeiten über die Schwellenwerteinstellungen für vordefinierte Kategorien hinaus. Gelegentlich werden möglicherweise harmlose Inhalte blockiert (falsch positive Ergebnisse) oder schädliche Inhalte nicht erkannt (falsch negative Ergebnisse). Nur für die Antwortfilterung verfügbar, nicht für die Promptfilterung. Ein grundlegendes Sicherheitsniveau für nutzerorientierte Anwendungen oder Agents bieten. Wenn Sie Inhalte und Markensicherheit gewährleisten möchten, sollten Sie Inhaltsfilter mit Systemanweisungen kombinieren.
Systemanweisungen Sie können dem Modell Ihre Richtlinien für Marken- und Inhaltssicherheit über Systemanweisungen oder Präambeln mitteilen. Sie können dem Modell beispielsweise mitteilen, dass es keine Fragen zu politischen Themen beantworten soll oder dass es sich an bestimmte Richtlinien für Markenstimme und ‑ton halten soll. Systemanweisungen steuern das Verhalten des Modells direkt. Lässt sich an die Inhalts- und Markensicherheit anpassen und kann sehr effektiv sein. Das Modell kann halluzinieren oder Anweisungen nicht befolgen. Motivierte Angreifer können trotzdem Jailbreaks und Prompt Injection durchführen. Anwendungen oder Agents, die bestimmte Markenrichtlinien oder differenzierte Inhaltsrichtlinien einhalten müssen. Wenn Sie Inhalte und Markensicherheit gewährleisten möchten, sollten Systemanweisungen mit Inhaltsfiltern kombiniert werden.
DLP für benutzerdefinierte Blockierlisten und Schutz sensibler Daten Mit der DLP API kann Text untersucht werden, um sensible Informationen anhand einer Vielzahl vordefinierter und benutzerdefinierter infoType-Detektoren zu identifizieren und zu klassifizieren. Nach der Identifizierung können De-Identifikationstechniken wie Entfernen, Maskieren oder Tokenisieren angewendet werden. Die DLP API kann auch verwendet werden, um Keywords zu blockieren. Eingabeschutz: Bevor Sie Nutzer-Prompts oder Daten an Gemini senden, können Sie den Text über die DLP API weiterleiten, um vertrauliche Informationen zu entfernen oder zu maskieren. So wird verhindert, dass sensible Daten vom Modell verarbeitet oder protokolliert werden. Ausgabeschutz: Wenn das Risiko besteht, dass Gemini versehentlich vertrauliche Informationen generiert oder offenlegt (z.B. wenn das Modell Quelldokumente zusammenfasst, die personenidentifizierbare Informationen enthalten), kann die Ausgabe des Modells vor dem Senden an den Nutzer von der DLP API gescannt werden. Robuste Filterung nach anstößigen oder benutzerdefinierten Wörtern. Robustes Filtern sensibler Daten. Erhöht die Latenz. Kann zu einer Überblockierung führen. Schutz vor Datenverlust für Kundenservicemitarbeiter, die Zugriff auf sensible Daten haben.
Gemini als Filter Sie können Gemini verwenden, um Prompts und Antworten für Ihren Agent oder Ihre App zu filtern. Dazu ist ein zweiter Aufruf eines schnellen und kostengünstigen Gemini-Modells (z. B. Gemini Flash oder Flash Lite) erforderlich, um zu prüfen, ob die Eingabe eines Nutzers oder Tools oder die Ausgabe Ihres primären Gemini-Modells sicher ist. Das Filtermodell erhält Anweisungen, um anhand Ihrer definierten Richtlinien, einschließlich Inhaltsschutz, Markensicherheit und Abweichung des Agents, zu entscheiden, ob die Inhalte sicher oder unsicher sind. Diese Lösung bietet einen robusten und hochgradig anpassbaren Schutz vor Verstößen gegen die Inhaltsrichtlinien, Problemen mit der Markensicherheit, Modelldrift und Halluzinationen. Sie kann Text, Bilder, Videos und Audioinhalte analysieren, um ein ganzheitliches Verständnis zu ermöglichen. Sehr robust und anpassbar für Inhalts-/Markensicherheit, Drift und Halluzinationen; multimodales Verständnis. Zusätzliche Kosten und Latenz. Es besteht die Möglichkeit extrem seltener falsch negativer Ergebnisse. Benutzerdefinierte Sicherheitsstufe für nutzerorientierte Anwendungen oder Agents bereitstellen
Mehrschichtiger Ansatz: konfigurierbare Filter + Systemanweisungen + DLP + Gemini als Filter Sehr robust und anpassbar für Inhalts-/Markensicherheit, Drift und Halluzinationen; multimodales Verständnis Zusätzliche Kosten und Latenz. Ein hohes Maß an Sicherheit für nutzerorientierte Anwendungen oder Agents bieten, insbesondere wenn mit böswilliger Nutzung zu rechnen ist
C2PA-Urhebernachweise Bei unterstützten Modellen fügt Vertex AI automatisch kryptografisch signierte Content Credentials zu generierten Bildern hinzu. Diese geben an, dass die Bilder KI-generiert sind, und bieten einen überprüfbaren Herkunftsverlauf gemäß dem C2PA-Standard. Weitere Informationen finden Sie unter Content Credentials. Transparenz in Bezug auf die Herkunft von Inhalten, damit Nutzer KI-generierte Bilder erkennen können. Die Verwendung nicht konformer Tools kann die Authentizität von Dateien beeinträchtigen. Sie garantiert nicht die Vertrauenswürdigkeit der Medienquelle. Anwendungsfälle für die Mediengenerierung, bei denen Transparenz über den Ursprung und die Historie der Datei wichtig für das Vertrauen der Nutzer ist.

Kontinuierliche Sicherheitsbewertung

Die kontinuierliche Sicherheitsbewertung ist für KI-Systeme von entscheidender Bedeutung, da sich die KI-Landschaft und die Methoden für den Missbrauch ständig weiterentwickeln. Regelmäßige Bewertungen helfen, Sicherheitslücken zu identifizieren, die Wirksamkeit von Maßnahmen zur Risikominderung zu bewerten, sich an sich entwickelnde Risiken anzupassen, die Einhaltung von Richtlinien und Werten sicherzustellen, Vertrauen aufzubauen und die Compliance aufrechtzuerhalten. Dazu tragen verschiedene Arten von Bewertungen bei, darunter Entwicklungsbewertungen, Qualitätssicherungsbewertungen, Red Teaming, externe Bewertungen und Benchmark-Tests. Der Umfang der Bewertung sollte die Inhalts- und Markensicherheit, Relevanz, Bias und Fairness, Wahrhaftigkeit und Robustheit gegenüber feindseligen Angriffen umfassen. Tools wie der Bewertungsdienst für generative KI von Vertex AI können dabei helfen. Es ist wichtig, iterative Verbesserungen auf Grundlage der Bewertungsergebnisse vorzunehmen, um eine verantwortungsbewusste KI-Entwicklung zu gewährleisten.