Model Armor lässt sich in Google Cloud verschiedene Dienste einbinden, um KI- und Large Language Model-Interaktionen (LLM) zu schützen. Model Armor erkennt und meldet potenzielle Richtlinienverstöße und kann basierend auf Sicherheitsbewertungen aktiv Maßnahmen blockieren.
Model Armor lässt sich in verschiedene Google Cloud Dienste einbinden:
Apigee
Durch die Einbindung können Sie die KI-Schutzfunktionen von Model Armor direkt in der Apigee API-Gateway-Ebene verwenden. Sie konfigurieren bestimmte Model Armor-Richtlinien in Ihren Apigee API-Proxys. Wenn ein API-Aufruf einen Apigee-Proxy mit diesen Richtlinien durchläuft, sendet Apigee die Prompts und Antworten zur Prüfung an den Model Armor-Dienst. Weitere Informationen finden Sie unter In Apigee einbinden.
Gemini Enterprise
Model Armor kann mithilfe von Vorlagen direkt in Gemini Enterprise eingebunden werden. Gemini Enterprise leitet die Interaktionen zwischen Nutzern und Agenten sowie den zugrunde liegenden LLMs über Model Armor weiter. Das bedeutet, dass Prompts von Nutzern oder Agenten und die von den LLMs generierten Antworten von Model Armor geprüft werden, bevor sie dem Nutzer präsentiert werden. Weitere Informationen finden Sie unter In Gemini Enterprise einbinden.
Google- und Google Cloud MCP-Server
Model Armor kann so konfiguriert werden, dass Ihre Daten geschützt und Inhalte gesichert werden, wenn Sie Anfragen an Google Cloud Dienste senden, die MCP-Tools (Model Context Protocol) und ‑Server bereitstellen. Model Armor hilft Ihre KI-Anwendungen mit Agenten zu schützen, indem es MCP-Tool-Aufrufe und ‑Antworten mithilfe von Mindesteinstellungen bereinigt. Dieser Prozess minimiert Risiken wie Prompt Injection und die Offenlegung sensibler Daten. Weitere Informationen finden Sie unter In Google- und MCP-Server einbinden. Google Cloud
GKE und Diensterweiterungen
Model Armor kann über Diensterweiterungen in GKE eingebunden werden. Mit Diensterweiterungen können Sie interne (Google Cloud Dienste) oder externe (nutzerverwaltete) Dienste einbinden, um Traffic zu verarbeiten. Sie können eine Diensterweiterung für Application Load Balancer konfigurieren, einschließlich GKE-Inferenz-Gateways, um den Traffic zu und von einem GKE-Cluster zu filtern. So wird dafür gesorgt, dass alle Interaktionen mit den KI-Modellen durch Model Armor geschützt sind. Weitere Informationen finden Sie unter In GKE einbinden.
Vertex AI
Model Armor kann entweder über
Mindesteinstellungen oder
Vorlagen direkt in Vertex AI eingebunden werden.
Bei dieser Einbindung werden Anfragen und Antworten von Gemini-Modellen geprüft und solche blockiert, die gegen die Mindesteinstellungen verstoßen. Diese Einbindung bietet Prompt- und Antwortschutz in der Gemini API in Vertex AI für die Methode generateContent. Sie müssen Cloud Logging aktivieren, um die Ergebnisse der Bereinigung von Prompts und Antworten zu sehen. Weitere Informationen finden Sie unter
In Vertex AI einbinden.
Hinweis
APIs aktivieren
Sie müssen die Model Armor API aktivieren, bevor Sie Model Armor verwenden können.
Console
Aktivieren Sie die Model Armor API.
Erforderliche Rollen zum Aktivieren von APIs
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (
roles/serviceusage.serviceUsageAdmin), die die Berechtigungserviceusage.services.enableenthält. Informationen zum Zuweisen von Rollen.Wählen Sie das Projekt aus, in dem Sie Model Armor aktivieren möchten.
gcloud
Führen Sie vor Beginn die folgenden Schritte mit der Google Cloud CLI und der Model Armor API aus:
Aktivieren Sie Cloud Shell in der Google Cloud Console.
Unten in der Google Cloud Console wird eine Cloud Shell Sitzung gestartet und eine Eingabeaufforderung angezeigt. Cloud Shell ist eine Shell-Umgebung in der das Google Cloud CLI bereits installiert ist und Werte für Ihr aktuelles Projekt bereits festgelegt sind. Das Initialisieren der Sitzung kann einige Sekunden dauern.
Legen Sie die API-Endpunktüberschreibung mit der gcloud CLI fest.
API-Endpunktüberschreibung mit der gcloud CLI festlegen
Dieser Schritt ist nur erforderlich, wenn Sie die gcloud CLI verwenden, um die Model Armor API zu aktivieren. Sie müssen die API-Endpunktüberschreibung manuell festlegen, damit die gcloud CLI Anfragen korrekt an den Model Armor-Dienst weiterleitet.
Führen Sie den folgenden Befehl aus, um den API-Endpunkt für den Model Armor-Dienst festzulegen.
gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"
Ersetzen Sie LOCATION durch die Region, in der Sie Model Armor verwenden möchten.
Kontingent verwalten
Model Armor verwendet ein Kontingentsystem um eine faire Nutzung zu gewährleisten und die Systemstabilität zu schützen. Das Standardkontingent für die Model Armor API beträgt 1.200 Anfragen pro Minute und Projekt. Sie können einen Wert zwischen 0 und 1.200 Anfragen pro Minute und Projekt festlegen. Informationen zum Anfordern einer Anpassung finden Sie unter Kontingentanpassung anfordern. Wenn Sie mehr als das Standardkontingent benötigen, wenden Sie sich an den Cloud-Kundenservice.
Bei der Einbindung in andere Dienste müssen wichtige Überlegungen zum Model Armor-Kontingent berücksichtigt werden. Das wichtigste Kontingent, mit dem Sie interagieren, ist die Anzahl der API-Anfragen pro Minute und Projekt.
- Standardkontingent für Model Armor:Wenn ein Dienst einen Aufruf an die Model Armor API zur Analyse durchführt (z. B. zum Prüfen von Prompts oder Antworten), wird das Model Armor API-Kontingent Ihres Projekts verwendet.
- Kontingent für die Einbindung von Diensten:Das Model Armor-Kontingent ist von allen Kontingenten getrennt, die mit den einbindenden Diensten verknüpft sind. Sie müssen darauf achten, dass für alle Dienste in Ihrem Anfragepfad ausreichend Kontingent vorhanden ist. Alle Aufrufe der Model Armor API zum Bereinigen von Inhalten für Ihre Anwendung werden auf die Kontingentlimits der Model Armor API angerechnet.
Situationen mit überschrittenem Kontingent erkennen
Sie erreichen die Kontingentlimits von Model Armor, wenn in den Logs Ihrer Anwendung Fehler von Model Armor angezeigt werden, in der Regel HTTP-Fehler 429 RESOURCE_EXHAUSTED, die auf zu viele Anfragen hinweisen.
Kontingentbedarf schätzen
So ermitteln Sie, wie viel Model Armor-Kontingent Sie anfordern müssen:
- Schätzen Sie die maximale Anzahl von Anfragen pro Minute, die Ihre Dienste an Model Armor senden.
- Berücksichtigen Sie, wie oft Model Armor pro Nutzerinteraktion mit Ihrem Dienst aufgerufen wird (z. B. einmal für den Prompt und einmal für die Antwort).
- Berücksichtigen Sie die maximale Anzahl gleichzeitiger Nutzer oder Sitzungen.
- Fordern Sie ein Kontingent mit einem angemessenen Puffer an (z. B. 20–30% über dem erwarteten Höchstwert), um unerwartete Spitzen zu bewältigen.
- Beginnen Sie mit Ihrer besten Schätzung, beobachten Sie die Nutzung nach der Einführung genau und fordern Sie bei Bedarf weitere Anpassungen an.
Wenn Sie beispielsweise 500 Nutzer pro Minute erwarten und bei jeder Nutzerinteraktion Model Armor zweimal aufgerufen wird (Prompt und Antwort), benötigen Sie mindestens 1.000 Anfragen pro Minute. Wenn Sie einen Puffer einplanen, sind 1.200–1.300 Anfragen pro Minute ein guter Ausgangspunkt.
Hinweise
- Achten Sie darauf, dass Sie die Kontingente für andere Dienste im Blick behalten und verwalten. Wenn das Kontingent für andere Dienste erschöpft ist, wirkt sich das auf Ihre Anwendung aus, auch wenn Sie ausreichend Model Armor-Kontingent haben.
- Implementieren Sie clientseitige Wiederholungsversuche mit exponentiellem Backoff in Ihrer Anwendungseinrichtung, um vorübergehende Kontingentprobleme oder andere wiederholbare Fehler zu beheben. Weitere Informationen finden Sie unter Wiederholungsstrategie.
Mit der REST API einbinden
Wenn Sie die REST API für die Einbindung verwenden, fungiert Model Armor nur als Detektor mit Vorlagen. Es erkennt und meldet potenzielle Richtlinienverstöße basierend auf vordefinierten Vorlagen, verhindert sie aber nicht aktiv. Bei der Einbindung in die Model Armor API kann Ihre Anwendung die Ausgabe von Model Armor verwenden, um Aktionen basierend auf den bereitgestellten Sicherheitsbewertungsergebnissen zu blockieren oder zuzulassen. Die Model Armor API gibt Informationen zu potenziellen Bedrohungen oder Richtlinienverstößen im Zusammenhang mit Ihrem API-Traffic zurück, insbesondere bei KI-/LLM-Interaktionen. Ihre Anwendung kann die Model Armor API aufrufen und die in der Antwort enthaltenen Informationen verwenden, um eine Entscheidung zu treffen und Maßnahmen basierend auf Ihrer vordefinierten benutzerdefinierten Logik zu ergreifen.
Optionen für die Einbindung von Model Armor
Model Armor bietet die folgenden Einbindungsoptionen. Jede Option bietet unterschiedliche Funktionen und Möglichkeiten.
| Einbindungsoption | Richtlinienerzwingung/-erkennung | Erkennungen konfigurieren | Nur prüfen | Prüfen und blockieren | Modell- und Cloud-Abdeckung |
|---|---|---|---|---|---|
| Apigee | Inline-Erzwingung | Nur mit Vorlagen | Ja | Ja | Alle Modelle und alle Clouds |
| Gemini Enterprise | Inline-Erzwingung | Nur mit Vorlagen | Ja | Ja | Alle Modelle und alle Clouds |
| Google- und Google Cloud MCP-Server (Vorschau) | Inline-Erzwingung | Nur mit Mindesteinstellungen | Ja | Ja | Google- und Google Cloud MCP-Server |
| Google Kubernetes Engine | Inline-Erzwingung | Nur mit Vorlagen | Ja | Ja | Modelle mit OpenAI-Format auf Google Cloud1 |
| Vertex AI | Inline-Erzwingung | Mit Mindesteinstellungen oder Vorlagen | Ja | Ja | Gemini (nicht streaming) auf Google Cloud |
1 Mehrere beliebte Modelle, darunter Anthropic Claude, Mistral AI und Grok, unterstützen OpenAI-Spezifikationen. Diese Modelle werden in der Regel mit Inferenz-Engines wie vLLM bereitgestellt, die die erforderliche OpenAI-kompatible API-Ebene bieten. vLLM unterstützt eine Vielzahl von Modellen, darunter die Meta Llama-Serie, DeepSeek, Mistral- und Mixtral-Familien und Gemma.
Mit der Vertex AI-Einbindungsoption bietet Model Armor Inline-Erzwingung mithilfe von Mindesteinstellungen oder Vorlagen. Das bedeutet, dass Model Armor Richtlinien aktiv erzwingt, indem es direkt in den Prozess eingreift, ohne dass Änderungen am Anwendungscode erforderlich sind.
Bei der Einbindung in GKE und Gemini Enterprise werden nur Vorlagen für die Inline-Erzwingung von Richtlinien verwendet. Das bedeutet, dass Model Armor Richtlinien direkt erzwingen kann, ohne dass Sie Anwendungscode ändern müssen, sowohl im GKE-Inferenz-Gateway als auch bei Nutzer- oder Agenteninteraktionen in Gemini Enterprise-Instanzen.
Bei der Einbindung von Model Armor und Gemini Enterprise werden nur der erste Nutzer-Prompt und die endgültige Agenten- oder Modellantwort bereinigt. Alle Zwischenschritte zwischen dem ersten Nutzer-Prompt und der endgültigen Antwortgenerierung sind von dieser Einbindung nicht abgedeckt.
Model Armor im Security Command Center
Model Armor prüft LLM-Prompts und ‑Antworten auf verschiedene Bedrohungen, darunter Prompt Injection, Jailbreak-Versuche, schädliche URLs und schädliche Inhalte. Wenn Model Armor einen Verstoß erkennt gegen eine konfigurierte Mindesteinstellung, blockiert es den Prompt oder die Antwort und sendet ein Ergebnis an das Security Command Center. Weitere Informationen finden Sie unter Model Armor-Ergebnisse.