Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Erweiterung zum Aufrufen eines Google-Dienstes konfigurieren

Service Extensions ermöglicht unterstützten Application Load Balancern die Konfiguration von Erweiterungen mithilfe von Callouts an Google-Dienste. Auf dieser Seite erfahren Sie, wie Sie solche Erweiterungen konfigurieren.

Eine Übersicht finden Sie unter Integration in Google-Dienste.

Traffic-Erweiterung zum Aufrufen des Model Armor-Dienstes konfigurieren

Sie können eine Traffic-Erweiterung konfigurieren, um Model Armor aufzurufen und Sicherheitsrichtlinien für den generativen KI-Inferenz-Traffic zu Application Load Balancern, einschließlich GKE Inference Gateway, einheitlich durchzusetzen.

Bei einer Traffic-Erweiterung werden zugehörige Erweiterungsdienste in einer oder mehreren Ketten gruppiert. Sie können sowohl Plugins als auch Callouts in derselben Erweiterungskette konfigurieren. In jeder Erweiterungskette wird der Traffic, auf den reagiert werden soll, mithilfe von Common Expression Language (CEL)-Abgleichsbedingungen ausgewählt. Der Load-Balancer wertet eine Anfrage sequenziell anhand der Abgleichsbedingung jeder Kette aus. Wenn eine Anfrage die Bedingungen einer Kette erfüllt, wirken sich alle Erweiterungen in der Kette auf die Anfrage aus. Nur eine Kette entspricht einer bestimmten Anfrage.

Jede Erweiterung in einer Kette kann eigene unterstützte Ereignisse haben. Die Änderungen, die von einer Erweiterung am Inhalt von Anfragen und Antworten vorgenommen werden, sind für die verbleibenden Erweiterungen in der Kette sichtbar. Bei Erweiterungen, die für die Unterstützung von Antwort-Ereignissen konfiguriert sind, wird die Reihenfolge der Erweiterungen auf dem Antwortpfad umgekehrt.

Die Traffic-Erweiterung wird an eine Weiterleitungsregel für den Load Balancer angehängt, die mit dem Inference Gateway erstellt wird. Nachdem Sie die Ressource konfiguriert haben, werden übereinstimmende Anfragen an den Model Armor-Dienst gesendet.

Hinweis

Suchen Sie ein geeignetes Projekt, in dem Sie entweder die Rolle „Projektinhaber“ oder „Projektbearbeiter“ oder die folgenden IAM-Rollen für Compute Engine haben:
- Zum Erstellen von Instanzen: Compute-Instanzadministrator (Version 1) (roles/compute.instanceAdmin.v1)
- So erstellen Sie Cloud Load Balancing-Komponenten: Compute-Netzwerkadministrator (roles/compute.networkAdmin)
Aktivieren Sie die erforderlichen APIs.
Console
1. Rufen Sie in der Google Cloud Console die Seite Zugriff auf APIs aktivieren auf.
  
  Zum Abschnitt „Zugriff auf APIs aktivieren“
2. Folgen Sie der Anleitung, um die erforderlichen APIs zu aktivieren, darunter die Compute Engine API, die Model Armor API und die Network Services API.
gcloud
Führen Sie folgenden gcloud services enable-Befehl aus:
gcloud services enable compute.googleapis.com modelarmor.googleapis.com networkservices.googleapis.com
Erstellen Sie die erforderlichen Model Armor-Vorlagen.
Richten Sie Ihre Google Kubernetes Engine-Infrastruktur ein, indem Sie ein Inference Gateway bereitstellen. Testen Sie sie, indem Sie eine Inferenzanfrage senden.

Vorbehaltlich einiger Einschränkungen werden die folgenden OpenAI API-Endpunkte unterstützt: Assistants, Chat Completions, Completions (legacy), Messages und Threads.

Einschränkungen beim Konfigurieren eines OpenAI API-Endpunkt

Beachten Sie beim Konfigurieren eines OpenAI API-Endpunkt für Ihre GKE-Infrastruktur die folgenden Einschränkungen in Bezug auf das Bereinigen von Prompts und Antworten:

Streaming API-Antworten werden für keine API unterstützt. Model Armor bereinigt die Nicht-Streaming-Antworten und ignoriert die Streaming-Antworten.
Beim Bereinigen von Prompts und Antworten werden nur die folgenden Vorgänge unterstützt. Alle anderen Vorgänge werden ignoriert und dürfen ohne Bereinigung fortgesetzt werden:
- Assistants API: Create, Delete, List, Modify und Retrieve
- Chat Completions API: Create, Delete, Get Chat Completion, Get Chat Message, List und Update
- Completions API (Legacy): Create
- Messages API: Create, Delete, List, Modify und Retrieve
- Responses API: Create, Delete und Get
- Threads API: Create, Delete, Modify und Retrieve
Bei API-Aufrufen, die mehrere Optionen in der Antwort zurückgeben (z. B. POST https://api.openai.com/v1/chat/completions), wird nur das erste Element in der Liste der Optionen bereinigt.

Traffic-Erweiterung konfigurieren

Prüfen Sie das Verhalten, bevor die Erweiterung konfiguriert wird, indem Sie eine Inferenzanfrage an den Load-Balancer senden und die freigegebene IP-Adresse des Load-Balancers angeben:

curl -v http://${IP}/v1/chat/completions
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer $(gcloud auth print-access-token)' \
  -d '{"model": "meta-llama/Llama-3.1-8B-Instruct",
       "messages": [
          {
            "role": "user",
            "content": "Can you remember my ITIN: 123-45-6789"
          }
        ],
       "max_tokens": 250,
       "temperature": 0.1}'

Die Anfrage generiert einen HTTP-Statuscode 200 OK, obwohl vertrauliche Daten an das LLM gesendet wurden.

Damit Model Armor Prompts blockiert, die sensible Daten enthalten, müssen Sie eine Traffic-Erweiterung konfigurieren.
Console
1. Rufen Sie in der Google Cloud Console die Seite Service Extensions auf.
  
  Zu Service Extensions
2. Klicken Sie auf Erweiterung erstellen. Ein Assistent wird geöffnet, der Sie durch einige erste Schritte führt.
3. Wählen Sie für das Produkt Load Balancing aus. Klicken Sie anschließend auf Weiter. Eine Liste der unterstützten Application Load Balancer wird angezeigt.
4. Wählen Sie einen Load-Balancer-Typ aus.
5. Geben Sie die Region als us-central1 an. Klicken Sie auf Weiter.
6. Wählen Sie als Erweiterungstyp Standorterweiterungen aus und klicken Sie auf Weiter.
7. Klicken Sie auf Weiter, um das Formular Erweiterung erstellen zu öffnen. Im Formular Erweiterung erstellen sind die vorherigen Auswahlen nicht bearbeitbar.
8. Führen Sie im Abschnitt Grundlagen folgende Schritte aus:
  
  Geben Sie einen eindeutigen Namen für die Erweiterung an.
  
  Der Name muss mit einem Kleinbuchstaben beginnen, gefolgt von bis zu 62 Kleinbuchstaben, Ziffern oder Bindestrichen. Er darf nicht mit einem Bindestrich enden.
  
  Optional: Geben Sie eine kurze Beschreibung der Erweiterung mit bis zu 1.024 Zeichen ein.
9. Optional: Klicken Sie im Bereich Labels auf Label hinzufügen. Führen Sie dann in der angezeigten Zeile die folgenden Schritte aus:
  
  Geben Sie für Schlüssel einen Schlüsselnamen ein.
  
  Geben Sie für Wert einen Wert für den Schlüssel ein.
  
  Wenn Sie weitere Schlüssel/Wert-Paare hinzufügen möchten, klicken Sie auf Label hinzufügen. Sie können maximal 64 Schlüssel/Wert-Paare hinzufügen.
  
  Weitere Informationen zu Labels finden Sie unter Labels für Projekte erstellen und aktualisieren.
10. Wählen Sie unter Weiterleitungsregeln eine oder mehrere Weiterleitungsregeln aus, die der Erweiterung zugeordnet werden sollen. Wählen Sie eine Weiterleitungsregel aus, die im Rahmen der Bereitstellung des Inference Gateway generiert wird. Weiterleitungsregeln, die bereits mit einer anderen Rufnummer verknüpft sind, können nicht ausgewählt werden und sind nicht verfügbar.
11. So fügen Sie unter Erweiterung eine Erweiterung hinzu, die für eine übereinstimmende Anfrage ausgeführt werden soll:
  
  Wenn Sie Anfragen abgleichen möchten, für die die Erweiterungskette ausgeführt wird, geben Sie für Abgleichsbedingung einen CEL-Ausdruck (Common Expression Language) an, z. B. request.path == "/v1/chat/completions".
  
  Weitere Informationen zu CEL-Ausdrücken finden Sie unter Syntaxhilfe oder in der CEL-Matcher-Sprachreferenz.
  
  Fügen Sie eine oder mehrere Erweiterungen hinzu, die für eine übereinstimmende Anfrage ausgeführt werden sollen.
  
  Gehen Sie für jede Erweiterung unter Erweiterungen so vor und klicken Sie dann auf Fertig:
  
  Wählen Sie unter Programmierbarkeitstyp die Option Google-Dienste aus und wählen Sie dann einen Model Armor-Dienstendpunkt aus, z. B. modelarmor.us-central1.rep.googleapis.com.
  
  Geben Sie für Zeitlimit einen Wert zwischen 10 und 1.000 Millisekunden an, nach dem eine Nachricht im Stream das Zeitlimit überschreitet. Model Armor hat eine Latenz von etwa 250 Millisekunden.
  
  Wählen Sie unter Events (Ereignisse) alle HTTP-Ereignistypen aus.
  
  Klicken Sie für Header weiterleiten auf Header hinzufügen und fügen Sie dann HTTP-Header hinzu, die an die Erweiterung weitergeleitet werden sollen (vom Client oder Backend). Wenn kein Header angegeben ist, werden alle Header gesendet.
  
  Optional: Wenn für die Erweiterung ein Zeitlimit überschritten wird oder sie fehlschlägt und Sie möchten, dass die Verarbeitung von Anfragen oder Antworten fortgesetzt wird, wählen Sie für Fail open die Option Aktiviert aus. Nachfolgende Erweiterungen in der Kette werden ebenfalls ausgeführt.
  
  Standardmäßig ist die Option Fail open nicht ausgewählt. In diesem Fall wird die Verarbeitung von Anfragen oder Antworten beendet, wenn ein Fehler auftritt. Wenn Antwortheader nicht an den Downstream-Client gesendet wurden, wird ein generischer HTTP-Statuscode 500 an den Client zurückgegeben. Wenn Antwortheader gesendet wurden, wird der HTTP-Stream zum Client zurückgesetzt.
  
  Die Standardoption, Fail open nicht auszuwählen, wird bevorzugt, wenn Sicherheit oder Integrität Priorität haben. Wenn Sie Fail open aktivieren, insbesondere für nicht kritische Vorgänge, können Sie die Verfügbarkeit priorisieren.
  
  Klicken Sie unter Metadaten auf Metadaten hinzufügen, um die Model Armor-Vorlagen anzugeben, die zum Prüfen von Prompts und Antworten für bestimmte Modelle verwendet werden sollen.
  
  Geben Sie für Schlüssel model_armor_settings an. Geben Sie für Value die Vorlagen als JSON-String an, z. B.:
  
  [{ "model": "MODEL_NAME", "model_response_template_id": "projects/TEMPLATE_PROJECT_ID/locations/LOCATION/templates/RESPONSE_TEMPLATE", "user_prompt_template_id": "projects/TEMPLATE_PROJECT_ID/locations/LOCATION/templates/PROMPT_TEMPLATE" }]
  
  Ersetzen Sie Folgendes:
  
  MODEL_NAME: der Name des Modells, wie er mit der InferenceModel-Ressource konfiguriert wurde, z. B. meta-llama/Llama-3.1-8B-Instruct
  
  TEMPLATE_PROJECT_ID: die Projekt-ID der Model Armor-Vorlagen
  
  LOCATION: Der Speicherort der Model Armor-Vorlage, z. B. us-central1
  
  RESPONSE_TEMPLATE: Die Antwortvorlage, die für das Modell verwendet werden soll.
  
  PROMPT_TEMPLATE: Die Aufforderungsvorlage, die für das Modell verwendet werden soll.
  
  Außerdem kann eine Standardvorlage angegeben werden, die verwendet wird, wenn eine Anfrage nicht genau mit einem Modell übereinstimmt. Wenn Sie eine Standardvorlage konfigurieren möchten, geben Sie MODEL_NAME als default an.
  
  Wenn Sie den Prompt- oder Antwort-Traffic nicht filtern möchten, erstellen Sie eine leere Filtervorlage und fügen Sie sie ein.
  
  Die Gesamtgröße von metadata muss kleiner als 1 KiB sein. Die Gesamtzahl der Schlüssel in den Metadaten muss kleiner als 20 sein. Jeder Schlüssel darf maximal 64 Zeichen lang sein. Die Länge jedes Werts darf maximal 1.024 Zeichen betragen. Alle Werte müssen Strings sein.
  
  Wenn eine Anfrage blockiert wird, gibt Model Armor einen Standardstatuscode 403 Forbidden zurück. Sie können den Status überschreiben, indem Sie benutzerdefinierte Antwort-Einstellungen (einschließlich eines benutzerdefinierten Statuscodes und einer benutzerdefinierten Nachricht) in der Sicherheitsrichtlinie der Model Armor-Vorlage definieren. Weitere Informationen finden Sie unter TemplateMetadata.
  
  Wenn Sie mehr als eine Erweiterung oder Erweiterungsketten anstelle einer einzelnen Erweiterung angeben möchten, klicken Sie am Ende des Formulars auf die Schaltfläche Zum erweiterten Modus wechseln und geben Sie die erforderlichen Erweiterungen und Ketten an. Die Erweiterungen werden in der Reihenfolge ausgeführt, in der sie aufgeführt sind.
  
  Geben Sie eindeutige Namen für jede Erweiterung und Erweiterungskette an. Die Namen müssen RFC-1034 entsprechen, dürfen nur Kleinbuchstaben, Ziffern und Bindestriche enthalten und dürfen maximal 63 Zeichen lang sein. Außerdem muss das erste Zeichen ein Buchstabe und das letzte Zeichen ein Buchstabe oder eine Ziffer sein.
12. Klicken Sie auf Erweiterung erstellen.
gcloud
1. Definieren Sie den Callout in einer YAML-Datei und verknüpfen Sie ihn mit der Weiterleitungsregel, die beim Bereitstellen des Inference Gateway generiert wird. Verwenden Sie die angegebenen Beispielwerte.
  
  cat >traffic_callout_service.yaml <<EOF name: traffic-ext forwardingRules: - https://www.googleapis.com/compute/v1/projects/LB_PROJECT_ID/regions/us-central1/forwardingRules/FORWARDING_RULE loadBalancingScheme: INTERNAL_MANAGED extensionChains: - name: "chain1-model-armor" matchCondition: celExpression: 'request.path == "/v1/chat/completions"' extensions: - name: extension-chain-1-model-armor service: modelarmor.us-central1.rep.googleapis.com failOpen: true supportedEvents: - REQUEST_HEADERS - REQUEST_BODY - REQUEST_TRAILERS - RESPONSE_HEADERS - RESPONSE_BODY - RESPONSE_TRAILERS timeout: 1s metadata: model_armor_settings: '[ { "model": "MODEL_NAME", "model_response_template_id": "projects/TEMPLATE_PROJECT_ID/locations/LOCATION/templates/RESPONSE_TEMPLATE", "user_prompt_template_id": "projects/TEMPLATE_PROJECT_ID/locations/LOCATION/templates/PROMPT_TEMPLATE" } ]' EOF
  
  Ersetzen Sie Folgendes:
  
  TEMPLATE_PROJECT_ID: die Projekt-ID der Model Armor-Vorlagen
  
  LB_PROJECT_ID: die Projekt-ID der Weiterleitungsregel des Load Balancers
  
  FORWARDING_RULE: Eine oder mehrere Weiterleitungsregeln, die der Erweiterung zugeordnet werden sollen. Wählen Sie eine Weiterleitungsregel aus, die im Rahmen der Bereitstellung des Inference Gateway generiert wird.
  
  Weiterleitungsregeln, die bereits mit einer anderen Rufnummer verknüpft sind, können nicht ausgewählt werden und sind nicht verfügbar.
  
  MODEL_NAME: der Name des Modells, wie er mit der InferenceModel-Ressource konfiguriert wurde, z. B. meta-llama/Llama-3.1-8B-Instruct
  
  LOCATION: Der Speicherort der Model Armor-Vorlage, z. B. us-central1
  
  RESPONSE_TEMPLATE: Die Antwortvorlage, die für das Modell verwendet werden soll.
  
  PROMPT_TEMPLATE: Die Aufforderungsvorlage, die für das Modell verwendet werden soll.
  
  Geben Sie im Feld metadata die Model Armor-Einstellungen und -Vorlagen an, die beim Überprüfen von Prompts und Antworten für bestimmte Modelle verwendet werden sollen.
  
  Außerdem kann eine Standardvorlage angegeben werden, die verwendet wird, wenn eine Anfrage nicht genau mit einem Modell übereinstimmt. Wenn Sie eine Standardvorlage konfigurieren möchten, geben Sie MODEL_NAME als default an.
  
  Wenn Sie den Prompt- oder Antwort-Traffic nicht filtern möchten, erstellen Sie eine leere Filtervorlage und fügen Sie sie ein.
  
  Die Gesamtgröße von metadata muss kleiner als 1 KiB sein. Die Gesamtzahl der Schlüssel in den Metadaten muss kleiner als 16 sein. Jeder Schlüssel darf maximal 64 Zeichen lang sein. Die Länge jedes Werts darf maximal 1.024 Zeichen betragen. Alle Werte müssen Strings sein.
  
  Wenn eine Anfrage blockiert wird, gibt Model Armor einen Standardstatuscode 403 Forbidden zurück. Sie können den Status überschreiben, indem Sie benutzerdefinierte Antwort-Einstellungen (einschließlich eines benutzerdefinierten Statuscodes und einer benutzerdefinierten Meldung) in der Sicherheitsrichtlinie der Model Armor-Vorlage definieren. Weitere Informationen finden Sie unter TemplateMetadata.
2. Importieren Sie die Traffic-Erweiterung. Verwenden Sie den Befehl gcloud service-extensions lb-traffic-extensions import mit den folgenden Beispielwerten.
  
  gcloud service-extensions lb-traffic-extensions import traffic-ext \ --source=traffic_callout_service.yaml \ --location=us-central1
kubectl
1. Wenn Sie eine GKE-Version vor v1.32.2-gke.1182001 verwenden, installieren Sie die CRD für die Traffic-Erweiterung:
  
  kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/gke-gateway-api/refs/heads/main/config/crd/networking.gke.io_gcptrafficextensions.yaml
2. Definieren Sie die Erweiterung in einer YAML-Datei. Diese benutzerdefinierte Ressource verknüpft Ihr Inference Gateway mit dem Model Armor-Dienst. Verwenden Sie die angegebenen Beispielwerte.
  
  cat >traffic_callout_service.yaml <<EOF apiVersion: networking.gke.io/v1 kind: GCPTrafficExtension metadata: name: traffic-ext spec: targetRefs: - group: "gateway.networking.k8s.io" kind: Gateway name: inference-gateway extensionChains: - name: "chain1-model-armor" matchCondition: celExpressions: - celMatcher: 'request.path == "/v1/chat/completions"' extensions: - name: extension-chain-1-model-armor googleAPIServiceName: modelarmor.us-central1.rep.googleapis.com failOpen: true supportedEvents: - RequestHeaders - RequestBody - RequestTrailers - ResponseHeaders - ResponseBody - ResponseTrailers timeout: 1s metadata: model_armor_settings: '[ { "model": "MODEL_NAME", "model_response_template_id": "projects/TEMPLATE_PROJECT_ID/locations/LOCATION/templates/RESPONSE_TEMPLATE", "user_prompt_template_id": "projects/TEMPLATE_PROJECT_ID/locations/LOCATION/templates/PROMPT_TEMPLATE" } ]' EOF
  
  Ersetzen Sie Folgendes:
  
  MODEL_NAME: der Name des Modells, wie er mit der InferenceModel-Ressource konfiguriert wurde, z. B. meta-llama/Llama-3.1-8B-Instruct
  
  TEMPLATE_PROJECT_ID: die Projekt-ID der Model Armor-Vorlagen
  
  LOCATION: Der Speicherort der Model Armor-Vorlage, z. B. us-central1
  
  RESPONSE_TEMPLATE: Die Antwortvorlage, die für das Modell verwendet werden soll.
  
  PROMPT_TEMPLATE: Die Aufforderungsvorlage, die für das Modell verwendet werden soll.
  
  Geben Sie im Feld metadata die Model Armor-Einstellungen und -Vorlagen an, die beim Überprüfen von Prompts und Antworten für bestimmte Modelle verwendet werden sollen.
  
  Außerdem kann eine Standardvorlage angegeben werden, die verwendet wird, wenn eine Anfrage nicht genau mit einem Modell übereinstimmt. Wenn Sie eine Standardvorlage konfigurieren möchten, geben Sie MODEL_NAME als default an.
  
  Wenn Sie den Prompt- oder Antwort-Traffic nicht filtern möchten, erstellen Sie eine leere Filtervorlage und fügen Sie sie ein.
  
  Die Gesamtgröße von metadata muss kleiner als 1 KiB sein. Die Gesamtzahl der Schlüssel in den Metadaten muss kleiner als 16 sein. Jeder Schlüssel darf maximal 64 Zeichen lang sein. Die Länge jedes Werts darf maximal 1.024 Zeichen betragen. Alle Werte müssen Strings sein.
  
  Wenn eine Anfrage blockiert wird, gibt Model Armor einen Standardstatuscode 403 Forbidden zurück. Sie können den Status überschreiben, indem Sie benutzerdefinierte Antwort-Einstellungen (einschließlich eines benutzerdefinierten Statuscodes und einer benutzerdefinierten Meldung) in der Sicherheitsrichtlinie der Model Armor-Vorlage definieren. Weitere Informationen finden Sie unter TemplateMetadata.
3. Wenden Sie die in der Datei traffic_callout_service.yaml definierte Konfiguration auf Ihren GKE-Cluster an. Mit diesem Befehl wird die GCPTrafficExtension-Ressource erstellt, die Ihr Inference Gateway mit dem Model Armor-Dienst verknüpft.
  
  kubectl apply -f traffic_callout_service.yaml

Weisen Sie dem Dienstkonto für Service Extensions die erforderlichen Rollen zu. Führen Sie folgenden gcloud projects add-iam-policy-binding-Befehl aus:

gcloud projects add-iam-policy-binding LB_PROJECT_NUMBER \
    --member=serviceAccount:service-LB_PROJECT_NUMBER@gcp-sa-dep.iam.gserviceaccount.com \
    --role=roles/container.admin
gcloud projects add-iam-policy-binding LB_PROJECT_NUMBER \
    --member=serviceAccount:service-LB_PROJECT_NUMBER@gcp-sa-dep.iam.gserviceaccount.com \
    --role=roles/modelarmor.calloutUser
gcloud projects add-iam-policy-binding LB_PROJECT_NUMBER \
    --member=serviceAccount:service-LB_PROJECT_NUMBER@gcp-sa-dep.iam.gserviceaccount.com \
    --role=roles/serviceusage.serviceUsageConsumer
gcloud projects add-iam-policy-binding TEMPLATE_PROJECT_ID \
    --member=serviceAccount:service-LB_PROJECT_NUMBER@gcp-sa-dep.iam.gserviceaccount.com \
    --role=roles/modelarmor.user

Ersetzen Sie Folgendes:

TEMPLATE_PROJECT_ID: die Projekt-ID der Model Armor-Vorlagen
LB_PROJECT_NUMBER: die Projektnummer des Load-Balancers

Diese Werte werden im Bereich Projektinformationen in der Google Cloud Console für Ihr Projekt aufgeführt.

Führen Sie denselben curl-Befehl aus, um zu prüfen, ob die Traffic-Erweiterung wie erwartet funktioniert:

curl -v http://${IP}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer $(gcloud auth print-access-token)' \
  -d '{"model": "meta-llama/Llama-3.1-8B-Instruct",
       "messages": [
          {
            "role": "user",
            "content": "Can you remember my ITIN: 123-45-6789"
          }
        ],
       "max_tokens": 250,
       "temperature": 0.1}'
  ```

Wenn die Dienst-Erweiterung konfiguriert ist, wird bei einer Anfrage mit vertraulichen Daten der HTTP-Statuscode 403 Forbidden generiert, eine Fehlermeldung wie in der Vorlage konfiguriert protokolliert und die Verbindung geschlossen.

Wenn die Anfrage sicher ist, wird ein HTTP-Statuscode 200 OK generiert und die LLM-Antwort an den Nutzer zurückgegeben.

Verwenden Sie den Log-Explorer, um das Verhalten der Erweiterung zu überwachen. Filtern Sie im Abfragebereich je nach Inference Gateway-Konfiguration nach dem entsprechenden Load-Balancer-Ressourcentyp.

Logeinträge für Application Load Balancer enthalten Informationen, die Ihnen bei der Fehlerbehebung bei Ihrem HTTP- oder HTTPS-Traffic helfen.

Wenn Sie eine detailliertere Analyse von Sicherheitsprüfungen durchführen möchten, aktivieren Sie das Audit-Logging für Model Armor.

Nächste Schritte

Erweiterungen verwalten

Erweiterung zum Aufrufen eines Google-Dienstes konfigurieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.