Sicherheitsklassifikatoren für Claude in Vertex AI

Vertex AI enthält einen Sicherheitsklassifikator, der Anfragen an alle gehosteten Anthropic-Modelle filtert, die Bilder mit Material zum sexuellen Missbrauch von Kindern (Child Sexual Abuse Material, CSAM) enthalten können. Der mutmaßliche CSAM-Sicherheitsklassifikator von Vertex AI ist von den Trust and Safety-Filtern (T&S) getrennt, die direkt mit den Modellen von Anthropic ausgeliefert werden.

In diesem Dokument wird beschrieben, welche Teile der Anfrage und Antwort vom mutmaßlichen CSAM-Sicherheitsklassifikator gefiltert werden und was passiert, wenn der Klassifikator eine Anfrage blockiert.

Sicherheits- und Inhaltsfilter dienen als Hürde und verhindern schädliche Ausgaben, beeinflussen aber nicht direkt das Verhalten des Modells. Weitere Informationen zur Modellsteuerung finden Sie unter Systemanweisungen für Sicherheit.

Unsichere Prompts

Der mutmaßliche CSAM-Klassifikator filtert nur die Bilder in Anfragen an Anthropic-Modelle in Vertex AI. Der mutmaßliche CSAM-Klassifikator filtert die Ausgaben des Modells nicht.

Anfragen, die den mutmaßlichen CSAM-Klassifikator auslösen, werden blockiert und geben den HTTP-Statuscode 200 mit der folgenden Meldung zurück:

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

Wenn die Anfrage vom Klassifikator blockiert wird, wird der Anfragestream abgebrochen und die folgende Meldung zurückgegeben:

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

Standort-Verfügbarkeit

Der mutmaßliche CSAM-Klassifikator ist in allen unterstützten Regionen verfügbar.

Sicherheitsklassifikatoren für Claude in Vertex AI Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Unsichere Prompts

Standort-Verfügbarkeit

Sicherheitsklassifikatoren für Claude in Vertex AI