Vertex AI enthält einen Sicherheitsklassifikator, der Anfragen an alle gehosteten Anthropic-Modelle filtert, die Bilder mit Material zum sexuellen Missbrauch von Kindern (Child Sexual Abuse Material, CSAM) enthalten können. Der mutmaßliche CSAM-Sicherheitsklassifikator von Vertex AI ist von den Trust and Safety-Filtern (T&S) getrennt, die direkt mit den Modellen von Anthropic ausgeliefert werden.
In diesem Dokument wird beschrieben, welche Teile der Anfrage und Antwort vom mutmaßlichen CSAM-Sicherheitsklassifikator gefiltert werden und was passiert, wenn der Klassifikator eine Anfrage blockiert.
Sicherheits- und Inhaltsfilter dienen als Hürde und verhindern schädliche Ausgaben, beeinflussen aber nicht direkt das Verhalten des Modells. Weitere Informationen zur Modellsteuerung finden Sie unter Systemanweisungen für Sicherheit.
Unsichere Prompts
Der mutmaßliche CSAM-Klassifikator filtert nur die Bilder in Anfragen an Anthropic-Modelle in Vertex AI. Der mutmaßliche CSAM-Klassifikator filtert die Ausgaben des Modells nicht.
Anfragen, die den mutmaßlichen CSAM-Klassifikator auslösen, werden blockiert und geben den HTTP-Statuscode 200 mit der folgenden Meldung zurück:
{
"promptFeedback": {
"blockReason": "PROHIBTED_CONTENT"
}
}
Wenn die Anfrage vom Klassifikator blockiert wird, wird der Anfragestream abgebrochen und die folgende Meldung zurückgegeben:
"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}
Standort-Verfügbarkeit
Der mutmaßliche CSAM-Klassifikator ist in allen unterstützten Regionen verfügbar.