Classificateurs de sécurité pour Claude dans Vertex AI

Vertex AI inclut un classificateur de sécurité qui filtre les requêtes envoyées à tous les modèles Anthropic hébergés susceptibles de contenir des images incluant du contenu d'abus sexuels sur mineurs. Le classificateur de sécurité de Vertex AI pour les contenus suspects d'exploitation et d'abus sexuels sur mineurs est distinct des filtres Fiabilité et sécurité fournis directement avec les modèles d'Anthropic.

Ce document explique quelles parties de la requête et de la réponse sont filtrées par le classificateur de sécurité CSAM suspecté, et ce qui se passe lorsque le classificateur bloque une requête.

Les filtres de sécurité et de contenu agissent comme une barrière pour empêcher la génération de résultats nuisibles, mais n'influencent pas directement le comportement du modèle. Pour en savoir plus sur la directionnalité du modèle, consultez Instructions système pour la sécurité.

Requêtes non sécurisées

Le classificateur de contenu suspect de pédopornographie ne filtre que les images dans les requêtes envoyées aux modèles Anthropic dans Vertex AI. Le classificateur de contenu suspecté d'abus sur mineur ne filtre pas les sorties du modèle.

Les requêtes qui déclenchent le classificateur de contenu suspecté de CSAM sont bloquées et renvoient un code d'état HTTP 200 avec le message suivant :

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

Si la requête est bloquée par le classificateur, le flux de requêtes est annulé et le message suivant est renvoyé :

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

Disponibilité selon l'emplacement

Le classificateur de contenu suspecté d'être de l'exploitation et des abus sexuels sur mineurs est disponible dans toutes les régions compatibles.