Classificatori di sicurezza per Claude in Vertex AI

Vertex AI include un classificatore di sicurezza che filtra le richieste a tutti i modelli Anthropic ospitati che potrebbero contenere immagini che includono materiale pedopornografico. Il classificatore di sicurezza CSAM sospetta di Vertex AI è separato dai filtri Trust and Safety (T&S) forniti direttamente con i modelli di Anthropic.

Questo documento illustra quali parti della richiesta e della risposta vengono filtrate dal classificatore di sicurezza CSAM sospetta e cosa succede quando il classificatore blocca una richiesta.

I filtri di sicurezza e dei contenuti fungono da barriera per impedire output dannosi, ma non influenzano direttamente il comportamento del modello. Per scoprire di più sulla controllabilità del modello, consulta Istruzioni di sistema per la sicurezza.

Prompt non sicuri

Il classificatore di presunto materiale pedopornografico filtra solo le immagini nelle richieste ai modelli Anthropic in Vertex AI. Il classificatore CSAM sospette non filtra gli output del modello.

Le richieste che attivano il classificatore di materiale pedopornografico sospetto vengono bloccate e restituiscono un codice di stato HTTP 200 con il seguente messaggio:

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

Se la richiesta viene bloccata dal classificatore, il flusso di richieste viene annullato e viene restituito il seguente messaggio:

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

Disponibilità della posizione

Il classificatore di CSAM sospette è disponibile in tutte le regioni supportate.

Classificatori di sicurezza per Claude in Vertex AI Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prompt non sicuri

Disponibilità della posizione

Classificatori di sicurezza per Claude in Vertex AI