Classificadores de segurança para o Claude na Vertex AI

A Vertex AI inclui um classificador de segurança que filtra solicitações para todos os modelos hospedados da Anthropic que podem conter imagens com material de abuso sexual infantil (CSAM, na sigla em inglês). O classificador de segurança de CSAM suspeito da Vertex AI é separado dos filtros de confiança e segurança (T&S) enviados diretamente com os modelos da Anthropic.

Este documento aborda quais partes da solicitação e da resposta o classificador de segurança de CSAM suspeito filtra e o que acontece quando ele bloqueia uma solicitação.

Os filtros de segurança e conteúdo funcionam como uma barreira para evitar resultados nocivos, mas não influenciam diretamente o comportamento do modelo. Para saber mais sobre a capacidade de direcionamento de modelos, consulte Instruções do sistema para segurança.

Comandos não seguros

O classificador de CSAM suspeito filtra apenas as imagens em solicitações para modelos da Anthropic na Vertex AI. O classificador de CSAM suspeito não filtra as saídas do modelo.

As solicitações que acionam o classificador de CSAM suspeito são bloqueadas e retornam um código de status HTTP 200 com a seguinte mensagem:

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

Se a solicitação for bloqueada pelo classificador, o fluxo de solicitação será cancelado e a seguinte mensagem será retornada:

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

Disponibilidade do local

O classificador de CSAM suspeito está disponível em todas as regiões compatíveis.