Classificadores de segurança para o Claude no Vertex AI

O Vertex AI inclui um classificador de segurança que filtra pedidos a todos os modelos da Anthropic alojados que possam conter imagens com materiais relativos a abuso sexual infantil (CSAM). O classificador de segurança de CSAM suspeito da Vertex AI é separado dos filtros de confiança e segurança (T&S) enviados diretamente com os modelos da Anthropic.

Este documento aborda as partes do pedido e da resposta que o classificador de segurança de CSAM suspeito filtra e o que acontece quando o classificador bloqueia um pedido.

Os filtros de segurança e de conteúdo atuam como uma barreira para impedir resultados prejudiciais, mas não influenciam diretamente o comportamento do modelo. Para saber mais sobre a capacidade de controlo do modelo, consulte as instruções do sistema para segurança.

Comandos inseguros

O classificador de CSAM suspeito filtra apenas as imagens em pedidos aos modelos da Anthropic no Vertex AI. O classificador de CSAM suspeito não filtra as saídas do modelo.

Os pedidos que acionam o classificador de CSAM suspeito são bloqueados e devolvem um código de estado HTTP 200 com a seguinte mensagem:

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

Se o pedido for bloqueado pelo classificador, a stream de pedidos é cancelada e é devolvida a seguinte mensagem:

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

Disponibilidade da localização

O classificador de CSAM suspeito está disponível em todas as regiões suportadas.