Clasificadores de seguridad para Claude en Vertex AI

Vertex AI incluye un clasificador de seguridad que filtra las solicitudes a todos los modelos de Anthropic alojados que pueden contener imágenes que incluyen material de abuso sexual infantil (CSAM). El clasificador de seguridad de CSAM sospechoso de Vertex AI es independiente de los filtros de Confianza y seguridad (CyS) que se envían directamente con los modelos de Anthropic.

En este documento, se explica qué partes de la solicitud y la respuesta filtra el clasificador de seguridad de CSAM sospechoso y qué sucede cuando el clasificador bloquea una solicitud.

Los filtros de seguridad y contenido actúan como una barrera para evitar resultados dañinos, pero no influyen directamente en el comportamiento del modelo. Para obtener más información sobre la capacidad de dirección del modelo, consulta Instrucciones del sistema para la seguridad.

Instrucciones no seguras

El clasificador de CSAM sospechoso solo filtra las imágenes en las solicitudes a los modelos de Anthropic en Vertex AI. El clasificador de CSAM sospechoso no filtra los resultados del modelo.

Las solicitudes que activan el clasificador de CSAM sospechoso se bloquean y muestran un código de estado HTTP 200 con el siguiente mensaje:

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

Si el clasificador bloquea la solicitud, se cancela el flujo de solicitudes y se muestra el siguiente mensaje:

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

Disponibilidad de ubicación

El clasificador de CSAM sospechoso está disponible en todas las regiones compatibles.