Clasificadores de seguridad de Claude en Vertex AI

Vertex AI incluye un clasificador de seguridad que filtra las solicitudes a todos los modelos de Anthropic alojados que puedan contener imágenes de abuso sexual infantil. El clasificador de seguridad de material de abuso sexual infantil sospechoso de Vertex AI es independiente de los filtros de Confianza y Seguridad que se incluyen directamente con los modelos de Anthropic.

En este documento se explica qué partes de la solicitud y la respuesta filtra el clasificador de seguridad de material de abuso sexual infantil sospechoso y qué ocurre cuando el clasificador bloquea una solicitud.

Los filtros de seguridad y de contenido actúan como barrera para evitar que se genere contenido perjudicial, pero no influyen directamente en el comportamiento del modelo. Para obtener más información sobre la capacidad de control de los modelos, consulta Instrucciones del sistema para la seguridad.

Peticiones no seguras

El clasificador de material de abuso sexual infantil sospechoso solo filtra las imágenes de las solicitudes a los modelos de Anthropic en Vertex AI. El clasificador de material de abuso sexual infantil sospechoso no filtra los resultados del modelo.

Las solicitudes que activan el clasificador de material de abuso sexual infantil sospechoso se bloquean y devuelven un código de estado HTTP 200 con el siguiente mensaje:

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

Si el clasificador bloquea la solicitud, se cancelará el flujo de solicitudes y se devolverá el siguiente mensaje:

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

Disponibilidad de la ubicación

El clasificador de material de abuso sexual infantil sospechoso está disponible en todas las regiones admitidas.