Vertex AI의 Claude용 안전 분류기

Vertex AI에는 아동 성적 학대 콘텐츠(CSAM)에 해당하는 이미지가 포함될 수 있는 호스팅된 모든 Anthropic 모델에 대한 요청을 필터링하는 안전 분류기가 포함되어 있습니다. Vertex AI의 CSAM 의심 안전 분류기는 Anthropic 모델과 함께 직접 제공되는 신뢰와 안전(T&S) 필터와는 별개입니다.

이 문서에서는 의심되는 CSAM 안전 분류기가 필터링하는 요청 및 응답의 부분과 분류기가 요청을 차단할 때 발생하는 상황을 설명합니다.

안전 및 콘텐츠 필터는 유해한 출력을 방지하는 장벽 역할을 하지만 모델의 동작에 직접적인 영향을 미치지는 않습니다. 모델 조종에 관한 자세한 내용은 안전을 위한 시스템 요청 사항을 참고하세요.

안전하지 않은 프롬프트

의심되는 CSAM 분류기는 Vertex AI의 Anthropic 모델에 대한 요청에서 이미지만 필터링합니다. 의심되는 CSAM 분류기는 모델의 출력을 필터링하지 않습니다.

의심되는 CSAM 분류기를 트리거하는 요청은 차단되고 다음 메시지와 함께 200 HTTP 상태 코드를 반환합니다.

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

분류기에 의해 요청이 차단되면 요청 스트림이 취소되고 다음 메시지가 반환됩니다.

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

위치 가용성

의심되는 CSAM 분류기는 모든 지원되는 지역에서 사용할 수 있습니다.

Vertex AI의 Claude용 안전 분류기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

안전하지 않은 프롬프트

위치 가용성

Vertex AI의 Claude용 안전 분류기