Pengklasifikasi keamanan untuk Claude di Vertex AI

Vertex AI menyertakan pengklasifikasi keamanan yang memfilter permintaan ke semua model Anthropic yang dihosting yang mungkin berisi gambar yang menyertakan Materi Pelecehan Seksual terhadap Anak (CSAM). Pengklasifikasi keamanan CSAM yang diduga dari Vertex AI terpisah dari filter Kepercayaan dan Keamanan (T&S) yang dikirim langsung dengan model Anthropic.

Dokumen ini membahas bagian permintaan dan respons yang difilter oleh klasifikasi keamanan CSAM yang dicurigai dan apa yang terjadi saat klasifikasi memblokir permintaan.

Filter keamanan dan konten berfungsi sebagai penghalang untuk mencegah output berbahaya, tetapi tidak secara langsung memengaruhi perilaku model. Untuk mempelajari lebih lanjut kemampuan pengarahan model, lihat Petunjuk sistem untuk keamanan.

Perintah tidak aman

Pengklasifikasi CSAM yang dicurigai hanya memfilter gambar dalam permintaan ke model Anthropic di Vertex AI. Pengklasifikasi CSAM yang dicurigai tidak memfilter output model.

Permintaan yang memicu klasifikasi CSAM yang dicurigai akan diblokir dan menampilkan kode status HTTP 200 dengan pesan berikut:

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

Jika permintaan diblokir oleh pengklasifikasi, aliran permintaan akan dibatalkan dan pesan berikut akan ditampilkan:

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

Ketersediaan lokasi

Pengklasifikasi CSAM yang dicurigai tersedia di semua wilayah yang didukung.