Vertex AI の Claude の安全性分類器

Vertex AI には、児童性的虐待のコンテンツ(CSAM)を含む画像が含まれている可能性のある、ホストされているすべての Anthropic モデルへのリクエストをフィルタする安全分類器が含まれています。Vertex AI の CSAM 疑いのある安全分類器は、Anthropic のモデルに直接付属する Trust and Safety(T&S)フィルタとは異なります。

このドキュメントでは、疑わしい CSAM 安全分類器がリクエストとレスポンスのどの部分をフィルタするかと、分類子がリクエストをブロックした場合に何が起こるかについて説明します。

安全フィルタとコンテンツ フィルタは障壁として機能し、有害な出力を防ぎますが、モデルの動作に直接影響することはありません。モデルの操縦性の詳細については、安全性のためのシステム指示をご覧ください。

安全でないプロンプト

CSAM の疑いがある分類器は、Vertex AI の Anthropic モデルに対するリクエスト内の画像のみをフィルタします。CSAM の疑いがある分類器は、モデルの出力をフィルタしません。

CSAM の疑いがある分類器をトリガーするリクエストはブロックされ、次のメッセージとともに 200 HTTP ステータス コードが返されます。

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

リクエストが分類器によってブロックされると、リクエスト ストリームがキャンセルされ、次のメッセージが返されます。

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

ロケーションの対応状況

CSAM の疑いがある分類器は、サポートされているすべてのリージョンで利用できます。