Model Armor は、AI アプリケーションのプロンプトとレスポンスをスクリーニングします。モニタリング ダッシュボードには、このスクリーニング プロセスから生成されたデータ、指標、可視化が表示されます。これらの分析情報を使用して、Model Armor が AI アプリケーションを保護し、プロンプト インジェクションやその他の悪意のあるアクティビティの試行を特定する方法を理解します。
始める前に
必要なロール
モニタリング ダッシュボードにアクセスするために必要な権限を取得するには、プロジェクトに対する モニタリング閲覧者 (roles/monitoring.viewer)IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。
この事前定義ロールには、モニタリング ダッシュボードにアクセスするために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。
必要な権限
モニタリング ダッシュボードにアクセスするには、次の権限が必要です。
-
monitoring.monitoredResourceDescriptors.list -
monitoring.metricDescriptors.list
カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。
モニタリング ダッシュボードを表示する
Google Cloud コンソールで、[Model Armor] ページに移動します。
Model Armor を有効にしたプロジェクトが表示されていることを確認します。
[Monitoring] タブに移動します。
Model Armor の使用状況とパフォーマンスをモニタリングする
Model Armor の使用状況とパフォーマンスを詳細にモニタリングするには、Cloud Monitoring で使用可能な特定の指標タイプを使用します。次の指標タイプを使用できます。
modelarmor.googleapis.com/template/request_count: SanitizeAPI リクエスト数modelarmor.googleapis.com/template/pi_jb_request_count: プロンプト インジェクションとジェイルブレイク フィルタの数modelarmor.googleapis.com/template/rai_request_count: 責任ある AI フィルタの数modelarmor.googleapis.com/template/sdp_request_count: Sensitive Data Protection フィルタ数modelarmor.googleapis.com/template/malicious_uri_request_count: 悪意のある URI フィルタ数modelarmor.googleapis.com/template/used_token_count: 使用済みトークン数
詳細については、Model Armor の指標タイプをご覧ください。
フラグが付けられたインタラクションまたはブロックされたインタラクションの数を確認する
モニタリング ダッシュボードで、報告されたやり取りやブロックされたやり取りなど、やり取りの数を確認します。モニタリング ダッシュボードには、次の指標が表示されます。
- インタラクションの合計数: Model Armor によって分析されたプロンプトとレスポンスの合計数。
- フラグ付きインタラクション数: Model Armor のテンプレートまたはフロア設定で構成されたポリシーに違反したインタラクションの数。
- ブロックされたインタラクション数:
INSPECT_AND_BLOCKモードで Model Armor を構成している場合にブロックされたインタラクションの数。ブロックされた操作は、フロア設定またはテンプレートに違反していました。
コンテンツ セキュリティ違反をモニタリングする
[違反の推移] グラフで、検出された違反の数の推移をモニタリングします。
検出された違反は、次のカテゴリに分類されます。
- プロンプト インジェクションとジェイルブレイク: 悪意のあるコマンドやジェイルブレイクの試行を含むプロンプトが存在することを示すコンテンツ違反。詳細については、プロンプト インジェクションとジェイルブレイクの検出をご覧ください。
- 悪意のある URL: 悪意のある URL の存在を示すコンテンツ違反。詳しくは、悪意のある URL の検出をご覧ください。
- 責任ある AI: ハラスメントやヘイトスピーチなど、安全性フィルタによって検出されたコンテンツ違反。責任ある AI のカテゴリの完全なリストについては、責任ある AI の安全フィルタをご覧ください。
- センシティブ データ: ユーザーが定義した機密情報タイプまたはカスタム情報タイプの存在に関連するコンテンツ違反。詳細については、Sensitive Data Protection をご覧ください。
これらの検出機能の詳細については、Model Armor フィルタをご覧ください。
ビューにフィルタを適用する
モニタリング ダッシュボードでこれらのフィルタを適用すると、モニタリング ダッシュボードのすべてのビューが、選択した条件に基づいてフィルタされます。
- テンプレート/フロア設定: 関連付けられたテンプレートまたはフロア設定に基づいてビューをフィルタします。
- 統合ポイント: Model Armor の統合に基づいてビューをフィルタします。
- 場所: インタラクションが処理された場所に基づいてビューをフィルタします。
- 入力タイプ: 評価された入力のタイプ(プロンプトまたはレスポンス)に基づいてビューをフィルタします。
関連するログを検査
モニタリング ダッシュボードのデータに関連するログエントリを調べるには、テンプレートまたはフロア設定でロギングを有効にします。ログを表示するために必要な IAM ロールが必要です。
選択した期間のログを検査するには、モニタリング ダッシュボードで [その他のグラフ オプション> 関連するログを検査] をクリックします。
違反データを PNG ファイルまたは CSV ファイルにダウンロードする
違反データを PNG ファイルまたは CSV ファイルにダウンロードする手順は次のとおりです。
- モニタリング ダッシュボードの [違反の推移] ビューで、データをダウンロードする期間を選択します。
- [その他のグラフ オプション> ダウンロード] をクリックします。
- [PNG をダウンロード] または [CSV をダウンロード] をクリックして、ご希望の形式でデータをダウンロードします。