Model Armor は、AI アプリケーションのプロンプトとレスポンスをスクリーニングします。モニタリング ダッシュボードには、このスクリーニング プロセスから生成されたデータ、指標、可視化が表示されます。これらの分析情報を使用して、Model Armor が AI アプリケーションを保護し、プロンプト インジェクションやその他の悪意のあるアクティビティの試行を特定する方法を理解します。
始める前に
必要なロール
モニタリング ダッシュボードにアクセスするために必要な権限を取得するには、プロジェクトに対するMonitoring Viewer (roles/monitoring.viewer) IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。
この事前定義ロールには、モニタリング ダッシュボードにアクセスするために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。
必要な権限
モニタリング ダッシュボードにアクセスするには、次の権限が必要です。
-
monitoring.monitoredResourceDescriptors.list -
monitoring.metricDescriptors.list
カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。
モニタリング ダッシュボードを表示する
コンソールで、[Model Armor] ページに移動します。 Google Cloud
Model Armor を有効にしたプロジェクトが表示されていることを確認します。
[Monitoring] タブに移動します。
フラグ付きまたはブロックされたインタラクションの数を確認する
モニタリング ダッシュボードで、フラグ付きのインタラクションやブロックされたインタラクションなど、インタラクションの数を確認します。モニタリング ダッシュボードには、次の指標が表示されます。
- インタラクションの合計数: Model Armor によって分析されたプロンプトとレスポンスの合計数
- フラグ付きインタラクション数: Model Armor のテンプレートまたはフロア設定で構成されたポリシーに違反したインタラクションの数。
- ブロックされたインタラクション数:
INSPECT_AND_BLOCKモードで Model Armor を構成した場合にブロックされたインタラクションの数。ブロックされたインタラクションは、フロア設定またはテンプレートに違反しています。
コンテンツ セキュリティ違反をモニタリングする
[時間の経過に伴う違反] グラフで、検出された違反の数の推移をモニタリングします。
検出された違反は、次のカテゴリに分類されます。
- すべての検出機能: プロンプト インジェクションとジェイルブレイク、悪意のある URL、責任ある AI、機密データなど、すべての検出機能によって検出された違反の合計数。
- 責任ある AI: ハラスメントや ヘイトスピーチなど、安全フィルタによって検出されたコンテンツ違反。責任ある AI カテゴリの完全なリストについては、 責任ある AI の安全 フィルタをご覧ください。
- センシティブ データ: 機密情報タイプまたは ユーザー定義のカスタム情報タイプの存在に関連するコンテンツ違反。詳細については、 Sensitive Data Protection をご覧ください。
これらの検出機能の詳細については、Model Armor フィルタをご覧ください。
ビューにフィルタを適用する
モニタリング ダッシュボードでこれらのフィルタを適用すると、モニタリング ダッシュボードのすべてのビューが、選択した条件に基づいてフィルタされます。
- テンプレート/フロア設定: 関連付けられたテンプレートまたはフロア 設定に基づいてビューをフィルタします。
- 統合ポイント: Model Armor の統合に基づいてビューをフィルタします。
- ロケーション: インタラクションが処理された場所に基づいてビューをフィルタします。
- 入力タイプ: 評価された入力のタイプ(プロンプトまたはレスポンス)に基づいてビューをフィルタします。
関連するログを検査
モニタリング ダッシュボードのデータに関連するログエントリを確認するには、 テンプレートとフロア設定でロギングを有効にします。ログを表示するには、 必要な IAM ロールが付与されている必要があります。
選択した期間のログを検査するには、モニタリング ダッシュボードで グラフ オプションの詳細 > 関連するログを検査 をクリックします。
違反データを PNG ファイルまたは CSV ファイルにダウンロードする
違反データを PNG ファイルまたは CSV ファイルにダウンロードする手順は次のとおりです。
- モニタリング ダッシュボードの [時間の経過に伴う違反] ビューで、データをダウンロードする期間を選択します。
- グラフ オプションの詳細 > ダウンロード をクリックします。
- [PNG をダウンロード] または [CSV をダウンロード] をクリックして、必要な形式でデータをダウンロードします。