Model Armor の概要

Model Armor は、AI アプリケーションのセキュリティと安全性を強化するために設計された Google Cloud サービスです。LLM のプロンプトとレスポンスを事前にスクリーニングすることで、さまざまなリスクから保護し、責任ある AI への取り組みを確保します。AI を Google Cloud または他のクラウドプロバイダにデプロイする場合でも、Model Armor は、悪意のある入力の防止、コンテンツの安全性の検証、機密データの保護、コンプライアンスの維持、AI アプリケーション全体での AI の安全性とセキュリティポリシーの一貫した適用に役立ちます。

アーキテクチャ

Model Armor のデータフローを示すアーキテクチャ図

このアーキテクチャ図は、Model Armor を使用して LLM とユーザーを保護するアプリケーションを示しています。データフローは次のとおりです。

ユーザーがアプリケーションにプロンプトを指定します。
Model Armor は、受信したプロンプトを検査して、デリケートなコンテンツが含まれているかどうかを確認します。
プロンプト（またはサニタイズされたプロンプト）が LLM に送信されます。
LLM が応答を生成する。
Model Armor は、生成されたレスポンスにデリケートなコンテンツが含まれているかどうかを検査します。
レスポンス（またはサニタイズされたレスポンス）がユーザーに送信されます。Model Armor は、トリガーされたフィルタとトリガーされなかったフィルタの詳細な説明をレスポンスで送信します。

Model Armor は、入力（プロンプト）と出力（レスポンス）の両方をフィルタリングして、LLM が悪意のあるコンテンツやデリケートなコンテンツにさらされる、またはそのようなコンテンツを生成するのを防止します。

ユースケース

Model Armor には、次のようなユースケースがいくつかあります。

セキュリティ
- LLM のプロンプトやレスポンスで機密性の高い知的財産（IP）や個人情報（PII）が漏洩するリスクを軽減します。
- プロンプトインジェクションやジェイルブレイク攻撃から保護し、悪意のある行為者が AI システムを操作して意図しないアクションを実行することを防ぎます。
- PDF のテキストをスキャンして、デリケートなコンテンツや悪意のあるコンテンツを検出します。
安全性と責任ある AI
- chatbot が競合他社のソリューションを推奨しないようにして、ブランドの完全性と顧客ロイヤルティを維持します。
- 危険なコンテンツやヘイトコンテンツなど、有害なメッセージを含む AI アプリケーションによって生成されたソーシャルメディア投稿をフィルタします。

Model Armor テンプレート

Model Armor テンプレートを使用すると、Model Armor がプロンプトとレスポンスをスクリーニングする方法を構成できます。これらは、さまざまな安全性とセキュリティの信頼度に合わせてカスタマイズされたフィルタとしきい値のセットとして機能します。これにより、フラグが設定されたコンテンツを制御できます。

しきい値は信頼度を表します。つまり、プロンプトまたはレスポンスに不適切なコンテンツが含まれていると Model Armor がどの程度確信しているかを表します。たとえば、HIGH しきい値でヘイトコンテンツのプロンプトをフィルタするテンプレートを作成できます。これは、プロンプトにヘイトコンテンツが含まれているという高い信頼度を Model Armor が報告することを意味します。LOW_AND_ABOVE しきい値は、そのクレームの信頼度（LOW、MEDIUM、HIGH）を示します。

詳細については、Model Armor テンプレートをご覧ください。

Model Armor の信頼度

信頼度は、責任ある AI の安全性カテゴリ（性的に露骨な表現、危険なコンテンツ、ハラスメント、ヘイトスピーチ）、プロンプトインジェクションとジェイルブレイクの検出、センシティブデータ保護（トピック性を含む）に設定できます。

しきい値を細かく設定できる信頼度の場合、Model Armor は次のように解釈します。

高: メッセージに高い確率で悪意のあるコンテンツが含まれているかどうかを特定します。
中以上: メッセージに中程度以上の確率で悪意のあるコンテンツが含まれているかどうかを特定します。
低以上: メッセージに低、中程度、または高い確率で悪意のあるコンテンツが含まれているかどうかを特定します。

Model Armor フィルタ

Model Armor は、安全でセキュアな AI モデルの提供に役立つさまざまなフィルタを提供します。次のフィルタカテゴリを使用できます。

責任ある AI の安全フィルタ

プロンプトとレスポンスは、次のカテゴリに対して指定された信頼度でスクリーニングできます。

カテゴリ	定義
ヘイトスピーチ	ID や保護されている属性をターゲットとする否定的なコメントや有害なコメント
嫌がらせ	他人をターゲットにした脅し、威圧表現、いじめ、虐待的な内容を含むコメント
性的に露骨な表現	性行為やわいせつな内容に関する情報が含まれるコンテンツ
危険なコンテンツ	有害な商品、サービス、アクティビティへのアクセスを促進または可能にするコンテンツ。
CSAM	児童性的虐待のコンテンツ（CSAM）に関する情報が含まれている。このフィルタはデフォルトで適用され、無効にすることはできません。

プロンプトインジェクションとジェイルブレイクの検出

プロンプトインジェクションは、攻撃者がテキスト入力（プロンプト）に特別なコマンドを挿入して AI モデルを騙そうとするセキュリティ脆弱性です。これにより、AI が通常の指示を無視したり、機密情報を開示したり、意図しないアクションを実行したりする可能性があります。LLM のコンテキストでのジェイルブレイクとは、モデルに組み込まれている安全プロトコルと倫理ガイドラインをバイパスする行為を指します。これにより、LLM は有害、非倫理的、危険なコンテンツなど、本来回避するように設計されている回答を生成する可能性があります。

プロンプトインジェクションとジェイルブレイクの検出が有効になっている場合、Model Armor はプロンプトとレスポンスで悪意のあるコンテンツをスキャンします。検出されると、Model Armor はプロンプトまたはレスポンスをブロックします。

Sensitive Data Protection

Sensitive Data Protection は、機密データの検出、分類、匿名化を支援する Google Cloud サービスです。Sensitive Data Protection は、機密要素、コンテキスト、ドキュメントを識別して、AI ワークロードに対するデータ漏洩のリスクを軽減します。Sensitive Data Protection を Model Armor 内で直接使用すると、機密性のないコンテキストを保持しながら、機密性の高い要素を変換、トークン化、削除できます。Model Armor は既存の検査テンプレートを受け入れることができます。これは、ビジネスとコンプライアンスのニーズに合わせて機密データのスキャンと識別のプロセスを効率化するブループリントのような構成です。これにより、Sensitive Data Protection を使用する他のワークロードとの間で一貫性と相互運用性を確保できます。

Model Armor には、Sensitive Data Protection の構成用に次の 2 つのモードがあります。

基本構成: このモードでは、スキャンする機密データのタイプを指定して Sensitive Data Protection を構成します。このモードは、次のカテゴリをサポートしています。
- クレジットカード番号
- 米国の社会保障番号（SSN）
- 金融口座番号
- 米国の個人納税者識別番号（ITIN）
- Google Cloud 認証情報
- Google Cloud API キー
基本構成では検査オペレーションのみがサポートされ、Sensitive Data Protection テンプレートの使用はサポートされていません。詳細については、Sensitive Data Protection の基本構成をご覧ください。
高度な構成: このモードでは、Sensitive Data Protection テンプレートを使用して、柔軟性とカスタマイズ性が向上します。Sensitive Data Protection テンプレートは、より詳細な検出ルールと匿名化手法を指定できる事前定義済みの構成です。高度な構成では、検査と匿名化の両方のオペレーションがサポートされています。

Sensitive Data Protection の信頼度は、他のフィルタの信頼度とは動作が異なります。Sensitive Data Protection の信頼度の詳細については、Sensitive Data Protection の一致の可能性をご覧ください。Sensitive Data Protection の概要については、Sensitive Data Protection の概要をご覧ください。

悪意のある URL の検出

悪意のある URL は、正規の URL に見せかけるために偽装されていることが多く、フィッシング攻撃やマルウェアの配布など、オンラインの脅威に利用される強力なツールとなっています。たとえば、PDF に不正な URL を埋め込み、LLM 出力を処理するダウンストリームシステムを侵害するために使用される可能性があります。

悪意のある URL の検出が有効になっている場合、Model Armor は URL をスキャンして、悪意のある URL かどうかを特定します。これにより、対策を講じ、悪意のある URL が返されるのを防ぐことができます。

適用タイプを定義する

違反が検出された後の処理を定義します。Model Armor が検出を処理する方法を構成するには、適用タイプを設定します。Model Armor には次の適用タイプがあります。

検査のみ: Model Armor は、構成された設定に違反するリクエストを検査しますが、ブロックはしません。
検査とブロック: Model Armor は、構成された設定に違反するリクエストをブロックします。

詳細については、テンプレートの適用タイプを定義するとフロア設定の適用タイプを定義するをご覧ください。

Inspect only を効果的に使用して貴重な分析情報を得るには、Cloud Logging を有効にします。Cloud Logging が有効になっていないと、Inspect only は有用な情報を生成しません。

Cloud Logging を使用してログにアクセスします。サービス名 modelarmor.googleapis.com でフィルタします。テンプレートで有効にしたオペレーションに関連するエントリを探します。詳細については、ログエクスプローラを使用してログを表示するをご覧ください。

Model Armor のフロア設定

Model Armor テンプレートは個々のアプリケーションに柔軟性を提供しますが、組織は多くの場合、すべての AI アプリケーションにわたって保護のベースラインレベルを確立する必要があります。Model Armor のフロア設定を使用して、このベースラインを確立します。これらは、 Google Cloud リソース階層のプロジェクトレベルで作成されたすべてのテンプレートの最小要件を定義します。

詳細については、Model Armor のフロア設定をご覧ください。

言語サポート

Model Armor フィルタは、複数の言語にわたるプロンプトと回答のサニタイズをサポートしています。

Sensitive Data Protection フィルタは、選択した infoTypes に応じて、英語やその他の言語をサポートしています。
責任ある AI とプロンプトインジェクションとジェイルブレイクの検出のフィルタは、次の言語でテストされています。
- 中国語（北京語）
- 英語
- フランス語
- ドイツ語
- イタリア語
- 日本語
- 韓国語
- ポルトガル語
- スペイン語
これらのフィルタは他の多くの言語でも機能しますが、結果の品質は異なる場合があります。言語コードについては、サポートされている言語をご覧ください。

多言語検出を有効にする方法は 2 つあります。

リクエストごとに有効にする: 詳細な制御を行うには、ユーザープロンプトをサニタイズするときとモデルレスポンスをサニタイズするときに、リクエストごとに多言語検出を有効にします。
1 回限りの有効化: よりシンプルな設定を希望する場合は、REST API を使用して、Model Armor テンプレートレベルで多言語検出を 1 回限りの構成として有効にできます。詳細については、Model Armor テンプレートを作成するをご覧ください。

ドキュメントのスクリーニング

ドキュメントのテキストには、悪意のあるコンテンツやデリケートなコンテンツが含まれている可能性があります。Model Armor は、次のタイプのドキュメントの安全性、プロンプトインジェクションとジェイルブレイクの試行、センシティブデータ、悪意のある URL をスクリーニングできます。

PDF
CSV
テキストファイル（TXT）
Microsoft Word ドキュメント: DOCX、DOCM、DOTX、DOTM
Microsoft PowerPoint スライド: PPTX、PPTM、POTX、POTM、POT
Microsoft Excel シート: XLSX、XLSM、XLTX、XLTM

データの取り扱いと保存

Model Armor は、プライバシーとデータ最小化の原則を考慮して設計されています。このセクションでは、Model Armor でのデータの処理方法について説明します。

ステートレス処理とコンテンツの破棄: Model Armor はステートレスサービスとして動作し、すべてのプロンプトとモデルレスポンスをメモリ内で完全に処理します。標準オペレーション中に分析されたコンテンツは、ログに記録、保存、永続的に保持されません。すべてのデータは、分析が完了するとすぐに破棄されます。
お客様が制御するロギング: 処理中のコンテンツに関連するデータが保存されるのは、Cloud Logging を使用する場合のみです。Model Armor サービスで Cloud Logging を有効にすると、構成されたメタデータや分析されたコンテンツのスニペットなどのイベントの詳細が、指定された Cloud Logging の宛先に送信されます。ロギングされるデータの範囲とその保持期間は、Cloud Logging の構成によって決まります。
安全なストレージと暗号化: Model Armor で処理されるすべてのデータは、業界標準の暗号化で保護されます。これには、TLS 1.2 以降を使用して転送中のデータと、分析中にメモリに一時的に存在するデータが含まれます。
リージョンデータ所在地: Model Armor の処理はステートレスですが、このサービスは厳格なデータ所在地管理をサポートしています。これにより、すべての一時的な処理が、US や EU などの定義された地理的境界内でのみ行われるようになります。
選択的処理: 運用効率と地域コンプライアンスを確保するため、Model Armor はアクティブなフィルタのデータのみを送信して処理します。特定のフィルタが無効になっている場合（地域での利用可能性やユーザー設定などが原因）、そのフィルタに関連付けられている基盤となるサービスにデータが送信されたり、そのサービスでデータが処理されたりすることはありません。
グローバルコンプライアンス標準: Google Cloud エコシステムの一部として、Model Armor は厳格なセキュリティ基盤のメリットを享受します。インフラストラクチャは、SOC 1/2/3 や ISO/IEC 27001 などの認証を維持するために、定期的に独立した監査を受けています。

要約すると、Model Armor は、プラットフォームロギングを明示的に構成して有効にしない限り、AI インタラクションのコンテンツを保存しません。これにより、データ保持を制御できます。

料金

Model Armor は、Security Command Center の統合された一部として購入することも、スタンドアロンサービスとして購入することもできます。料金については、 Security Command Center の料金をご覧ください。

トークン

生成 AI モデルは、テキストなどのデータをトークンという単位に分割します。Model Armor は、料金設定の目的で AI プロンプトとレスポンスのトークンの合計数を使用します。Model Armor は、各プロンプトとレスポンスで処理されるトークンの数を制限します。トークンの上限については、トークンの上限をご覧ください。