Google Cloud サービスと統合する

Model Armor は、 Google Cloud サービスと統合して、 AI と大規模言語モデル(LLM)のインタラクションを保護します。Model Armor は、ポリシー違反の可能性を特定して報告し、セキュリティ評価に基づいてアクションを積極的にブロックできます。

Model Armor は、さまざまな Google Cloud サービスと統合されています。

Apigee

このインテグレーションにより、Model Armor の AI 保護機能を Apigee API ゲートウェイ レイヤ内で直接使用できます。Apigee API プロキシ内で特定の Model Armor ポリシーを構成します。API 呼び出しがこれらのポリシーを持つ Apigee プロキシを通過すると、Apigee はプロンプトとレスポンスを Model Armor サービスに送信して検査します。詳細については、 Apigee と統合するをご覧ください。

Gemini Enterprise

Model Armor は、テンプレートを使用して Gemini Enterprise と直接統合できます。Gemini Enterprise は、ユーザーとエージェント間のやり取りと基盤となる LLM を Model Armor を介してルーティングします。つまり、ユーザーやエージェントからのプロンプトと、LLM によって生成されたレスポンスは、ユーザーに提示される前に Model Armor によって検査されます。詳細については、 Gemini Enterprise と統合するをご覧ください。

Google と Google Cloud MCP サーバー

Model Armor を構成すると、データの保護と コンテンツの保護に役立ちます。 Google Cloud Model Context Protocol(MCP)ツールとサーバーを公開するサービスにリクエストを送信する際に、Model Armor は、MCP ツールの呼び出しとレスポンスをサニタイズすることで、エージェント型 AI アプリケーションを保護します。 フロア設定を使用します。このプロセスにより、プロンプト インジェクションやセンシティブ データ開示などのリスクが軽減されます。詳細については、Google と MCP サーバーと統合するをご覧ください。 Google Cloud

GKE と Service Extensions

Model Armor は、Service Extensions を介して GKE と統合できます。Service Extensions を使用すると、内部(Google Cloud サービス)または外部(ユーザー管理)サービスを統合してトラフィックを処理できます。GKE 推論ゲートウェイなどのアプリケーション ロードバランサでサービス拡張機能を構成して、GKE クラスタとの間のトラフィックをスクリーニングできます。これにより、AI モデルとのすべてのやり取りが Model Armor で保護されます。詳細については、 GKE と統合するをご覧ください。

Vertex AI

Model Armor は、 フロア設定または テンプレートを使用して、Vertex AI に直接統合できます。 このインテグレーションにより、Gemini モデルのリクエストとレスポンスがスクリーニングされ、フロア設定に違反するリクエストとレスポンスがブロックされます。このインテグレーションにより、Vertex AI の Gemini API 内で generateContent メソッドのプロンプトとレスポンスが保護されます。プロンプトとレスポンスのサニタイズ結果を可視化するには、Cloud Logging を有効にする必要があります。詳細については、 Vertex AI と統合するをご覧ください。

始める前に

API を有効にする

Model Armor を使用するには、Model Armor API を有効にする必要があります。

コンソール

  1. Model Armor API を有効にする。

    API を有効にするために必要なロール

    API を有効にするには、serviceusage.services.enable 権限を含む Service Usage 管理者 IAM ロール(roles/serviceusage.serviceUsageAdmin)が必要です。詳しくは、ロールを付与する方法をご覧ください。

    API の有効化

  2. Model Armor を有効にするプロジェクトを選択します。

gcloud

始める前に、Google Cloud CLI で Model Armor API を使用して、次の処理を行います。

  1. コンソールで Cloud Shell をアクティブにします。 Google Cloud

    Cloud Shell をアクティブにする

    コンソールの下部にある Google Cloud Cloud Shell セッションが開始し、コマンドライン プロンプトが表示されます。Cloud Shell はシェル環境です 。Google Cloud CLI がすでにインストールされており、現在のプロジェクトの値もすでに設定されています 。セッションが初期化されるまで数秒かかることがあります。

  2. 次のコマンドを実行して、Model Armor サービスの API エンドポイントを設定します。

    gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"

    LOCATION は、Model Armor を使用するリージョンに置き換えます。

割り当てを管理

Model Armor は、割り当てシステム を使用して、公平な使用を確保し、システムの安定性を保護します。Model Armor API のデフォルトの割り当ては、プロジェクトごとに 1,200 QPM です。プロジェクトごとに 0 ~ 1,200 QPM の値を適用できます。調整をリクエストするには、 割り当ての調整をリクエストするをご覧ください。 デフォルトの割り当てを超える割り当てが必要な場合は、 Cloud カスタマーケアにお問い合わせください。

Model Armor の割り当ては、他のサービスと統合する際に重要な考慮事項となります。操作する主な割り当ては、プロジェクトごとに 1 分あたりの API リクエスト数です。

  • Model Armor のデフォルトの割り当て: サービスが分析のために Model Armor API を呼び出すと(プロンプトやレスポンスの確認など)、プロジェクトの Model Armor API の割り当てが消費されます。
  • 統合サービスの割り当て: Model Armor の割り当ては、統合サービスに関連付けられた割り当てとは異なります。リクエスト パス内のすべてのサービスに十分な割り当てがあることを確認する必要があります。アプリケーションのコンテンツをサニタイズするために Model Armor API に対して行われた呼び出しは、Model Armor API の割り当て上限にカウントされます。

割り当て超過の状況を検出する

アプリケーション ログに Model Armor からのエラー(通常は HTTP 429 RESOURCE_EXHAUSTED エラー)が表示されている場合は、Model Armor の割り当て上限に達しています。これは、リクエストが多すぎることを示します。

割り当ての必要量を見積もる

リクエストする Model Armor の割り当て量を決定するには、次の操作を行います。

  • サービスが Model Armor に送信する 1 分あたりのリクエスト数のピークを見積もります。
  • サービスとのユーザー インタラクションごとに Model Armor が呼び出される回数を考慮します(たとえば、プロンプトに 1 回、レスポンスに 1 回)。
  • 同時ユーザーまたはセッションの最大数を考慮します。
  • 予期しない急増に対応するために、適切なバッファ(予想されるピークの 20 ~ 30% 増など)を含む割り当てをリクエストします。
  • 最適な見積もりから始め、リリース後に使用状況を注意深くモニタリングし、必要に応じて調整をリクエストします。

たとえば、1 分あたり 500 人のユーザーが想定され、各ユーザー インタラクションで Model Armor が 2 回(プロンプトとレスポンス)呼び出される場合、少なくとも 1,000 QPM が必要です。 バッファを考慮すると、1,200 ~ 1,300 QPM をリクエストすることをおすすめします。

考慮事項

  • 他のサービスの割り当てをモニタリングして管理していることを確認します。Model Armor の割り当てが十分であっても、他のサービスの割り当てが不足すると、アプリケーションに影響します。
  • 一時的な割り当ての問題やその他の再試行可能なエラーに対処するために、アプリケーションの設定で指数バックオフを使用したクライアントサイドの再試行を実装します。詳細については、再試行戦略をご覧ください。

REST API を使用して統合する

統合に REST API を使用する場合、Model Armor はテンプレートを使用する検出機能としてのみ機能します。ポリシー違反の可能性を積極的に防止するのではなく、事前定義されたテンプレートに基づいて特定して報告します。Model Armor API と統合すると、アプリケーションは Model Armor からの出力を使用して、提供されたセキュリティ評価の結果に基づいてアクションをブロックまたは許可できます。Model Armor API は、API トラフィックに関連する潜在的な脅威やポリシー違反に関する情報を返します。特に AI/LLM インタラクションの場合に役立ちます。アプリケーションは Model Armor API を呼び出し、レスポンスで受信した情報を使用して、事前定義されたカスタム ロジックに基づいて意思決定を行い、アクションを実行できます。

Model Armor を統合する際のオプション

Model Armor には、次のインテグレーション オプションがあります。各オプションには、異なる機能が用意されています。

インテグレーション オプション ポリシーの適用者/検出機能 検出を構成する 検査のみ 検査してブロック モデルとクラウドの対象範囲
Apigee インライン適用 テンプレートのみを使用する はい はい すべてのモデルとすべてのクラウド
Gemini Enterprise インライン適用 テンプレートのみを使用する はい はい すべてのモデルとすべてのクラウド
Google と Google Cloud MCP サーバープレビュー インライン適用 フロア設定のみを使用する はい はい Google と Google Cloud MCP サーバー
Google Kubernetes Engine インライン適用 テンプレートのみを使用する はい はい 1 Google Cloudの OpenAI 形式のモデル
Vertex AI インライン適用 フロア設定またはテンプレートを使用する はい はい の Gemini(ストリーミングなし) Google Cloud

1 Anthropic Claude、Mistral AI、 Grok など、いくつかの一般的なモデルは OpenAI 仕様をサポートしています。これらのモデルは通常、必要な OpenAI 互換 API レイヤを提供する vLLM などの推論エンジンを使用してデプロイされます。vLLM は、Meta Llama シリーズ、DeepSeek、Mistral、Mixtral ファミリー、Gemma など、幅広いモデルをサポートしています。

Vertex AI インテグレーション オプションを使用すると、Model Armor はフロア設定またはテンプレートを使用してインライン適用を行います。つまり、Model Armor は、アプリケーション コードを変更することなく、プロセスに直接介入してポリシーを積極的に適用します。

GKE と Gemini Enterprise のインテグレーションでは、インライン ポリシーの適用にテンプレートのみを使用します。つまり、Model Armor は、GKE 推論ゲートウェイ内と Gemini Enterprise インスタンス内のユーザーまたはエージェントのインタラクションの両方で、アプリケーション コードを変更することなく、ポリシーを直接適用できます。

Model Armor と Gemini Enterprise のインテグレーションでは、最初のユーザー プロンプトと最終的なエージェントまたはモデルのレスポンスのみがサニタイズされます。最初のユーザー プロンプトと最終的な回答の生成の間に行われる中間ステップは、このインテグレーションの対象外です。

Security Command Center の Model Armor

Model Armor は、LLM のプロンプトとレスポンスを検査して、プロンプト インジェクション、ジェイルブレイクの試み、悪意のある URL、有害なコンテンツなど、さまざまな脅威を検出します。Model Armor は、構成されたフロア設定の違反を検出すると、プロンプトまたはレスポンスをブロックし、Security Command Center に検出結果を送信します。詳細については、 Model Armor の検出結果をご覧ください。