Gemini Enterprise Agent Platform の安全性

Gemini などの生成 AI モデルでは、有害なコンテンツの生成、機密情報の漏洩、不正使用などのリスクを軽減するために、堅牢な安全対策が必要です。 Google Cloudの Gemini Enterprise Agent Platform は、Gemini モデルに包括的な安全対策を実装するための一連のツールとプラクティスを提供します。

潜在的な安全上のリスクと軽減策

Gemini モデルをデプロイする際は、さまざまな潜在的なリスクを特定して軽減することが重要です。これらのリスクを理解するためのプロアクティブなアプローチにより、安全対策をより効果的に実施できます。多層的なアプローチによる安全性は、次のようなリスクを軽減または防止できるため、非常に重要です。

  • コンテンツのリスク: 有害なコンテンツ、冒とくや性的な表現、暴力的または残虐なコンテンツなどが該当します。
  • ブランド保護のリスク: 生成されたコンテンツがブランドのトーンや価値観に沿っていない、競合他社や不適切な商品を推奨している、評判を損なう可能性のあるコンテンツを生成している、といったリスクがあります。
  • アライメントのリスク: 生成されたコンテンツが関連性のないものや不正確なものになる可能性があります。
  • セキュリティとプライバシーのリスク: 生成されたコンテンツから機密性の高いトレーニング データやプロンプトが漏洩する可能性があります。また、悪意のあるユーザーがモデルに安全プロトコルをオーバーライドさせる可能性や、意図しない動作を行う可能性があります。

デプロイされたモデルには、こうした潜在的な問題に対処するためのさまざまな機能が用意されています。

  • デフォルトのモデルと構成不可のフィルタは、一般的な安全ネットを提供します。
  • システム指示は、望ましい動作や避けるべきトピックについてモデルに直接的なガイダンスを提供します。
  • コンテンツ フィルタを使用すると、一般的な有害コンテンツの種類について特定のしきい値を設定できます。
  • フィルタとしての Gemini は、前のレイヤでは見逃される可能性のある複雑な安全性の懸念や、コンテキスト アウェアの評価が必要な安全性の懸念に対して、高度でカスタマイズ可能なチェックポイントを提供します。
  • Model Armor は、プロンプト インジェクションとジェイルブレイク、コンテンツの有害性、機密データの保護、マルウェアの検出と安全なブラウジングに対するエンタープライズ グレードの保護を提供します。
  • DLP は、モデルがセンシティブ データにアクセスできる場合に、センシティブ データの漏洩という重大なリスクに特に対処します。カスタム ブロックリストを作成することもできます。
  • Content Credentials は、Gemini 3 Pro Image モデルを使用して生成された画像に暗号署名された C2PA メタデータを追加し、AI によって生成されたことを示し、その出所を検証できる履歴を提供します。

Gemini Enterprise Agent Platform for Gemini で利用可能な安全性ツール

Gemini Enterprise Agent Platform には、Gemini モデルの安全性を管理するためのツールがいくつか用意されています。それぞれの仕組み、考慮事項、理想的なユースケースを理解することで、カスタマイズされた安全ソリューションを構築できます。

アプローチ 仕組み 提供されている保護 リスク 使用する状況
デフォルト設定: Gemini + 構成不可のフィルタ Gemini モデルは、敵対的なプロンプトに直面した場合でも、安全性と公平性を考慮して設計されています。Google は、偏見や有害性を含めて、包括的な安全性評価に投資しています。デフォルト設定には、児童性的虐待のコンテンツ(CSAM)や著作権で保護されたコンテンツ(列挙)に関連するコンテンツの生成を防ぐように設計された独立した保護レイヤが含まれています。 児童性的虐待のコンテンツと著作権に対する基本的な保護(列挙) Gemini のデフォルトの安全性が、組織のニーズを満たしていない可能性があります。モデルがハルシネーションを起こす可能性や、指示に従わない可能性があります。強い動機を持つ攻撃者が、ジェイルブレイクやプロンプト インジェクションに成功する可能性があります。 悪意のある入力が想定されていないワークフロー
構成可能なフィルタ Gemini の事前構築済みコンテンツ フィルタは、性的コンテンツ、ヘイトスピーチ、ハラスメント、危険なコンテンツなど、さまざまなカテゴリの有害なコンテンツに対する保護を強化します。有害コンテンツの確率や重大度に基づいて、有害コンテンツのカテゴリごとにブロックしきい値を構成できます(例: BLOCK_LOW_AND_ABOVEBLOCK_MEDIUM_AND_ABOVEBLOCK_ONLY_HIGH)。これらはモデルから独立したレイヤであるため、ジェイルブレイクに対して堅牢です。 事前定義済みカテゴリの違反に対して堅牢で、感度を調整可能 事前定義済みカテゴリのしきい値設定を超えたきめ細かいカスタマイズはできません。無害なコンテンツがブロックされる(偽陽性)ことや、有害なコンテンツがブロックされない(偽陰性)ことがあります。プロンプトのフィルタリングではなく、レスポンスのフィルタリングでのみ使用できます。 ユーザー向けアプリケーションまたはエージェントの基本レベルの安全性を提供します。コンテンツとブランド保護を確保することが目標の場合は、コンテンツ フィルタをシステム指示と組み合わせて使用する必要があります。
システム指示 システム指示またはプリアンブルを使用して、ブランドとコンテンツの安全に関するガイドラインをモデルに指示できます。たとえば、「政治に関する質問には回答しない」や、特定のブランドボイスとトーンのガイドラインに沿って回答するようにモデルに指示できます。システム指示は、モデルの動作を直接ガイドします。 コンテンツ/ブランド保護のカスタマイズが可能なことにより、非常に効果的になる可能性があります。 モデルがハルシネーションを起こす可能性や、指示に従わない可能性があります。強い動機を持つ攻撃者が、ジェイルブレイクやプロンプト インジェクションに成功する可能性があります。 特定のブランド ガイドラインやニュアンスのあるコンテンツ ポリシーの遵守を必要とするアプリケーションやエージェント。コンテンツとブランド保護を確保することが目標の場合は、システム指示をコンテンツ フィルタと組み合わせて使用する必要があります。
Model Armor Model Armor は、AI アプリケーションのセキュリティと安全性を強化するために設計された Google Cloud サービスです。LLM のプロンプトとレスポンスを事前にスクリーニングすることで、さまざまなリスクから保護し、責任ある AI への取り組みを確実に行います。 Google Cloud や他のクラウド プロバイダに AI をデプロイする場合でも、Model Armor を使用すると、悪意のある入力を防ぎ、コンテンツの安全性を検証し、センシティブ データを保護し、コンプライアンスを維持し、AI アプリケーション全体で AI の安全性とセキュリティ ポリシーを一貫して適用できます。 プロンプト インジェクションとジェイルブレイクのフィルタリング、コンテンツ フィルタ、機密データの保護、マルウェアの検出と安全なブラウジング。 費用とレイテンシ。 企業のお客様向けの有料サービス。
カスタム ブロックリストと Sensitive Data Protection のための DLP DLP API は、広範な事前定義済みおよびカスタムの infoType 検出機能に基づいて、テキストを検査して機密情報を特定し、分類できます。特定すると、秘匿化、マスキング、トークン化などの匿名化手法を適用できます。DLP API を使用してキーワードをブロックすることもできます。入力保護: ユーザーのプロンプトやデータを Gemini に送信する前に、DLP API を介してテキストを渡し、機密情報を秘匿化またはマスキングできます。これにより、モデルによるセンシティブ データの処理やロギングを防ぐことが可能です。出力保護: Gemini が機密情報を誤って生成または開示するリスクがある場合(PII を含むソース ドキュメントを要約する場合など)、ユーザーに送信される前にモデルの出力を DLP API でスキャンできます。 冒とくや独自の単語の堅牢なフィルタリング。センシティブ データの堅牢なフィルタリング。 レイテンシが増加します。過剰なブロックにつながる可能性があります。 センシティブ データにアクセスできるエージェントのデータ損失からの保護。
フィルタとしての Gemini Gemini を使用して、エージェントまたはアプリのプロンプトとレスポンスをフィルタできます。これには、高速で費用対効果の高い Gemini モデル(Gemini Flash や Flash Lite など)への 2 回目の呼び出しを行い、ユーザーまたはツールからの入力、またはプライマリ Gemini モデルからの出力が安全かどうかを評価することが含まれます。フィルタモデルには、コンテンツの安全性、ブランド保護、エージェントの不整合など、定義されたポリシーに基づいてコンテンツが安全か安全でないかを判断する指示が与えられます。これにより、コンテンツの安全性への違反、ブランド保護に関する問題、モデルのドリフト、ハルシネーションに対して、堅牢で高度にカスタマイズ可能な保護が提供されます。また、テキスト、画像、動画、音声を分析して、全体像を把握できます。 コンテンツ/ブランド保護、ドリフト、ハルシネーション、マルチモーダル理解のために、非常に堅牢でカスタマイズ可能です。 追加のコストとレイテンシ。極めて希な偽陰性の可能性。 ユーザー向けアプリケーションまたはエージェントのカスタムレベルの安全性を提供します。
多層アプローチ: 構成可能なフィルタ + システム指示 + DLP + フィルタとしての Gemini コンテンツ/ブランド保護、ドリフト、ハルシネーション、マルチモーダル理解のために、非常に堅牢でカスタマイズ可能です 追加のコストとレイテンシ。 特に敵対的で悪意のある使用が想定される場合、ユーザー向けアプリケーションやエージェントに堅牢なレベルの安全性を提供します。
C2PA Content Credentials サポートされているモデルの場合、Gemini Enterprise Agent Platform は、生成された画像に暗号署名された Content Credentials を自動的に追加します。これにより、画像が AI によって生成されたことを示し、C2PA 標準に従って、その出所を検証できる履歴を提供します。詳細については、Content Credentials をご覧ください。 コンテンツの出所に関する透明性。ユーザーが AI 生成画像を特定する際に役立ちます。 準拠していないツールを使用すると、ファイルの信頼性が損なわれる可能性があります。また、メディアソースの信頼性が保証されるわけではありません。 メディア生成のユースケース。ユーザーに信頼性を提供にするには、ファイルの出所と履歴に関する透明性が重要になります。

継続的な安全性評価

AI をめぐる状況と不正使用の手法は常に変化しているため、AI システムには継続的な安全性評価が不可欠です。定期的な評価は、脆弱性の特定、緩和策の有効性の評価、リスクの変化への適応、ポリシーと価値観との整合性の確保、信頼の構築、コンプライアンスの維持に役立ちます。開発評価、保証評価、レッドチーム、外部評価、ベンチマーク テストなど、さまざまな評価タイプがこの目標の達成に役立ちます。評価の範囲は、コンテンツの安全性、ブランド保護、関連性、バイアスと公平性、真実性、敵対的攻撃に対する堅牢性を対象とする必要があります。Gemini Enterprise Agent Platform の Gen AI Evaluation Service などのツールは、こうした取り組みを支援します。評価結果に基づく反復的な改善は、責任ある AI 開発に不可欠です。