Intégration de Model Armor aux services Google Cloud

Model Armor s'intègre à différents Google Cloud services :

  • Google Kubernetes Engine (GKE) et Service Extensions
  • Vertex AI
  • Gemini Enterprise
  • Serveurs MCP Google Cloud (aperçu)

GKE et Service Extensions

Model Armor peut être intégré à GKE via Service Extensions. Les extensions de service vous permettent d'intégrer des services internes (Google Cloud services) ou externes (gérés par l'utilisateur) pour traiter le trafic. Vous pouvez configurer une extension de service sur les équilibreurs de charge d'application, y compris les passerelles d'inférence GKE, pour filtrer le trafic vers et depuis un cluster GKE. Cela permet de vérifier que toutes les interactions avec les modèles d'IA sont protégées par Model Armor. Pour en savoir plus, consultez Intégration à GKE.

Vertex AI

Model Armor peut être intégré directement à Vertex AI à l'aide de paramètres de plancher ou de modèles. Cette intégration filtre les requêtes et les réponses du modèle Gemini, en bloquant celles qui ne respectent pas les paramètres de plancher. Elle assure la protection des requêtes et des réponses dans l'API Gemini de Vertex AI pour la méthode generateContent. Vous devez activer Cloud Logging pour obtenir de la visibilité sur les résultats de désinfection des requêtes et des réponses. Pour en savoir plus, consultez Intégration à Vertex AI.

Gemini Enterprise

Model Armor peut être intégré directement à Gemini Enterprise à l'aide de modèles. Gemini Enterprise achemine les interactions entre les utilisateurs et les agents, ainsi que les LLM sous-jacents via Model Armor. Cela signifie que les requêtes des utilisateurs ou des agents, ainsi que les réponses générées par les LLM, sont inspectées par Model Armor avant d'être présentées à l'utilisateur. Pour en savoir plus, consultez Intégration à Gemini Enterprise.

Serveurs MCP Google Cloud

Vous pouvez configurer Model Armor pour protéger vos données et sécuriser le contenu lorsque vous envoyez des requêtes aux Google Cloud services qui exposent des outils et des serveurs MCP (Model Context Protocol). Model Armor helps sécuriser vos applications d'IA agentiques en désinfectant les appels et les réponses des outils MCP à l'aide de paramètres de plancher. Ce processus atténue les risques tels que l'injection de requêtes et la divulgation de données sensibles. Pour en savoir plus, consultez Intégration aux serveurs MCP Google Cloud.

Avant de commencer

Activer les API

Vous devez activer les API Model Armor avant de pouvoir utiliser Model Armor.

Console

  1. Activer l'API Model Armor

    Rôles requis pour activer les API

    Pour activer les API, vous avez besoin du rôle IAM Administrateur d'utilisation du service (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.

    Activer l'API

  2. Sélectionnez le projet dans lequel vous souhaitez activer Model Armor.

gcloud

Avant de commencer, suivez ces étapes à l'aide de la Google Cloud CLI avec l'API Model Armor :

  1. Dans la Google Cloud console, activez Cloud Shell.

    Activer Cloud Shell

    En bas de la fenêtre de la console, une session Cloud Shell démarre et affiche une invite de ligne de commande. Google Cloud Cloud Shell est un environnement shell dans lequel la Google Cloud CLI est déjà installée, et dans lequel des valeurs sont déjà définies pour votre projet actuel. L'initialisation de la session peut prendre quelques secondes.

  2. Exécutez la commande suivante pour définir le point de terminaison de l'API pour le service Model Armor.

    gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"

    Remplacez LOCATION par la région dans laquelle vous souhaitez utiliser Model Armor.

Gérer le quota

Model Armor utilise un système de quotas pour garantir une utilisation équitable et protéger la stabilité du système. Le quota par défaut pour l'API Model Armor est de 1 200 RPM par projet. Vous pouvez appliquer une valeur comprise entre 0 et 1 200 RPM par projet. Pour demander un ajustement, consultez Demander un ajustement de quota. Si vous avez besoin d'un quota supérieur à celui par défaut, contactez Cloud Customer Care.

Le quota Model Armor nécessite des considérations importantes lors de l'intégration à d'autres services. Le quota principal avec lequel vous interagissez est le nombre de requêtes API par minute et par projet.

  • Quota par défaut de Model Armor : lorsqu'un service effectue un appel à l'API Model Armor pour l'analyse (par exemple, la vérification des requêtes ou des réponses), cela consomme le quota de l'API Model Armor de votre projet.
  • Quota des services d'intégration : le quota Model Armor est distinct de tous les quotas associés aux services d'intégration. Vous devez vous assurer que le quota est suffisant pour tous les services de votre chemin de requête. Tout appel effectué à l'API Model Armor pour désinfecter le contenu de votre application est pris en compte dans les limites de quota de l'API Model Armor.

Découvrir les situations de dépassement de quota

Vous atteignez les limites de quota Model Armor si les journaux de votre application affichent des erreurs de Model Armor, généralement des erreurs HTTP 429 RESOURCE_EXHAUSTED, qui indiquent un nombre excessif de requêtes.

Estimer les besoins en quota

Pour déterminer le quota Model Armor à demander :

  • Estimez le nombre maximal de requêtes par minute que vos services enverront à Model Armor.
  • Tenez compte du nombre de fois où Model Armor est appelé par interaction utilisateur avec votre service (par exemple, une fois pour la requête et une fois pour la réponse).
  • Tenez compte du nombre maximal d'utilisateurs ou de sessions simultanés.
  • Demandez un quota avec une marge raisonnable (par exemple, 20 à 30 % au-dessus de votre pic prévu) pour gérer les pics inattendus.
  • Commencez par votre meilleure estimation, surveillez attentivement l'utilisation après le lancement et demandez des ajustements supplémentaires si nécessaire.

Par exemple, si vous prévoyez 500 utilisateurs par minute et que chaque interaction utilisateur appelle Model Armor deux fois (requête et réponse), vous avez besoin d'au moins 1 000 RPM. En tenant compte d'une marge, demander 1 200 à 1 300 RPM est un bon point de départ.

Remarques

  • Assurez-vous de surveiller et de gérer les quotas pour les autres services. Le manque de quota pour d'autres services a un impact sur votre application, même si vous disposez d'un quota Model Armor suffisant.
  • Mettez en œuvre des nouvelles tentatives côté client avec un intervalle exponentiel entre les tentatives dans la configuration de votre application pour gérer les problèmes de quota temporaires ou d'autres erreurs pouvant être retentées. Pour en savoir plus, consultez Stratégie de nouvelle tentative.

Options lors de l'intégration de Model Armor

Model Armor propose les options d'intégration suivantes. Chaque option offre des fonctionnalités différentes.

Option d'intégration Application/détection des règles Configurer les détections Inspecter uniquement Inspecter et bloquer Couverture du modèle et du cloud
API REST Détecteur Utilisation de modèles uniquement Oui Oui Tous les modèles et tous les clouds
Vertex AI Application intégrée Utilisation de paramètres de plancher ou de modèles Oui Oui Gemini (non-streaming) sur Google Cloud
Google Kubernetes Engine Application intégrée Utilisation de modèles uniquement Oui Oui Modèles au format OpenAI sur Google Cloud1
Gemini Enterprise Application intégrée Utilisation de modèles uniquement Oui Oui Tous les modèles et tous les clouds
Google Cloud Serveurs MCP (aperçu) Application intégrée Utilisation de paramètres de plancher uniquement Oui Oui MCP sur Google Cloud

1 Plusieurs modèles populaires, y compris Anthropic Claude, Mistral AI et Grok, sont compatibles avec les spécifications OpenAI. Ces modèles sont généralement déployés à l'aide de moteurs d'inférence tels que vLLM, qui fournissent la couche d'API compatible avec OpenAI nécessaire. vLLM est compatible avec un large éventail de modèles, y compris les séries Meta Llama, DeepSeek, Mistral et Mixtral, ainsi que Gemma.

Pour l'option d'intégration de l'API REST, Model Armor fonctionne uniquement comme détecteur à l'aide de modèles. Cela signifie qu'il identifie et signale les violations potentielles des règles en fonction de modèles prédéfinis plutôt que de les empêcher activement. Lors de l'intégration à l'API Model Armor, votre application peut utiliser sa sortie pour bloquer ou autoriser des actions en fonction des résultats de l'évaluation de la sécurité fournis. L'API Model Armor renvoie des informations sur les menaces potentielles ou les violations de règles liées à votre trafic d'API, en particulier dans le cas d'interactions IA/LLM. Votre application peut appeler l'API Model Armor et utiliser les informations reçues dans la réponse pour prendre une décision et agir en fonction de votre logique personnalisée prédéfinie.

Avec l'option d'intégration Vertex AI, Model Armor fournit une application intégrée à l'aide de paramètres de plancher ou de modèles. Cela signifie que Model Armor applique activement les règles en intervenant directement dans le processus sans nécessiter de modifications du code de votre application.

Les intégrations GKE et Gemini Enterprise n'utilisent que des modèles pour l'application intégrée des règles. Cela signifie que Model Armor peut appliquer des règles directement sans que vous ayez à modifier le code de l'application à la fois dans la passerelle d'inférence GKE et lors des interactions utilisateur ou agent dans les instances Gemini Enterprise.

L'intégration de Model Armor et de Gemini Enterprise ne désinfecte que la requête utilisateur initiale et la réponse finale de l'agent ou du modèle. Les étapes intermédiaires qui se produisent entre la requête utilisateur initiale et la génération de la réponse finale ne sont pas couvertes par cette intégration.

Model Armor dans Security Command Center

Model Armor inspecte les requêtes et les réponses LLM pour détecter diverses menaces, y compris l'injection de requêtes, les tentatives de jailbreak, les URL malveillantes et les contenus nuisibles. Lorsque Model Armor détecte une violation d'un paramètre de plancher configuré, il bloque la requête ou la réponse et envoie un résultat à Security Command Center. Pour en savoir plus, consultez Résultats Model Armor.