Intégrer les services Google Cloud

Model Armor s'intègre aux services Google Cloud pour sécuriser les interactions avec l'IA et les grands modèles de langage (LLM). Model Armor identifie et signale les cas potentiels de non-respect des règles, et peut bloquer activement les actions en fonction des évaluations de sécurité.

Model Armor s'intègre à différents services Google Cloud :

Apigee

L'intégration vous permet d'utiliser les fonctionnalités de protection par IA de Model Armor directement dans la couche de passerelle d'API Apigee. Vous configurez des règles Model Armor spécifiques dans vos proxys d'API Apigee. Lorsqu'un appel d'API passe par un proxy Apigee doté de ces règles, Apigee envoie les requêtes et les réponses au service Model Armor pour inspection. Pour en savoir plus, consultez Intégrer à Apigee.

Gemini Enterprise

Model Armor peut être directement intégré à Gemini Enterprise à l'aide de modèles. Gemini Enterprise achemine les interactions entre les utilisateurs et les agents, ainsi que les LLM sous-jacents, via Model Armor. Cela signifie que les requêtes des utilisateurs ou des agents, ainsi que les réponses générées par les LLM, sont inspectées par Model Armor avant d'être présentées à l'utilisateur. Pour en savoir plus, consultez Intégrer à Gemini Enterprise.

Google et les serveurs Google Cloud MCP

Model Armor peut être configuré pour protéger vos données et sécuriser le contenu lorsque vous envoyez des requêtes aux services Google Cloud qui exposent des outils et des serveurs MCP (Model Context Protocol). Model Armor vous aide à sécuriser vos applications d'IA agentiques en assainissant les appels et les réponses des outils MCP à l'aide des paramètres de plancher. Ce processus atténue les risques tels que l'injection de requêtes et la divulgation de données sensibles. Pour en savoir plus, consultez Intégrer aux serveurs Google et Google Cloud MCP.

GKE et les extensions de service

Model Armor peut être intégré à GKE via les extensions de service. Les extensions de service vous permettent d'intégrer des services internes (Google Cloud ) ou externes (gérés par l'utilisateur) pour traiter le trafic. Vous pouvez configurer une extension de service sur les équilibreurs de charge d'application, y compris les passerelles d'inférence GKE, pour filtrer le trafic vers et depuis un cluster GKE. Cela permet de vérifier que toutes les interactions avec les modèles d'IA sont protégées par Model Armor. Pour en savoir plus, consultez Intégrer à GKE.

Vertex AI

Model Armor peut être directement intégré à Vertex AI à l'aide de paramètres de seuil ou de templates. Cette intégration analyse les requêtes et les réponses du modèle Gemini, et bloque celles qui ne respectent pas les paramètres de plancher. Cette intégration assure la protection des requêtes et des réponses dans l'API Gemini de Vertex AI pour la méthode generateContent. Vous devez activer Cloud Logging pour obtenir de la visibilité sur les résultats de la désinfection des requêtes et des réponses. Pour en savoir plus, consultez Intégration de Vertex AI.

Avant de commencer

Activer les API

Vous devez activer les API Model Armor avant de pouvoir utiliser Model Armor.

Console

  1. Activer l'API Model Armor

    Rôles requis pour activer les API

    Pour activer les API, vous avez besoin du rôle IAM Administrateur Service Usage (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.

    Activer l'API

  2. Sélectionnez le projet dans lequel vous souhaitez activer Model Armor.

gcloud

Avant de commencer, suivez ces étapes à l'aide de la Google Cloud CLI avec l'API Model Armor :

  1. Dans la console Google Cloud , activez Cloud Shell.

    Activer Cloud Shell

    En bas de la console Google Cloud , une session Cloud Shell démarre et affiche une invite de ligne de commande. Cloud Shell est un environnement shell dans lequel Google Cloud CLI est déjà installé, et dans lequel des valeurs sont déjà définies pour votre projet actuel. L'initialisation de la session peut prendre quelques secondes.

  2. Exécutez la commande suivante pour définir le point de terminaison de l'API pour le service Model Armor.

    gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"

    Remplacez LOCATION par la région dans laquelle vous souhaitez utiliser Model Armor.

Gérer le quota

Model Armor utilise un système de quotas pour garantir une utilisation équitable et protéger la stabilité du système. Le quota par défaut pour l'API Model Armor est de 1 200 RPM par projet. Vous pouvez appliquer une valeur comprise entre 0 et 1 200 requêtes par minute et par projet. Pour demander un ajustement, consultez Demander un ajustement de quota. Si vous avez besoin d'un quota supérieur à celui par défaut, contactez Cloud Customer Care.

Le quota Model Armor nécessite des considérations importantes lors de l'intégration à d'autres services. Le quota principal avec lequel vous interagissez est le nombre de requêtes API par minute et par projet.

  • Quota par défaut de Model Armor : lorsqu'un service appelle l'API Model Armor pour analyse (par exemple, pour vérifier les requêtes ou les réponses), cela consomme le quota d'API Model Armor de votre projet.
  • Quota des services d'intégration : le quota de Model Armor est distinct de tous les quotas associés aux services d'intégration. Vous devez vous assurer qu'il existe un quota suffisant pour tous les services de votre chemin de requête. Tout appel effectué à l'API Model Armor pour assainir le contenu de votre application est comptabilisé dans les limites de quota de l'API Model Armor.

Détecter les situations de dépassement de quota

Vous avez atteint les limites de quota Model Armor si les journaux de votre application affichent des erreurs de Model Armor, généralement des erreurs HTTP 429 RESOURCE_EXHAUSTED, qui indiquent un nombre de requêtes trop élevé.

Estimer les besoins en quota

Pour déterminer le quota Model Armor à demander :

  • Estimez le nombre maximal de requêtes par minute que vos services enverront à Model Armor.
  • Déterminez le nombre de fois où Model Armor est appelé par interaction utilisateur avec votre service (par exemple, une fois pour la requête et une fois pour la réponse).
  • Tenez compte du nombre maximal d'utilisateurs ou de sessions simultanés.
  • Demandez un quota avec une marge raisonnable (par exemple, 20 à 30 % au-dessus de votre pic attendu) pour gérer les pics inattendus.
  • Commencez par faire votre meilleure estimation, surveillez attentivement l'utilisation après le lancement et demandez d'autres ajustements si nécessaire.

Par exemple, si vous prévoyez 500 utilisateurs par minute et que chaque interaction utilisateur appelle Model Armor deux fois (prompt et réponse), vous avez besoin d'au moins 1 000 QPM. En tenant compte d'une marge, une bonne base de départ consiste à demander 1 200 à 1 300 QPM.

Remarques

  • Assurez-vous de surveiller et de gérer les quotas pour les autres services. Si vous manquez de quota pour d'autres services, cela aura un impact sur votre application, même si vous disposez d'un quota Model Armor suffisant.
  • Mettez en œuvre des nouvelles tentatives côté client avec un intervalle exponentiel entre les tentatives dans la configuration de votre application pour gérer les problèmes de quota temporaires ou d'autres erreurs pouvant être corrigées par une nouvelle tentative. Pour en savoir plus, consultez Stratégie de nouvelle tentative.

Intégrer à l'aide de l'API REST

Lorsque vous utilisez l'API REST pour l'intégration, Model Armor ne fonctionne que comme détecteur à l'aide de modèles. Il identifie et signale les cas potentiels de non-respect des règles en fonction de modèles prédéfinis, mais ne les empêche pas activement. Lorsque vous intégrez l'API Model Armor, votre application peut utiliser la sortie de Model Armor pour bloquer ou autoriser des actions en fonction des résultats de l'évaluation de sécurité fournis. L'API Model Armor renvoie des informations sur les menaces potentielles ou les cas de non-respect des règles liés au trafic de votre API, en particulier dans le cas des interactions avec l'IA/LLM. Votre application peut appeler l'API Model Armor et utiliser les informations reçues dans la réponse pour prendre une décision et agir en fonction de votre logique personnalisée prédéfinie.

Options d'intégration de Model Armor

Model Armor propose les options d'intégration suivantes. Chaque option offre des fonctionnalités différentes.

Option d'intégration Outil d'application/de détection des règles Configurer les détections Inspecter uniquement Inspecter et bloquer Couverture des modèles et du cloud
Apigee Application intégrée Utiliser uniquement des modèles Oui Oui Tous les modèles et tous les clouds
Gemini Enterprise Application intégrée Utiliser uniquement des modèles Oui Oui Tous les modèles et tous les clouds
Google et les serveurs MCP Google Cloud (aperçu) Application intégrée Utilisation des paramètres de plancher uniquement Oui Oui Google et les serveurs MCP Google Cloud
Google Kubernetes Engine Application intégrée Utiliser uniquement des modèles Oui Oui Modèles au format OpenAI activés Google Cloud1
Vertex AI Application intégrée Utiliser les paramètres de plancher ou les modèles Oui Oui Gemini (non-streaming) sur Google Cloud

1 Plusieurs modèles populaires, dont Anthropic Claude, Mistral AI et Grok, sont compatibles avec les spécifications OpenAI. Ces modèles sont généralement déployés à l'aide de moteurs d'inférence tels que vLLM, qui fournissent la couche d'API compatible avec OpenAI nécessaire. vLLM est compatible avec un large éventail de modèles, y compris les séries Meta Llama, les familles DeepSeek, Mistral et Mixtral, ainsi que Gemma.

Avec l'option d'intégration Vertex AI, Model Armor fournit une application intégrée à l'aide de paramètres ou de modèles de seuil. Cela signifie que Model Armor applique activement les règles en intervenant directement dans le processus, sans nécessiter de modifications du code de votre application.

Les intégrations GKE et Gemini Enterprise n'utilisent des modèles que pour l'application des règles intégrées. Cela signifie que Model Armor peut appliquer des règles directement sans que vous ayez à modifier le code de l'application, à la fois dans la passerelle d'inférence GKE et lors des interactions utilisateur ou agent dans les instances Gemini Enterprise.

L'intégration de Model Armor et Gemini Enterprise ne désinfecte que la requête utilisateur initiale et la réponse finale de l'agent ou du modèle. Les étapes intermédiaires qui se produisent entre la requête initiale de l'utilisateur et la génération de la réponse finale ne sont pas couvertes par cette intégration.

Model Armor dans Security Command Center

Model Armor inspecte les requêtes et les réponses des LLM pour détecter diverses menaces, y compris l'injection de requêtes, les tentatives de jailbreak, les URL malveillantes et les contenus nuisibles. Lorsque Model Armor détecte une infraction à un paramètre de seuil configuré, il bloque la requête ou la réponse et envoie un résultat à Security Command Center. Pour en savoir plus, consultez Résultats de Model Armor.