Présentation de Model Armor

Model Armor est un service Google Cloud conçu pour améliorer la sécurité de vos applications d'IA. Il fonctionne en analysant de manière proactive les requêtes et les réponses des LLM, en protégeant contre divers risques et en garantissant des pratiques d'IA responsable. Que vous déployiez l'IA dans votre environnement cloud ou même chez des fournisseurs de cloud externes, Model Armor peut vous aider à prévenir les entrées malveillantes, à vérifier la sécurité du contenu, à protéger les données sensibles, à maintenir la conformité et à appliquer vos règles de sécurité de l'IA de manière cohérente dans votre paysage d'IA diversifié.

Architecture

Architecture de Model Armor Ce schéma d'architecture montre une application utilisant Model Armor pour protéger un LLM et un utilisateur. Les étapes suivantes expliquent le flux de données.

  1. Un utilisateur fournit une requête à l'application.
  2. Model Armor inspecte le prompt entrant pour détecter tout contenu potentiellement sensible.
  3. Le prompt (ou le prompt nettoyé) est envoyé au LLM.
  4. Le LLM génère une réponse.
  5. Model Armor inspecte la réponse générée pour détecter tout contenu potentiellement sensible.
  6. La réponse (ou la réponse nettoyée) est envoyée à l'utilisateur. Model Armor envoie une description détaillée des filtres déclenchés et non déclenchés dans la réponse.

Model Armor filtre à la fois les entrées (requêtes) et les sorties (réponses) pour empêcher le LLM d'être exposé à des contenus malveillants ou sensibles, ou d'en générer.

Cas d'utilisation

Model Armor peut être utilisé dans de nombreux secteurs :

  • Sécurité

    • Limitez le risque de fuite de propriété intellectuelle (PI) sensible et d'informations permettant d'identifier personnellement l'utilisateur (PII) qui pourraient être incluses dans les requêtes ou les réponses des LLM.
    • Protégez-vous contre les attaques par injection de requêtes et de jailbreak, en empêchant les acteurs malveillants de manipuler les systèmes d'IA pour qu'ils effectuent des actions non souhaitées.
    • Analysez le texte des PDF pour détecter les contenus sensibles ou malveillants.
  • Sécurité et IA responsable

    • Empêchez votre chatbot de recommander des solutions concurrentes pour préserver l'intégrité de votre marque et la fidélité de vos clients.
    • Les organisations peuvent filtrer les posts sur les réseaux sociaux générés par leur IA qui contiennent des messages nuisibles, comme des contenus dangereux ou incitant à la haine.

Modèles Model Armor

Les modèles Model Armor vous permettent de configurer la façon dont Model Armor analyse les requêtes et les réponses. Ils fonctionnent comme des ensembles de filtres et de seuils personnalisés pour différents niveaux de confiance en matière de sécurité, ce qui permet de contrôler le contenu signalé.

Les seuils représentent des niveaux de confiance, c'est-à-dire le degré de certitude de Model Armor quant à la présence de contenu inapproprié dans le prompt ou la réponse. Par exemple, vous pouvez créer un modèle qui filtre les requêtes contenant du contenu haineux avec un seuil HIGH, ce qui signifie que Model Armor indique avec un haut degré de confiance que la requête contient du contenu haineux. Un seuil LOW_AND_ABOVE indique n'importe quel niveau de confiance (LOW, MEDIUM et HIGH) dans l'affirmation.

Pour en savoir plus, consultez Modèles Model Armor.

Niveaux de confiance de Model Armor

Vous pouvez définir des niveaux de confiance pour les catégories de sécurité de l'IA responsable (contenu à caractère sexuel explicite, dangereux, harcèlement et incitation à la haine), la détection des injections de requêtes et du jailbreaking, ainsi que la protection des données sensibles (y compris la thématique).

Pour les niveaux de confiance qui autorisent des seuils précis, Model Armor les interprète comme suit :

  • Élevé : identifie si le message contient du contenu avec une probabilité élevée.
  • Moyenne et supérieure : identifie si le message contient du contenu avec une probabilité moyenne ou élevée.
  • Faible et supérieur : identifie si le message contient du contenu avec une probabilité faible, moyenne ou élevée.

Filtres Model Armor

Model Armor propose différents filtres pour vous aider à fournir des modèles d'IA sûrs et sécurisés. Les catégories de filtres suivantes sont disponibles.

Filtre de sécurité de l'IA responsable

Vous pouvez filtrer les requêtes et les réponses aux niveaux de confiance susmentionnés pour les catégories suivantes :

Catégorie Définition
Incitation à la haine Commentaires négatifs ou offensants ciblant l'identité et/ou les attributs protégés.
Harcèlement Commentaires menaçants, intimidants ou abusifs ciblant une autre personne.
Caractère sexuel explicite Contient des références à des actes sexuels ou à d'autres contenus obscènes.
Contenu dangereux Encourage ou facilite l'accès à des activités, produits et services dangereux.

Le filtre pour les contenus d'abus sexuels sur mineurs est appliqué par défaut et ne peut pas être désactivé.

Détection de l'injection de requêtes et du jailbreak

L'injection de requêtes correspond à une faille de sécurité via laquelle les pirates informatiques créent des commandes spéciales dans l'entrée textuelle (requête) pour tromper un modèle d'IA. L'IA peut alors ignorer ses instructions habituelles, divulguer des informations sensibles ou exécuter des actions pour lesquelles elle n'a pas été conçue. Dans le contexte des LLM, le jailbreaking désigne l'action de contourner les protocoles de sécurité et les consignes éthiques intégrés au modèle. Cela permet au LLM de générer des réponses qu'il était initialement conçu pour éviter, comme du contenu nuisible, non éthique et dangereux.

Lorsque la détection de l'injection de prompt et du jailbreaking est activée, Model Armor analyse les requêtes et les réponses pour détecter les contenus malveillants. Si elle est détectée, Model Armor bloque le prompt ou la réponse.

Sensitive Data Protection

Sensitive Data Protection est un service Google Cloud qui vous aide à découvrir, classer et anonymiser les données sensibles. Sensitive Data Protection peut identifier les éléments, le contexte et les documents sensibles pour vous aider à réduire le risque de fuite de données entrant dans les charges de travail d'IA et en sortant. Vous pouvez utiliser la protection des données sensibles directement dans Model Armor pour transformer, tokeniser et masquer les éléments sensibles tout en conservant le contexte non sensible. Model Armor peut accepter les modèles d'inspection existants, qui sont des configurations qui agissent comme des plans pour rationaliser le processus d'analyse et d'identification des données sensibles spécifiques à votre entreprise et à vos besoins de conformité. Vous pouvez ainsi assurer la cohérence et l'interopérabilité entre les autres charges de travail qui utilisent la protection des données sensibles.

Model Armor propose deux modes de configuration de Sensitive Data Protection :

  • Configuration de base : dans ce mode, vous configurez la protection des données sensibles en spécifiant les types de données sensibles à analyser. Ce mode est compatible avec les catégories suivantes :

    • Numéro de carte de crédit
    • Numéro de sécurité sociale aux États-Unis
    • Numéro de compte financier
    • Numéro d'identification fiscale individuel (ITIN) aux États-Unis
    • Google Cloud  identifiants
    • Clé APIGoogle Cloud

    La configuration de base n'autorise que les opérations d'inspection et n'est pas compatible avec l'utilisation de modèles Sensitive Data Protection. Pour en savoir plus, consultez la page Configuration de base de Sensitive Data Protection.

  • Configuration avancée : ce mode offre plus de flexibilité et de personnalisation grâce aux modèles de protection des données sensibles. Les modèles Sensitive Data Protection sont des configurations prédéfinies qui vous permettent de spécifier des règles de détection et des techniques d'anonymisation plus précises. La configuration avancée est compatible avec les opérations d'inspection et d'anonymisation.

Les niveaux de confiance pour Sensitive Data Protection fonctionnent légèrement différemment de ceux des autres filtres. Pour en savoir plus sur les niveaux de confiance de Sensitive Data Protection, consultez Probabilité de correspondance de Sensitive Data Protection. Pour en savoir plus sur Sensitive Data Protection en général, consultez Présentation de Sensitive Data Protection.

Détection des URL malveillantes

Les URL malveillantes sont souvent déguisées pour paraître légitimes, ce qui en fait un outil puissant pour les attaques par hameçonnage, la distribution de logiciels malveillants et d'autres menaces en ligne. Par exemple, si un PDF contient une URL malveillante intégrée, il peut être utilisé pour compromettre tous les systèmes en aval qui traitent les sorties LLM.

Lorsque la détection des URL malveillantes est activée, Model Armor analyse les URL pour déterminer si elles sont malveillantes. Vous pouvez ainsi prendre des mesures et empêcher le renvoi d'URL malveillantes.

Définir le type d'application

L'application des règles définit ce qui se passe après la détection d'un cas de non-respect. Pour configurer la façon dont Model Armor gère les détections, vous devez définir le type d'application. Model Armor propose les types d'application suivants :

  • Inspecter uniquement : les requêtes qui ne respectent pas les paramètres configurés sont inspectées, mais pas bloquées.
  • Inspecter et bloquer : bloque les requêtes qui ne respectent pas les paramètres configurés.

Pour utiliser efficacement Inspect only et obtenir des insights utiles, activez Cloud Logging. Si Cloud Logging n'est pas activé, Inspect only ne fournira aucune information utile.

Accédez à vos journaux via Cloud Logging. Filtrez par nom de service : modelarmor.googleapis.com. Recherchez les entrées liées aux opérations que vous avez activées dans votre modèle. Pour en savoir plus, consultez la page Afficher les journaux à l'aide de l'explorateur de journaux.

Paramètres de plancher Model Armor

Bien que les modèles Model Armor offrent de la flexibilité pour les applications individuelles, les organisations ont souvent besoin d'établir un niveau de protection de base pour toutes leurs applications d'IA. C'est là que les paramètres de seuil Model Armor sont utilisés. Ils agissent comme des règles qui définissent les exigences minimales pour tous les modèles créés à un point spécifique de la hiérarchie des ressources Google Cloud (c'est-à-dire au niveau d'une organisation, d'un dossier ou d'un projet).

Pour en savoir plus, consultez Paramètres de plancher Model Armor.

Langues acceptées

Les filtres Model Armor permettent d'assainir les requêtes et les réponses dans plusieurs langues.

Il existe deux façons d'activer la détection multilingue :

  • Activer pour chaque requête : pour un contrôle précis, activez la détection multilingue pour chaque requête lorsque vous nettoyez une requête utilisateur et nettoyez une réponse de modèle.

  • Activer une seule fois : si vous préférez une configuration plus simple, vous pouvez activer la détection multilingue en tant que configuration unique au niveau du modèle Model Armor à l'aide de l'API REST. Pour en savoir plus, consultez Créer un modèle Model Armor.

Examen des documents

Le texte des documents peut inclure du contenu sensible et malveillant. Model Armor peut analyser les types de documents suivants pour détecter les risques de sécurité, les tentatives d'injection de prompt et de jailbreak, les données sensibles et les URL malveillantes :

  • PDF
  • CSV
  • Fichiers texte : TXT
  • Documents Microsoft Word : DOCX, DOCM, DOTX, DOTM
  • Diapositives Microsoft PowerPoint : PPTX, PPTM, POTX, POTM, POT
  • Feuilles Microsoft Excel : XLSX, XLSM, XLTX, XLTM

Tarifs

Model Armor peut être acheté en tant que partie intégrée de Security Command Center ou en tant que service autonome. Pour en savoir plus sur les tarifs, consultez Tarifs de Security Command Center.

Jetons

Les modèles d'IA générative décomposent le texte et les autres données en unités appelées jetons. Model Armor utilise le nombre total de jetons dans les requêtes et réponses d'IA à des fins de tarification. Model Armor limite le nombre de jetons traités dans chaque requête et réponse.

Model Armor présente des limites de jetons variables selon le filtre spécifique. Lorsque la requête ou la réponse dépasse la limite de jetons, le filtre Sensitive Data Protection renvoie EXECUTION_SKIPPED. Tous les autres filtres renvoient MATCH_FOUND si du contenu malveillant est détecté et EXECUTION_SKIPPED si aucun contenu malveillant n'est détecté, lorsque la requête ou la réponse dépasse la limite de jetons.

Filtre Limite de jetons
Détection de l'injection de prompts et du jailbreak 10 000
IA responsable 10 000
Contenus d'abus sexuels sur mineurs 10 000
Protection des données sensibles Jusqu'à 130 000

Étapes suivantes