Présentation de Model Armor

Model Armor est un service Google Cloud conçu pour améliorer la sécurité de vos applications d'IA. Il fonctionne en analysant de manière proactive les requêtes et les réponses des LLM, en protégeant contre divers risques et en garantissant des pratiques d'IA responsable. Que vous déployiez l'IA dans Google Cloud ou d'autres fournisseurs de services cloud, Model Armor peut vous aider à prévenir les entrées malveillantes, à vérifier la sécurité du contenu, à protéger les données sensibles, à assurer la conformité et à appliquer vos règles de sécurité de l'IA de manière cohérente dans vos applications d'IA.

Architecture

Diagramme d'architecture montrant le flux de données dans Model Armor

Ce schéma d'architecture montre une application utilisant Model Armor pour protéger un LLM et un utilisateur. Les étapes suivantes expliquent le flux de données :

  1. Un utilisateur envoie une requête à l'application.
  2. Model Armor inspecte le prompt entrant pour détecter tout contenu potentiellement sensible.
  3. Le prompt (ou le prompt nettoyé) est envoyé au LLM.
  4. Le LLM génère une réponse.
  5. Model Armor inspecte la réponse générée pour détecter tout contenu potentiellement sensible.
  6. La réponse (ou la réponse nettoyée) est envoyée à l'utilisateur. Model Armor envoie une description détaillée des filtres déclenchés et non déclenchés dans la réponse.

Model Armor filtre les entrées (requêtes) et les sorties (réponses) pour empêcher le LLM d'être exposé à des contenus malveillants ou sensibles, ou d'en générer.

Cas d'utilisation

Model Armor présente plusieurs cas d'utilisation, dont les suivants :

  • Sécurité

    • Limitez le risque de fuite de propriété intellectuelle (PI) sensible et d'informations permettant d'identifier personnellement l'utilisateur dans les requêtes ou les réponses des LLM.
    • Protégez-vous contre les attaques par injection de requêtes et de jailbreaking, en empêchant les acteurs malveillants de manipuler les systèmes d'IA pour qu'ils effectuent des actions non souhaitées.
    • Analysez le texte des PDF pour détecter les contenus sensibles ou malveillants.
  • IA sécurisée et responsable

    • Empêchez votre chatbot de recommander des solutions concurrentes, en préservant l'intégrité de votre marque et la fidélité de vos clients.
    • Filtrer les posts sur les réseaux sociaux générés par des applications d'IA qui contiennent des messages nuisibles, tels que des contenus dangereux ou incitant à la haine.

Modèles Model Armor

Les modèles Model Armor vous permettent de configurer la façon dont Model Armor filtre les requêtes et les réponses. Ils fonctionnent comme des ensembles de filtres et de seuils personnalisés pour différents niveaux de confiance en matière de sécurité, ce qui permet de contrôler le contenu signalé.

Les seuils représentent des niveaux de confiance, c'est-à-dire le degré de certitude de Model Armor quant à la présence de contenu inapproprié dans le prompt ou la réponse. Par exemple, vous pouvez créer un modèle qui filtre les requêtes contenant du contenu haineux avec un seuil HIGH, ce qui signifie que Model Armor indique avec un degré de confiance élevé que la requête contient du contenu haineux. Un seuil LOW_AND_ABOVE indique n'importe quel niveau de confiance (LOW, MEDIUM et HIGH) pour cette affirmation.

Pour en savoir plus, consultez Modèles Model Armor.

Niveaux de confiance de Model Armor

Vous pouvez définir des niveaux de confiance pour les catégories de sécurité de l'IA responsable (contenu à caractère sexuel explicite, contenu dangereux, harcèlement et discours haineux), la détection des injections de prompts et des tentatives de jailbreak, ainsi que la protection des données sensibles (y compris la thématique).

Pour les niveaux de confiance qui acceptent les seuils précis, Model Armor les interprète comme suit :

  • Élevé : identifie si le message contient du contenu avec une probabilité élevée.
  • Moyenne et supérieure : identifie si le message contient du contenu présentant une probabilité moyenne ou élevée.
  • Basse et supérieure : identifie si le message contient du contenu avec une probabilité faible, moyenne ou élevée.

Filtres Model Armor

Model Armor propose différents filtres pour vous aider à fournir des modèles d'IA sûrs et sécurisés. Les catégories de filtres suivantes sont disponibles.

Filtre de sécurité pour l'IA responsable

Vous pouvez filtrer les requêtes et les réponses aux niveaux de confiance spécifiés pour les catégories suivantes :

Catégorie Définition
Incitation à la haine Commentaires négatifs ou offensants ciblant l'identité et/ou les attributs protégés.
Harcèlement Commentaires menaçants, intimidants ou abusifs ciblant une autre personne.
Caractère sexuel explicite Contient des références à des actes sexuels ou à d'autres contenus obscènes.
Contenu dangereux Encourage ou facilite l'accès à des activités, produits et services dangereux.
contenu pédopornographique Contient des références à des contenus d'abus sexuels sur mineurs. Ce filtre est appliqué par défaut et ne peut pas être désactivé.

Détection de l'injection de prompt et du jailbreaking

L'injection de requêtes correspond à une faille de sécurité via laquelle les pirates informatiques créent des commandes spéciales dans l'entrée textuelle (requête) pour tromper un modèle d'IA. L'IA peut alors ignorer ses instructions habituelles, divulguer des informations sensibles ou exécuter des actions pour lesquelles elle n'a pas été conçue. Dans le contexte des LLM, le jailbreaking désigne l'action de contourner les protocoles de sécurité et les consignes éthiques intégrés au modèle. Cela permet au LLM de générer des réponses qu'il était initialement conçu pour éviter, comme du contenu nuisible, non éthique et dangereux.

Lorsque la détection de l'injection de prompt et du jailbreaking est activée, Model Armor analyse les requêtes et les réponses pour détecter les contenus malveillants. Si Model Armor détecte un tel contenu, il bloque le prompt ou la réponse.

Sensitive Data Protection

Sensitive Data Protection est un service Google Cloud qui vous aide à découvrir, classer et anonymiser les données sensibles. Sensitive Data Protection peut identifier les éléments, le contexte et les documents sensibles pour vous aider à réduire le risque de fuite de données entrant dans les charges de travail d'IA et en sortant. Vous pouvez utiliser Sensitive Data Protection directement dans Model Armor pour transformer, tokeniser et masquer les éléments sensibles tout en conservant le contexte non sensible. Model Armor peut accepter les modèles d'inspection existants, qui servent de plans pour rationaliser le processus d'analyse et d'identification des données sensibles spécifiques à votre entreprise et à vos besoins de conformité. Cela garantit la cohérence et l'interopérabilité entre les autres charges de travail qui utilisent Sensitive Data Protection.

Model Armor propose deux modes de configuration de la protection des données sensibles :

  • Configuration de base : dans ce mode, vous configurez la protection des données sensibles en spécifiant les types de données sensibles à analyser. Ce mode est compatible avec les catégories suivantes :

    • Numéro de carte de crédit
    • Numéro de sécurité sociale américain
    • Numéro de compte financier
    • Numéro d'identification fiscale individuel (ITIN) aux États-Unis
    • Google Cloud  identifiants
    • Clé APIGoogle Cloud

    La configuration de base n'est compatible qu'avec les opérations d'inspection et non avec l'utilisation de modèles Sensitive Data Protection. Pour en savoir plus, consultez Configuration de base de Sensitive Data Protection.

  • Configuration avancée : ce mode offre plus de flexibilité et de personnalisation grâce aux modèles de protection des données sensibles. Les modèles Sensitive Data Protection sont des configurations prédéfinies qui vous permettent de spécifier des règles de détection et des techniques d'anonymisation plus précises. La configuration avancée est compatible avec les opérations d'inspection et de désidentification.

Les niveaux de confiance pour Sensitive Data Protection fonctionnent différemment de ceux des autres filtres. Pour en savoir plus sur les niveaux de confiance pour Sensitive Data Protection, consultez Probabilité de correspondance Sensitive Data Protection. Pour en savoir plus sur Sensitive Data Protection en général, consultez la présentation de Sensitive Data Protection.

Détection des URL malveillantes

Les URL malveillantes sont souvent déguisées pour paraître légitimes, ce qui en fait un outil puissant pour les attaques d'hameçonnage, la distribution de logiciels malveillants et d'autres menaces en ligne. Par exemple, si un PDF contient une URL malveillante intégrée, il peut être utilisé pour compromettre tous les systèmes en aval qui traitent les sorties LLM.

Lorsque la détection des URL malveillantes est activée, Model Armor analyse les URL pour déterminer si elles sont malveillantes. Vous pouvez ainsi prendre des mesures et empêcher le renvoi d'URL malveillantes.

Définir le type d'application

L'application des règles définit ce qui se passe lorsqu'un cas de non-respect est détecté. Pour configurer la façon dont Model Armor gère les détections, vous devez définir le type d'application. Model Armor propose les types d'application suivants :

  • Inspecter uniquement : Model Armor inspecte les requêtes qui ne respectent pas les paramètres configurés, mais ne les bloque pas.
  • Inspecter et bloquer : Model Armor bloque les requêtes qui ne respectent pas les paramètres configurés.

Pour en savoir plus, consultez Définir le type d'application pour les modèles et Définir le type d'application pour les paramètres de plancher.

Pour utiliser efficacement Inspect only et obtenir des insights utiles, activez Cloud Logging. Sans Cloud Logging activé, Inspect only ne fournira aucune information utile.

Accédez à vos journaux via Cloud Logging. Filtrez par nom de service : modelarmor.googleapis.com. Recherchez les entrées liées aux opérations que vous avez activées dans votre modèle. Pour en savoir plus, consultez Afficher les journaux à l'aide de l'explorateur de journaux.

Paramètres de plancher Model Armor

Bien que les modèles Model Armor offrent de la flexibilité pour les applications individuelles, les entreprises ont souvent besoin d'établir un niveau de protection de base pour toutes leurs applications d'IA. Pour établir cette référence, vous utilisez les paramètres de seuil Model Armor. Ils définissent les exigences minimales pour tous les modèles créés au niveau du projet dans la hiérarchie des ressources Google Cloud .

Pour en savoir plus, consultez Paramètres de plancher Model Armor.

Langues acceptées

Les filtres Model Armor permettent d'assainir les requêtes et les réponses dans plusieurs langues.

Il existe deux façons d'activer la détection multilingue :

  • Activer pour chaque requête : pour un contrôle précis, activez la détection multilingue pour chaque requête lorsque vous nettoyez une invite utilisateur et nettoyez une réponse du modèle.

  • Activer une seule fois : si vous préférez une configuration plus simple, vous pouvez activer la détection multilingue en tant que configuration unique au niveau du modèle Model Armor à l'aide de l'API REST. Pour en savoir plus, consultez Créer un modèle Model Armor.

Examen des documents

Le texte des documents peut inclure du contenu malveillant et sensible. Model Armor peut analyser les types de documents suivants pour détecter les risques de sécurité, les tentatives d'injection de prompt et de jailbreak, les données sensibles et les URL malveillantes :

  • PDF
  • CSV
  • Fichiers texte : TXT
  • Documents Microsoft Word : DOCX, DOCM, DOTX, DOTM
  • Diapositives Microsoft PowerPoint : PPTX, PPTM, POTX, POTM, POT
  • Feuilles Microsoft Excel : XLSX, XLSM, XLTX, XLTM

Traitement et stockage des données

Model Armor a été conçu en tenant compte des principes de confidentialité et de minimisation des données. Cette section explique comment Model Armor traite vos données :

  • Traitement sans état et suppression du contenu : Model Armor fonctionne comme un service sans état, en traitant tous les prompts et les réponses du modèle entièrement en mémoire. Il ne consigne, ne stocke ni ne conserve aucun contenu analysé lors de son fonctionnement standard. Toutes les données sont immédiatement supprimées une fois l'analyse terminée.
  • Journalisation contrôlée par le client : les données liées au contenu traité ne sont stockées que par le biais de Cloud Logging. Si vous choisissez d'activer Cloud Logging pour le service Model Armor, les détails des événements (qui peuvent inclure des métadonnées ou des extraits du contenu analysé, selon la configuration) sont envoyés à la destination Cloud Logging que vous avez désignée. La portée des données journalisées et leur durée de conservation sont déterminées par votre configuration Cloud Logging.
  • Stockage et chiffrement sécurisés : toutes les données traitées par Model Armor sont protégées par un chiffrement conforme aux normes du secteur. Cela inclut les données en transit à l'aide de TLS 1.2 ou version ultérieure, ainsi que toutes les données résidant brièvement en mémoire lors de l'analyse.
  • Résidence régionale des données : bien que le traitement Model Armor soit sans état, le service est compatible avec des contrôles stricts de résidence des données. Cela garantit que tout traitement temporaire se produit exclusivement dans les limites géographiques que vous avez définies, telles que US ou EU.
  • Traitement sélectif : pour garantir l'efficacité opérationnelle et la conformité régionale, Model Armor ne transmet et ne traite les données que pour les filtres actifs. Si un filtre spécifique est désactivé (par exemple, en raison de la disponibilité régionale ou des préférences de l'utilisateur), aucune donnée n'est envoyée au service sous-jacent associé à ce filtre ni traitée par celui-ci.
  • Normes de conformité mondiales : en tant qu'élément de l'écosystème Google Cloud , Model Armor bénéficie d'une base de sécurité rigoureuse. L'infrastructure est régulièrement soumise à des audits indépendants pour conserver ses certifications, y compris SOC 1/2/3 et ISO/CEI 27001.

En résumé, Model Armor ne stocke pas le contenu de vos interactions avec l'IA, sauf si vous configurez et activez explicitement la journalisation de la plate-forme, ce qui vous permet de contrôler la durée de conservation des données.

Tarifs

Model Armor peut être acheté en tant que partie intégrée de Security Command Center ou en tant que service autonome. Pour en savoir plus sur les tarifs, consultez Tarifs de Security Command Center.

Jetons

Les modèles d'IA générative décomposent le texte et les autres données en unités appelées jetons. Model Armor utilise le nombre total de jetons dans les requêtes et les réponses de l'IA à des fins de tarification. Model Armor limite le nombre de jetons traités dans chaque requête et réponse. Pour connaître les limites de jetons, consultez la section Limites de jetons.

Étapes suivantes