Les modèles d'IA générative comme Gemini nécessitent des mesures de sécurité robustes pour atténuer les risques tels que la génération de contenus nuisibles, la fuite d'informations sensibles ou l'utilisation abusive. Google Cloud's Gemini Enterprise Agent Platform fournit une suite d'outils et de pratiques permettant d'implémenter une sécurité globale pour vos modèles Gemini.
Risques potentiels pour la sécurité et stratégies d'atténuation
Lorsque vous déployez des modèles Gemini, il est essentiel d'identifier et d'atténuer divers risques potentiels. Une approche proactive pour comprendre ces risques permet de mettre en œuvre plus efficacement des mesures de sécurité. Une approche multicouche de la sécurité est essentielle, car elle peut atténuer ou prévenir les risques suivants :
- Risques liés au contenu : ils peuvent inclure des contenus nuisibles, des grossièretés et des contenus à caractère sexuel, ainsi que des contenus violents et sanglants.
- Risques liés à la brand safety : le contenu généré peut ne pas correspondre au ton ou aux valeurs de votre marque, il peut promouvoir des concurrents ou des produits inappropriés, ou générer du contenu qui peut nuire à votre réputation.
- Risques liés à l'alignement : le contenu généré peut être non pertinent ou inexact.
- Risques liés à la sécurité et à la confidentialité : le contenu généré peut laisser fuiter des données d'entraînement ou des prompts sensibles, ou des utilisateurs malveillants peuvent tenter de forcer le modèle à ignorer les protocoles de sécurité ou à se comporter de manière inattendue.
Nos modèles déployés offrent diverses fonctionnalités pour résoudre ces problèmes potentiels :
- Le modèle par défaut et les filtres non configurables fournissent un filet de sécurité général.
- Les instructions système fournissent des conseils directs au modèle sur le comportement préféré et les sujets à éviter.
- Les filtres de contenu vous permettent de définir des seuils spécifiques pour les types de préjudices courants.
- Gemini en tant que filtre offre un point de contrôle avancé et personnalisable pour les problèmes de sécurité complexes ou subtils qui pourraient être manqués par les couches précédentes ou nécessiter une évaluation plus contextuelle.
- Model Armor offre une protection de niveau entreprise contre l'injection de prompt et le jailbreaking, les préjudices liés au contenu, la protection des données sensibles, la détection des logiciels malveillants et la navigation sécurisée.
- DLP traite spécifiquement le risque critique de fuite de données sensibles, au cas où le modèle aurait accès à des données sensibles. Elle permet également de créer des listes de blocage personnalisées.
- Content Credentials ajoute des métadonnées C2PA signées de manière cryptographique aux images générées à l'aide du modèle Gemini 3 Pro Image, indiquant qu'elles sont générées par l'IA et fournissant un historique vérifiable de leur origine.
Outils de sécurité disponibles dans la plate-forme d'agent Gemini Enterprise pour Gemini
La plate-forme d'agent Gemini Enterprise propose plusieurs outils pour gérer la sécurité de vos modèles Gemini. Comprendre le fonctionnement de chacun d'eux, leurs considérations et leurs cas d'utilisation idéaux vous aidera à créer une solution de sécurité personnalisée.
| Méthode | Fonctionnement | Protection fournie | Risques | Cas d'utilisation |
|---|---|---|---|---|
| Paramètres par défaut : Gemini + filtres non configurables | Les modèles Gemini sont conçus de manière intrinsèque en tenant compte de la sécurité et de l'équité, même face à des prompts malveillants. Google a investi dans des évaluations de sécurité complètes, y compris pour les biais et la toxicité. Les paramètres par défaut incluent une couche de protection indépendante conçue pour empêcher la génération de contenus liés à des contenus d'abus sexuels sur mineurs ou à des contenus protégés par des droits d'auteur (récitation). | Protection de base contre les contenus d'abus sexuels sur mineurs et les droits d'auteur (récitation) | La sécurité par défaut de Gemini peut ne pas répondre aux besoins de votre organisation. Le modèle peut halluciner ou ne pas suivre les instructions. Les pirates motivés peuvent toujours réussir à jailbreaker et à injecter des prompts. | Workflows où aucune entrée malveillante n'est attendue |
| Filtres configurables |
Les filtres de contenu prédéfinis de Gemini offrent une protection supplémentaire contre
différentes catégories de contenus nuisibles, tels que les contenus à caractère sexuel, haineux, relevant du harcèlement ou
dangereux. Vous pouvez configurer des seuils de blocage pour chaque catégorie de préjudice
(par exemple, BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE,
BLOCK_ONLY_HIGH) en fonction de la probabilité et/ou de la gravité du contenu nuisible
. Il s'agit d'une couche indépendante du modèle, qui est donc robuste contre
le jailbreaking.
|
Robuste contre les violations pour les catégories prédéfinies, sensibilité réglable | Manque de personnalisation précise au-delà des paramètres de seuil pour les catégories prédéfinies. Peut parfois bloquer des contenus inoffensifs (faux positifs) ou ne pas bloquer certains contenus nuisibles (faux négatifs). Disponible uniquement pour le filtrage des réponses, et non pour le filtrage des prompts. | Fournit un niveau de sécurité de base pour les applications ou les agents destinés aux utilisateurs. Si votre objectif est d'assurer la sécurité du contenu et de la marque, les filtres de contenu doivent être associés à des instructions système. |
| Instructions système | Vous pouvez indiquer au modèle les consignes de sécurité de votre marque et de votre contenu via instructions système ou préambules. Par exemple, vous pouvez demander au modèle de ne pas répondre aux questions liées à la politique ou de respecter des consignes spécifiques concernant la voix et le ton de la marque. Les instructions système guident directement le comportement du modèle. | Personnalisable pour la sécurité du contenu/de la marque, peut être très efficace. | Le modèle peut halluciner ou ne pas suivre les instructions. Les pirates motivés peuvent toujours réussir à jailbreaker et à injecter des prompts. | Applications ou agents nécessitant le respect de consignes spécifiques concernant la marque ou de règles de contenu nuancées Si votre objectif est d'assurer la sécurité du contenu et de la marque, les instructions système doivent être associées à des filtres de contenu. |
| Model Armor | Model Armor est un Google Cloud service conçu pour améliorer la sécurité de vos applications d'IA. Il fonctionne en analysant de manière proactive les prompts et les réponses des LLM, en protégeant contre divers risques et en garantissant des pratiques pour une IA responsable. Que vous déployiez l'IA dans Google Cloud ou d'autres fournisseurs de cloud, Model Armor peut vous aider à empêcher les entrées malveillantes , à vérifier la sécurité du contenu, à protéger les données sensibles, à assurer la conformité et à appliquer vos règles de sécurité de l'IA de manière cohérente dans toutes vos applications d'IA. | Filtrage de l'injection de prompt et du jailbreaking, filtres de contenu, protection des données sensibles, détection des logiciels malveillants et navigation sécurisée. | Coût et latence. | Offre payante pour les clients ayant des besoins d'entreprise. |
| Protection contre la perte de données pour les listes de blocage personnalisées et la protection des données sensibles | L'API DLP peut inspecter le texte pour identifier et classer les informations sensibles en fonction d'un large éventail de détecteurs d'infoTypes prédéfinis et personnalisés. Une fois identifiées, elle peut appliquer des techniques d'anonymisation telles que l'occultation, le masquage ou la tokenisation. L'API DLP peut également être utilisée pour bloquer les mots clés. Protection des entrées : avant d'envoyer des prompts ou des données utilisateur à Gemini, vous pouvez transmettre le texte via l'API DLP pour masquer ou occulter toute information sensible. Cela empêche le modèle de traiter ou d'enregistrer des données sensibles. Protection des sorties : s'il existe un risque que Gemini génère ou révèle par inadvertance des informations sensibles (par exemple, s'il résume des documents sources contenant des informations permettant d'identifier personnellement l'utilisateur), la sortie du modèle peut être analysée par l'API DLP avant d'être envoyée à l'utilisateur. | Filtrage robuste des grossièretés ou des mots personnalisés. Filtrage robuste des données sensibles. | Ajoute de la latence. Peut entraîner un blocage excessif. | Protection contre la perte de données pour les agents ayant accès à des données sensibles. |
| Gemini en tant que filtre | Vous pouvez utiliser Gemini pour filtrer les prompts et les réponses de votre agent ou application. Cela implique d'effectuer un deuxième appel à un modèle Gemini rapide et économique (tel que Gemini Flash ou Flash Lite) pour évaluer si l'entrée d'un utilisateur ou d'un outil, ou la sortie de votre modèle Gemini principal, est sécurisée. Le modèle de filtre reçoit des instructions pour déterminer si le contenu est sécurisé ou non en fonction des règles que vous avez définies, y compris la sécurité du contenu, la brand safety et le désalignement de l'agent. Cela offre une protection robuste et hautement personnalisable contre les violations de la sécurité du contenu, les problèmes de brand safety, la dérive du modèle et les hallucinations et peut analyser du texte, des images, des vidéos et de l'audio pour une compréhension globale. | Très robuste et personnalisable pour la sécurité du contenu/de la marque, la dérive, les hallucinations ; compréhension multimodale. | Coût et latence supplémentaires. Risque de faux négatifs extrêmement rares. | Fournit un niveau de sécurité personnalisé pour les applications ou les agents destinés aux utilisateurs. |
| Approche multicouche : filtres configurables + instructions système + protection contre la perte de données + Gemini en tant que filtre | Très robuste et personnalisable pour la sécurité du contenu/la brand safety, la dérive, les hallucinations ; compréhension multimodale | Coût et latence supplémentaires. | Fournit un niveau de sécurité robuste pour les applications ou les agents destinés aux utilisateurs, en particulier lorsque l'utilisation malveillante et malintentionnée est attendue. | |
| Content Credentials C2PA | Pour les modèles compatibles, la plate-forme d'agent Gemini Enterprise ajoute automatiquement des Content Credentials signées de manière cryptographique aux images générées, indiquant qu'elles sont générées par l'IA et fournissant un historique vérifiable de leur origine conformément à la norme C2PA. Pour en savoir plus, consultez Content Credentials. | Transparence concernant l'origine du contenu ; aide les utilisateurs à identifier les images générées par l'IA images. | L'utilisation d'outils non conformes peut compromettre l'authenticité des fichiers ; ne garantit pas la fiabilité de la source multimédia. | Cas d'utilisation de la génération de contenus multimédias, où la transparence concernant l'origine et l'historique du fichier est importante pour la confiance des utilisateurs. |
Évaluation continue de la sécurité
L'évaluation continue de la sécurité est essentielle pour les systèmes d'IA, car le paysage de l'IA et les méthodes d'utilisation abusive évoluent constamment. Des évaluations régulières permettent d'identifier les failles, d'évaluer l'efficacité de l'atténuation, de s'adapter à l'évolution des risques, de garantir l'alignement sur les règles et les valeurs, de renforcer la confiance et de maintenir la conformité. Différents types d'évaluation, y compris les évaluations de développement, les évaluations d'assurance, le red teaming, les évaluations externes et les tests d'évaluation comparative, contribuent à atteindre cet objectif. Le champ d'application de l'évaluation doit couvrir la sécurité du contenu, la brand safety, la pertinence, les biais et l'équité, la véracité et la robustesse face aux attaques malveillantes. Des outils tels que le service d'évaluation de l'IA générative de la plate-forme d'agent Gemini Enterprise peuvent vous aider dans ces efforts, en soulignant que les améliorations itératives basées sur les résultats de l'évaluation sont essentielles pour le développement d'une IA responsable.