Les modèles d'IA générative comme Gemini nécessitent des mesures de sécurité robustes pour atténuer les risques, tels que la génération de contenus nuisibles, la fuite d'informations sensibles ou une utilisation abusive. Gemini Enterprise Agent Platform fournit une suite d'outils et de pratiques permettant d'implémenter une sécurité globale pour vos modèles Gemini.
Risques potentiels pour la sécurité et stratégies d'atténuation
Lorsque vous déployez des modèles Gemini, il est essentiel d'identifier et d'atténuer divers risques potentiels. Une approche proactive pour comprendre ces risques permet de mettre en œuvre plus efficacement des mesures de sécurité. Une approche multicouche de la sécurité est essentielle, car elle peut atténuer ou prévenir les risques suivants :
- Risques liés au contenu : ils peuvent inclure des contenus nuisibles, des grossièretés et de la sexualisation, ainsi que du contenu violent et sanglant.
- Risques liés à la brand safety : le contenu généré peut ne pas correspondre au ton ou aux valeurs de votre marque, il peut promouvoir des concurrents ou des produits inappropriés, ou générer du contenu qui peut nuire à votre réputation.
- Risques d'alignement : le contenu généré peut être non pertinent ou inexact.
- Risques liés à la sécurité et à la confidentialité : le contenu généré peut laisser fuiter des données d'entraînement ou des prompts sensibles, ou des utilisateurs malveillants peuvent tenter de forcer le modèle à ignorer les protocoles de sécurité ou à se comporter de manière imprévue.
Nos modèles déployés offrent diverses fonctionnalités pour résoudre ces problèmes potentiels :
- Le modèle par défaut et les filtres non configurables fournissent un filet de sécurité général.
- Les instructions système fournissent des conseils directs au modèle sur le comportement préféré et les sujets à éviter.
- Les filtres de contenu vous permettent de définir des seuils spécifiques pour les types de préjudices courants.
- Gemini en tant que filtre offre un point de contrôle avancé et personnalisable pour les problèmes de sécurité complexes ou nuancés qui pourraient être manqués par les couches précédentes ou nécessiter une évaluation plus contextuelle.
- DLP traite spécifiquement le risque critique de fuite de données sensibles, au cas où le modèle aurait accès à des données sensibles. Elle permet également de créer des listes de blocage personnalisées.
- Content Credentials ajoute des métadonnées C2PA signées de manière cryptographique aux images générées à l'aide du modèle Gemini 3 Pro Image, indiquant qu'elles sont générées par l'IA et fournissant un historique vérifiable de leur origine.
Outils de sécurité disponibles dans Agent Platform pour Gemini
Agent Platform propose plusieurs outils pour gérer la sécurité de vos modèles Gemini. Comprendre le fonctionnement de chacun d'eux, leurs considérations et leurs cas d'utilisation idéaux vous aidera à créer une solution de sécurité personnalisée.
| Méthode | Fonctionnement | Protection fournie | Risques | Cas d'utilisation |
|---|---|---|---|---|
| Paramètres par défaut : Gemini + filtres non configurables | Les modèles Gemini sont intrinsèquement conçus pour la sécurité et l'équité, même face à des prompts hostiles. Google a investi dans des évaluations de sécurité complètes, y compris pour les biais et la toxicité. Les paramètres par défaut incluent une couche de protection indépendante conçue pour empêcher la génération de contenu lié à des contenus d'abus sexuels sur mineurs ou à des contenus protégés par des droits d'auteur (récitation). | Protection de base contre les contenus d'abus sexuels sur mineurs et les droits d'auteur (récitation) | La sécurité par défaut de Gemini peut ne pas répondre aux besoins de votre organisation. Le modèle peut halluciner ou ne pas suivre les instructions. Les pirates motivés peuvent toujours réussir à contourner les protections et à injecter des prompts. | Workflows où aucune entrée malveillante n'est attendue |
| Filtres configurables |
Les filtres de contenu prédéfinis de Gemini offrent une protection supplémentaire contre
différentes catégories de contenus nuisibles, tels que les contenus à caractère sexuel, haineux, relevant du harcèlement ou
dangereux. Vous pouvez configurer des seuils de blocage pour chaque catégorie de préjudice
(par exemple, BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE,
BLOCK_ONLY_HIGH) en fonction de la probabilité et/ou de la gravité du contenu nuisible
. Il s'agit d'une couche indépendante du modèle, qui est donc robuste contre les
contournements.
|
Robuste contre les violations pour les catégories prédéfinies, sensibilité réglable | Manque de personnalisation précise au-delà des paramètres de seuil pour les catégories prédéfinies. Peut parfois bloquer des contenus inoffensifs (faux positifs) ou ne pas bloquer certains contenus nuisibles (faux négatifs). Disponible uniquement pour le filtrage des réponses, et non pour le filtrage des prompts. | Fournit un niveau de sécurité de base pour les applications ou les agents destinés aux utilisateurs. Si votre objectif est de garantir la sécurité du contenu et de la marque, les filtres de contenu doivent être associés à des instructions système. |
| Instructions système | Vous pouvez indiquer au modèle les règles de sécurité de votre marque et de votre contenu via des instructions système ou des préambules. Par exemple, vous pouvez demander au modèle de ne pas répondre aux questions liées à la politique ou de respecter des consignes spécifiques concernant la voix et le ton de la marque. Les instructions système guident directement le comportement du modèle. | Personnalisable pour la sécurité du contenu/de la marque, peut être très efficace. | Le modèle peut halluciner ou ne pas suivre les instructions. Les pirates motivés peuvent toujours réussir à contourner les protections et à injecter des prompts. | Applications ou agents nécessitant le respect de consignes spécifiques concernant la marque ou de règles de contenu nuancées Si votre objectif est de garantir la sécurité du contenu et de la marque, les instructions système doivent être associées à des filtres de contenu. |
| Protection contre la perte de données pour les listes de blocage personnalisées et protection des données sensibles | L'API DLP peut inspecter le texte pour identifier et classer les informations sensibles en fonction d'un large éventail de détecteurs d'infoTypes prédéfinis et personnalisés. Une fois identifiées, elle peut appliquer des techniques d'anonymisation telles que l'occultation, le masquage ou la tokenisation. L'API DLP peut également être utilisée pour bloquer les mots clés. Protection des entrées : avant d'envoyer des prompts ou des données utilisateur à Gemini, vous pouvez transmettre le texte via l'API DLP pour masquer ou occulter toute information sensible. Cela empêche le modèle de traiter ou d'enregistrer des données sensibles. Protection des sorties : s'il existe un risque que Gemini génère ou révèle par inadvertance des informations sensibles (par exemple, s'il résume des documents sources contenant des informations permettant d'identifier personnellement l'utilisateur), la sortie du modèle peut être analysée par l'API DLP avant d'être envoyée à l'utilisateur. | Filtrage robuste des grossièretés ou des mots personnalisés. Filtrage robuste des données sensibles. | Ajoute de la latence. Peut entraîner un blocage excessif. | Protection contre la perte de données pour les agents ayant accès à des données sensibles. |
| Gemini en tant que filtre | Vous pouvez utiliser Gemini pour filtrer les prompts et les réponses de votre agent ou de votre application. Cela implique d'effectuer un deuxième appel à un modèle Gemini rapide et économique (tel que Gemini Flash ou Flash Lite) pour évaluer si l'entrée d'un utilisateur ou d'un outil, ou la sortie de votre modèle Gemini principal, est sécurisée. Le modèle de filtre reçoit des instructions pour déterminer si le contenu est sûr ou non en fonction des règles que vous avez définies, y compris la sécurité du contenu, la brand safety et le désalignement de l'agent. Cela offre une protection robuste et hautement personnalisable contre les violations de la sécurité du contenu, les problèmes de brand safety, la dérive du modèle et les hallucinations et peut analyser du texte, des images, des vidéos et de l'audio pour une compréhension globale. | Très robuste et personnalisable pour la sécurité du contenu/de la marque, la dérive, les hallucinations ; compréhension multimodale. | Coût et latence supplémentaires. Risque de faux négatifs extrêmement rares. | Fournit un niveau de sécurité personnalisé pour les applications ou les agents destinés aux utilisateurs. |
| Approche combinée : filtres configurables + instructions système + protection contre la perte de données + Gemini en tant que filtre | Très robuste et personnalisable pour la sécurité du contenu/la brand safety, la dérive, les hallucinations ; compréhension multimodale | Coût et latence supplémentaires. | Fournit un niveau de sécurité robuste pour les applications ou les agents destinés aux utilisateurs, en particulier lorsque l'utilisation hostile et malveillante est attendue. | |
| Content Credentials C2PA | Pour les modèles compatibles, Gemini Enterprise Agent Platform ajoute automatiquement des Content Credentials signées de manière cryptographique aux images générées, indiquant qu'elles sont générées par l'IA et fournissant un historique vérifiable de leur origine conformément à la norme C2PA. Pour en savoir plus, consultez Content Credentials. | Transparence sur l'origine du contenu ; aide les utilisateurs à identifier les images générées par l'IA. | L'utilisation d'outils non conformes peut compromettre l'authenticité des fichiers ; ne garantit pas la fiabilité de la source multimédia. | Cas d'utilisation de la génération de contenus multimédias, où la transparence sur l'origine et l'historique du fichier est importante pour la confiance des utilisateurs. |
Évaluation continue de la sécurité
L'évaluation continue de la sécurité est essentielle pour les systèmes d'IA. Le paysage de l'IA et les méthodes d'utilisation abusive évoluent constamment, ce qui rend ces évaluations essentielles.
Les évaluations régulières présentent plusieurs avantages clés. Elles vous aident à identifier les failles, à évaluer l'efficacité de l'atténuation, à vous adapter aux risques en évolution, à garantir l'alignement sur les règles et les valeurs, à renforcer la confiance et à maintenir la conformité.
Pour bénéficier de ces avantages, vous pouvez effectuer différents types d'évaluations :
- Évaluations du développement
- Évaluations d'assurance
- Red Team
- Évaluations externes
- Tests de référence
La portée de votre évaluation doit couvrir plusieurs domaines critiques :
- Sécurité des contenus
- Brand safety
- Pertinence
- Biais et équité
- Véracité
- Résistance aux attaques hostiles
Des outils tels que Agent Platform's Gen AI evaluation service peuvent vous aider dans ces efforts. N'oubliez pas que les améliorations itératives, basées sur les résultats de l'évaluation, sont essentielles pour un développement IA responsable.
Étape suivante
Règles
Découvrez comment les administrateurs de la sécurité peuvent définir, appliquer et gérer les règles qui régissent les interactions des agents.
Évaluer vos agents
Créez et déployez un agent de base, puis utilisez Gen AI Evaluation Service pour l'évaluer.