Os modelos de IA generativa, como o Gemini, exigem medidas de segurança robustas para mitigar riscos, como a geração de conteúdo nocivo, o vazamento de informações sensíveis ou o uso indevido. Google Cloud's Gemini Enterprise Agent Platform oferece um conjunto de ferramentas e práticas para implementar a segurança holística dos seus modelos do Gemini.
Possíveis riscos de segurança e estratégias de mitigação
Ao implantar modelos do Gemini, é fundamental identificar e mitigar vários riscos potenciais. Uma abordagem proativa para entender esses riscos permite uma implementação mais eficaz de medidas de segurança. Uma abordagem de segurança multicamadas é fundamental, já que pode mitigar ou evitar:
- Riscos de conteúdo:podem incluir conteúdo nocivo, linguagem obscena e sexualização, violência e imagens sangrentas.
- Riscos de brand safety:o conteúdo gerado pode não estar alinhado ao tom ou aos valores da sua marca, pode endossar concorrentes ou produtos inadequados ou gerar conteúdo que possa resultar em danos à reputação.
- Riscos de alinhamento:o conteúdo gerado pode ser irrelevante ou impreciso.
- Riscos de segurança e privacidade:o conteúdo gerado pode vazar dados ou comandos de treinamento sensíveis, ou usuários mal-intencionados podem tentar forçar o modelo a substituir protocolos de segurança ou se comportar de maneiras não intencionais.
Nossos modelos implantados oferecem vários recursos para resolver esses possíveis problemas:
- O modelo padrão e os filtros não configuráveis oferecem uma rede de segurança geral.
- As instruções do sistema fornecem orientação direta ao modelo sobre o comportamento e os tópicos preferidos a serem evitados.
- Os filtros de conteúdo permitem definir limites específicos para tipos comuns de danos.
- O Gemini como filtro oferece um checkpoint avançado e personalizável para preocupações de segurança complexas ou sutis que podem ser perdidas pelas camadas anteriores ou exigir uma avaliação mais contextualizada.
- O Model Armor oferece proteção de nível empresarial contra injeção de comandos e jailbreaks, danos de conteúdo, proteção de dados sensíveis e detecção de malware e navegação segura.
- DLP aborda especificamente o risco crítico de vazamento de dados sensíveis, caso o modelo tenha acesso a eles. Ele também permite criar listas de bloqueio personalizadas.
- As credenciais de conteúdo adicionam metadados C2PA assinados criptograficamente a imagens geradas usando o modelo Gemini 3 Pro Image, indicando que elas são geradas por IA e fornecendo um histórico verificável da origem delas.
Ferramentas de segurança disponíveis na Gemini Enterprise Agent Platform para o Gemini
A Gemini Enterprise Agent Platform oferece várias ferramentas para gerenciar a segurança dos modelos do Gemini. Entender como cada uma funciona, as considerações e os casos de uso ideais vai ajudar você a criar uma solução de segurança personalizada.
| Abordagem | Como funciona | Proteção fornecida | Riscos | Quando usar |
|---|---|---|---|---|
| Configurações padrão: Gemini + filtros não configuráveis | Os modelos do Gemini são projetados com segurança e imparcialidade em mente, mesmo quando confrontados com comandos adversários. O Google investiu em avaliações de segurança abrangentes incluindo viés e toxicidade. As configurações padrão incluem uma camada de proteção independente projetada para evitar a geração de conteúdo relacionado a material de abuso sexual infantil (CSAM, na sigla em inglês) ou conteúdo protegido por direitos autorais (recitação). | Proteção básica contra material de abuso sexual infantil e direitos autorais (recitação) | A segurança padrão do Gemini pode não atender às necessidades da sua organização. O modelo pode alucinar ou não seguir instruções. Atacantes motivados ainda podem ter sucesso em jailbreaks e injeção de comandos. | Workflows em que nenhuma entrada maliciosa é esperada |
| Filtros configuráveis |
Os filtros de conteúdo pré-criados do Gemini oferecem proteção adicional contra
várias categorias de conteúdo nocivo, como conteúdo sexual, de ódio, assédio ou
perigoso. É possível configurar limites de bloqueio para cada categoria de dano
(por exemplo, BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE,
BLOCK_ONLY_HIGH) com base na probabilidade e/ou gravidade do conteúdo nocivo.
Eles são uma camada independente do modelo, portanto, são robustos contra
jailbreaks.
|
Robustos contra violações de categorias predefinidas, sensibilidade ajustável | Não tem personalização refinada além das configurações de limite para categorias predefinidas. Pode bloquear conteúdo benigno (falsos positivos) ou perder algum conteúdo nocivo conteúdo (falsos negativos). Disponível apenas para filtragem de respostas, não de comandos filtragem. | Fornece um nível básico de segurança para aplicativos ou agentes voltados ao usuário. Se o objetivo for garantir a segurança do conteúdo e da marca, os filtros de conteúdo precisam ser combinados com instruções do sistema. |
| Instruções do sistema | É possível instruir o modelo sobre as diretrizes de segurança de conteúdo e marca usando instruções ou preâmbulos do sistema. Por exemplo, você pode dizer ao modelo "não responda a perguntas relacionadas à política" ou aderir a diretrizes específicas de voz e tom da marca. As instruções do sistema orientam diretamente o comportamento do modelo. | Personalizável para segurança de conteúdo/brand safety, pode ser altamente eficaz. | O modelo pode alucinar ou não seguir instruções. Atacantes motivados ainda podem ter sucesso em jailbreaks e injeção de comandos. | Aplicativos ou agentes que exigem adesão a diretrizes de marca específicas ou políticas de conteúdo sutis. Se o objetivo for garantir a segurança do conteúdo e a brand safety, as instruções do sistema precisam ser combinadas com filtros de conteúdo. |
| Model Armor | O Model Armor é um Google Cloud serviço projetado para aumentar a segurança dos aplicativos de IA. Ele funciona verificando proativamente comandos e respostas de LLMs, protegendo contra vários riscos e garantindo práticas IA responsável. Se você estiver implantando a IA em Google Cloud ou outros provedores de nuvem, o Model Armor pode ajudar a evitar entradas maliciosas , verificar a segurança do conteúdo, proteger dados sensíveis, manter a conformidade e aplicar suas políticas de segurança de IA de forma consistente em todos os aplicativos de IA. | Filtragem de injeção de comandos e jailbreak, filtros de conteúdo, proteção de dados sensíveis e detecção de malware e navegação segura. | Custo e latência. | Oferta paga para clientes com necessidades empresariais. |
| DLP para listas de bloqueio personalizadas e proteção de dados sensíveis | A API DLP pode inspecionar o texto para identificar e classificar informações sensíveis com base em uma ampla variedade de detectores de infoType predefinidos e personalizados. Depois de identificada, ela pode aplicar técnicas de desidentificação, como edição, mascaramento ou tokenização. A API DLP também pode ser usada para bloquear palavras-chave. Proteção de entrada: antes de enviar comandos ou dados do usuário para o Gemini, é possível transmitir o texto pela API DLP para editar ou mascarar informações sensíveis. Isso impede que dados sensíveis sejam processados ou registrados pelo modelo. Proteção de saída: se houver um risco de que o Gemini possa gerar ou revelar informações sensíveis inadvertidamente (por exemplo, se estiver resumindo documentos de origem que contenham PII), a saída do modelo poderá ser verificada pela API DLP antes de ser enviada ao usuário. | Filtragem robusta para palavras obscenas ou personalizadas. Filtragem robusta para dados sensíveis data. | Adiciona latência. Pode levar ao excesso de bloqueio. | Proteção contra perda de dados para agentes que têm acesso a dados sensíveis. |
| Gemini como filtro | É possível usar o Gemini para filtrar comandos e respostas do seu agente ou app. Isso envolve fazer uma segunda chamada para um modelo do Gemini rápido e econômico (como o Gemini Flash ou o Gemini Flash Lite) para avaliar se a entrada de um usuário ou ferramenta ou a saída do seu modelo principal do Gemini é segura. O modelo de filtro recebe instruções para decidir se o conteúdo é seguro ou não com base nas políticas definidas, incluindo segurança de conteúdo, segurança da marca e desalinhamento do agente. Isso oferece proteção robusta e altamente personalizável contra violações de segurança de conteúdo, problemas de brand safety, desvio de modelo e alucinações e pode analisar texto, imagens, vídeo e áudio para uma compreensão holística. | Altamente robusto e personalizável para brand safety, degradação, alucinação; compreensão multimodal. | Custo e latência adicionais. Chance de falsos negativos extremamente raros. | Fornece um nível personalizado de segurança para aplicativos ou agentes voltados ao usuário. |
| Abordagem multicamadas: filtros configuráveis + instruções do sistema + DLP + Gemini como filtro | Altamente robusto e personalizável para brand safety de conteúdo/marca, degradação, alucinação; compreensão multimodal | Custo e latência adicionais. | Fornece um nível robusto de segurança para aplicativos ou agentes voltados ao usuário, especialmente quando o uso malicioso e adversário é esperado | |
| Credenciais de conteúdo C2PA | Para modelos compatíveis, a Gemini Enterprise Agent Platform adiciona automaticamente credenciais de conteúdo assinadas criptograficamente às imagens geradas, indicando que elas são geradas por IA e fornecendo um histórico verificável da origem delas de acordo com o C2PA padrão. Para mais informações, consulte Credenciais de conteúdo. | Transparência sobre a origem do conteúdo; ajuda os usuários a identificar imagens geradas por IA. | O uso de ferramentas não compatíveis pode comprometer a autenticidade do arquivo; não garante a confiabilidade da fonte de mídia. | Casos de uso de geração de mídia, em que a transparência sobre a origem e o histórico do arquivo é importante para a confiança do usuário. |
Avaliação contínua de segurança
A avaliação contínua de segurança é fundamental para sistemas de IA, já que o cenário de IA e os métodos de uso indevido estão em constante evolução. As avaliações regulares ajudam a identificar vulnerabilidades, avaliar a eficácia da mitigação, adaptar-se a riscos em evolução, garantir o alinhamento com políticas e valores, criar confiança e manter a conformidade. Vários tipos de avaliação, incluindo avaliações de desenvolvimento, avaliações de garantia, equipe vermelha, avaliações externas e testes de benchmark, ajudam a alcançar isso. O escopo da avaliação precisa abranger segurança de conteúdo, segurança da marca, relevância, viés e imparcialidade, veracidade e robustez a ataques adversários. Ferramentas como o serviço de avaliação de IA generativa da Gemini Enterprise Agent Platform podem ajudar nesses esforços, enfatizando que melhorias iterativas com base nas descobertas da avaliação são essenciais para o desenvolvimento de IA responsável.