Este documento no Framework bem arquitetado: perspectiva de IA e ML oferece uma visão geral dos princípios e recomendações para garantir que suas implantações de IA e ML atendam aos requisitos de segurança e compliance da sua organização. As recomendações neste documento estão alinhadas ao pilar de segurança do Google Cloud Well-Architected Framework.
A implantação segura de cargas de trabalho de IA e ML é um requisito essencial, principalmente em ambientes empresariais. Para atender a esse requisito, é necessário adotar uma abordagem de segurança holística que começa na conceituação inicial das soluções de IA e ML e se estende ao desenvolvimento, à implantação e às operações contínuas.O Google Cloud oferece ferramentas e serviços robustos projetados para ajudar a proteger suas cargas de trabalho de IA e ML.
As recomendações neste documento são mapeadas para os seguintes princípios básicos:
- Defina metas e requisitos claros
- Mantenha os dados seguros e evite perdas ou uso indevido
- Mantenha os pipelines de IA seguros e robustos contra adulteração
- Implante em sistemas seguros com ferramentas e artefatos seguros
- Verificar e proteger entradas
- Monitore, avalie e se prepare para responder às saídas
Para mais informações sobre segurança de IA, consulte também os seguintes recursos:
- O framework de IA segura (SAIF) doGoogle Cloud oferece um guia completo para criar sistemas de IA seguros e responsáveis. Ele descreve os principais princípios e práticas recomendadas para lidar com considerações de segurança e compliance em todo o ciclo de vida da IA.
- Para saber mais sobre a abordagem do Google Cloudem relação à confiança na IA, consulte nossa Central de recursos de compliance.
Definir metas e requisitos claros
A segurança eficaz de IA e ML é um componente essencial da sua estratégia de negócios geral. É mais fácil integrar os controles de segurança e compliance necessários no início do processo de design e desenvolvimento, em vez de adicioná-los depois.
Desde o início do processo de design e desenvolvimento, tome decisões adequadas ao seu ambiente de risco e às prioridades específicas da sua empresa. Por exemplo, medidas de segurança muito restritivas podem proteger os dados, mas também impedir a inovação e diminuir a velocidade dos ciclos de desenvolvimento. No entanto, a falta de segurança pode levar a violações de dados, danos à reputação e perdas financeiras, o que prejudica as metas de negócios.
Para definir metas e requisitos claros, considere as seguintes recomendações.
Alinhar a segurança de IA e ML com as metas de negócios
Para alinhar seus esforços de segurança de IA e ML com as metas de negócios, use uma abordagem estratégica que integre a segurança em todas as etapas do ciclo de vida da IA. Para seguir essa abordagem, faça o seguinte:
Defina objetivos de negócios e requisitos de segurança claros:
- Identifique as principais metas de negócios: defina objetivos claros que suas iniciativas de IA e ML precisam alcançar. Por exemplo, seus objetivos podem ser melhorar a experiência do cliente, otimizar as operações ou desenvolver novos produtos.
- Transforme metas em requisitos de segurança: quando você esclarece suas metas de negócios, defina requisitos de segurança específicos para apoiar essas metas. Por exemplo, sua meta pode ser usar a IA para personalizar as recomendações aos clientes. Para apoiar essa meta, seus requisitos de segurança podem ser proteger a privacidade dos dados do cliente e impedir o acesso não autorizado aos algoritmos de recomendação.
Equilibre a segurança com as necessidades comerciais:
- Faça avaliações de risco: identifique possíveis ameaças e vulnerabilidades de segurança nos seus sistemas de IA.
- Priorize medidas de segurança: baseie a prioridade dessas medidas no impacto potencial delas nas suas metas de negócios.
- Analise os custos e benefícios: invista nas soluções mais eficazes. Considere os custos e benefícios de diferentes medidas de segurança.
- Mudança para a esquerda na segurança: implemente as práticas recomendadas de segurança no início da fase de design e adapte suas medidas de segurança à medida que as necessidades comerciais mudam e as ameaças surgem.
Identificar possíveis vetores de ataque e riscos
Considere possíveis vetores de ataque que podem afetar seus sistemas de IA, como envenenamento de dados, inversão de modelo ou ataques adversários. Monitore e avalie continuamente a superfície de ataque em evolução à medida que seu sistema de IA se desenvolve, e acompanhe novas ameaças e vulnerabilidades. Lembre-se de que as mudanças nos seus sistemas de IA também podem introduzir mudanças na superfície de ataque deles.
Para reduzir possíveis riscos jurídicos e de reputação, também é necessário atender aos requisitos de compliance relacionados à privacidade de dados, ao viés algorítmico e a outras regulamentações relevantes.
Para antecipar possíveis ameaças e vulnerabilidades e fazer escolhas de design que reduzam os riscos, adote uma abordagem de segurança incorporada ao design.
OGoogle Cloud oferece um pacote abrangente de ferramentas e serviços para ajudar você a implementar uma abordagem de segurança no desenvolvimento:
- Gerenciamento de postura de nuvem: use o Security Command Center para identificar possíveis vulnerabilidades e configurações incorretas na sua infraestrutura de IA.
- Pontuações de exposição a ataques e caminhos de ataque: refine e use as pontuações de exposição a ataques e os caminhos de ataque gerados pelo Security Command Center.
- Google Threat Intelligence: fique por dentro das novas ameaças e técnicas de ataque que surgem para atingir sistemas de IA.
- Geração de registros e monitoramento: acompanhe o desempenho e a segurança dos seus sistemas de IA e detecte anomalias ou atividades suspeitas. Faça auditorias de segurança regulares para identificar e corrigir possíveis vulnerabilidades na sua infraestrutura e modelos de IA.
- Gerenciamento de vulnerabilidades: implemente um processo de gerenciamento de vulnerabilidades para rastrear e corrigir vulnerabilidades de segurança nos seus sistemas de IA.
Para mais informações, consulte Segurança por design no Google e Implementar segurança por design.
Manter os dados seguros e evitar perdas ou mau uso
Os dados são um recurso valioso e sensível que precisa ser mantido em segurança. A segurança de dados ajuda você a manter a confiança dos usuários, apoiar seus objetivos de negócios e atender aos requisitos de compliance.
Para ajudar a proteger seus dados, considere as seguintes recomendações.
Siga os princípios de minimização de dados
Para garantir a privacidade dos dados, siga o princípio da minimização de dados. Para minimizar a coleta, não colete, mantenha ou use dados que não sejam estritamente necessários para suas metas de negócios. Sempre que possível, use dados sintéticos ou totalmente anonimizados.
A coleta de dados pode gerar insights e análises de negócios, mas é fundamental ter discrição nesse processo. Se você coletar informações de identificação pessoal (PII) sobre seu cliente, revelar informações sensíveis ou criar viés ou controvérsia, poderá criar modelos de ML tendenciosos.
Você pode usar os recursos do Google Cloud para melhorar a minimização e a privacidade de dados em vários casos de uso:
- Para desidentificar seus dados e preservar a utilidade deles, aplique métodos de transformação como pseudonimização, desidentificação e generalização, como agrupamento por classes. Para implementar esses métodos, use a Proteção de Dados Sensíveis.
- Para enriquecer os dados e reduzir possíveis vieses, use um job de rotulagem de dados da Vertex AI. O processo de rotulagem de dados adiciona tags informativas e significativas aos dados brutos, transformando-os em dados de treinamento estruturados para modelos de ML. A rotulagem de dados adiciona especificidade e reduz a ambiguidade.
- Para proteger os recursos contra acesso ou manipulação prolongados, use os recursos do Cloud Storage para controlar os ciclos de vida dos dados.
Para conferir práticas recomendadas sobre como implementar a criptografia de dados, consulte criptografia de dados em repouso e em trânsito no Framework bem arquitetado.
Monitorar a coleta, o armazenamento e a transformação de dados
Os dados de treinamento do seu aplicativo de IA representam os maiores riscos de introdução de viés e vazamento de dados. Para manter a conformidade e gerenciar dados em diferentes equipes, estabeleça uma camada de governança de dados para monitorar fluxos, transformações e acesso. Mantenha registros de atividades de acesso e manipulação de dados. Os registros ajudam a auditar o acesso a dados, detectar tentativas de acesso não autorizado e evitar acessos indesejados.
Você pode usar os recursos do Google Cloud para implementar estratégias de governança de dados:
- Para estabelecer uma plataforma de governança de dados em toda a organização ou departamento, use o Dataplex Universal Catalog.
Uma plataforma de governança de dados pode ajudar você a descobrir, gerenciar, monitorar e controlar dados e artefatos de IA de maneira centralizada em todas as suas plataformas de dados. A plataforma de governança de dados também oferece acesso a usuários confiáveis. Com o Dataplex Universal Catalog, é possível
realizar as seguintes tarefas:
- Gerenciar a linhagem de dados. O BigQuery também pode fornecer linhagem no nível da coluna.
- Gerenciar verificações de qualidade de dados e perfis de dados.
- Gerencie a descoberta, a exploração e o processamento de dados em diferentes data marts.
- Gerenciar metadados de atributos e artefatos de modelo.
- Crie um glossário de negócios para gerenciar metadados e estabelecer um vocabulário padronizado.
- Enriqueça os metadados com contexto usando aspectos e tipos de aspectos.
- Unifique a governança de dados em tabelas do BigLake e de formato aberto, como Iceberg e Delta.
- Crie uma malha de dados para descentralizar a propriedade dos dados entre proprietários de dados de diferentes equipes ou domínios. Essa prática segue os princípios de segurança de dados e pode ajudar a melhorar a acessibilidade dos dados e a eficiência operacional.
- Inspecione e envie resultados de dados sensíveis do BigQuery para o Dataplex Universal Catalog.
- Para criar um lakehouse unificado e aberto com boa governança, integre seus data lakes e data warehouses a serviços de metastore gerenciados, como o Dataproc Metastore e o BigLake Metastore. Um lakehouse aberto usa formatos de tabela aberta compatíveis com diferentes mecanismos de processamento de dados.
- Para programar o monitoramento de atributos e grupos de atributos, use o Vertex AI Feature Store.
- Para verificar seus conjuntos de dados da Vertex AI no nível da organização, pasta ou projeto, use a Descoberta de dados sensíveis para a Vertex AI. Você também pode analisar os perfis de dados armazenados no BigQuery.
- Para capturar registros em tempo real e coletar métricas relacionadas a pipelines de dados, use o Cloud Logging e o Cloud Monitoring. Para coletar rastreamentos de auditoria de chamadas de API, use os registros de auditoria do Cloud. Não registre PII ou dados confidenciais em experimentos ou em diferentes servidores de registro.
Implementar controles de acesso baseados em função com princípios de privilégio mínimo
Implemente controles de acesso baseado em papéis (RBAC) para atribuir diferentes níveis de acesso com base nas funções do usuário. Os usuários precisam ter apenas as permissões mínimas necessárias para realizar as atividades da função. Atribua permissões com base no princípio de privilégio mínimo para que os usuários tenham apenas o acesso necessário, como nenhum acesso, somente leitura ou gravação.
O RBAC com privilégio mínimo é importante para a segurança quando sua organização usa dados sensíveis que residem em data lakes, repositórios de recursos ou hiperparâmetros para treinamento de modelo. Essa prática ajuda a evitar roubo de dados, preservar a integridade do modelo e limitar a área de superfície para acidentes ou ataques.
Para ajudar você a implementar essas estratégias de acesso, use os seguintes recursos doGoogle Cloud :
Para implementar a granularidade de acesso, considere as seguintes opções:
- Mapeie os papéis do IAM de diferentes produtos para um usuário, grupo ou conta de serviço para permitir o acesso granular. Mapeie essas funções com base nas necessidades do projeto, nos padrões de acesso ou nas tags.
- Defina políticas do IAM com condições para gerenciar o acesso granular aos seus dados, modelo e configurações de modelo, como código, configurações de recursos e hiperparâmetros.
Confira o acesso granular no nível do aplicativo, que ajuda a proteger dados sensíveis auditados e compartilhados fora da sua equipe.
- Cloud Storage: defina políticas do IAM em buckets e pastas gerenciadas.
- BigQuery: use papéis e permissões do IAM para conjuntos de dados e recursos dentro deles. Além disso, restrinja o acesso no nível da linha e da coluna no BigQuery.
Para limitar o acesso a determinados recursos, use as políticas de limite de acesso principal (PAB). Também é possível usar o Privileged Access Manager para controlar a elevação temporária de privilégios no momento certo para determinados principais. Depois, você pode conferir os registros de auditoria dessa atividade do Privileged Access Manager.
Para restringir o acesso a recursos com base no endereço IP e nos atributos do dispositivo do usuário final, estenda as políticas de acesso do Identity-Aware Proxy (IAP).
Para criar padrões de acesso para diferentes grupos de usuários, use o controle de acesso da Vertex AI com o IAM para combinar os papéis predefinidos ou personalizados.
Para proteger as instâncias do Vertex AI Workbench usando controles de acesso baseado no contexto, use o Access Context Manager e o Chrome Enterprise Premium. Com essa abordagem, o acesso é avaliado sempre que um usuário se autentica na instância.
Implementar medidas de segurança para movimentação de dados
Implemente perímetros seguros e outras medidas, como criptografia e restrições na movimentação de dados. Essas medidas ajudam a evitar a exfiltração e a perda de dados, que podem causar prejuízos financeiros, danos à reputação, responsabilidades legais e interrupção das operações comerciais.
Para ajudar a evitar a exfiltração e a perda de dados no Google Cloud, use uma combinação de ferramentas e serviços de segurança.
Para implementar a criptografia, considere o seguinte:
- Para ter mais controle sobre as chaves de criptografia, use chaves de criptografia gerenciadas pelo cliente (CMEKs) no Cloud KMS. Ao usar CMEKs, os seguintes serviços integrados a CMEK criptografam dados em repouso para você:
- Para ajudar a proteger seus dados no Cloud Storage, use a criptografia do lado do servidor para armazenar suas CMEKs. Se você gerenciar CMEKs nos seus próprios servidores, a criptografia do lado do servidor poderá ajudar a proteger as CMEKs e os dados associados, mesmo que o sistema de armazenamento de CMEKs seja comprometido.
- Para criptografar dados em trânsito, use HTTPS em todas as chamadas de API para serviços de IA e ML. Para aplicar o HTTPS aos seus aplicativos e APIs, use balanceadores de carga HTTPS.
Para mais práticas recomendadas sobre como criptografar dados, consulte Criptografar dados em repouso e em trânsito no pilar de segurança do framework bem arquitetado.
Para implementar perímetros, considere o seguinte:
- Para criar um limite de segurança em torno dos seus recursos de IA e ML e evitar a exfiltração de dados da sua nuvem privada virtual (VPC), use o VPC Service Controls para definir um perímetro de serviço. Inclua seus recursos de IA e ML e dados sensíveis no perímetro. Para controlar o fluxo de dados, configure regras de entrada e saída para seu perímetro.
- Para restringir o tráfego de entrada e saída dos recursos de IA e ML, configure regras de firewall. Implemente políticas que negam todo o tráfego por padrão e permitem explicitamente apenas o tráfego que atende aos seus critérios. Para conferir um exemplo de política, consulte Exemplo: negar todas as conexões externas, exceto para portas específicas.
Para implementar restrições à movimentação de dados, considere o seguinte:
- Para compartilhar dados e escalonar em limites de privacidade em um ambiente seguro, use o compartilhamento do BigQuery e as data clean rooms do BigQuery, que oferecem uma estrutura robusta de segurança e privacidade.
- Para compartilhar dados diretamente em destinos integrados dos painéis de Business Intelligence, use o Looker Action Hub, que oferece um ambiente de nuvem seguro.
Proteção contra envenenamento de dados
Envenenamento de dados é um tipo de ataque cibernético em que os invasores injetam dados maliciosos em conjuntos de dados de treinamento para manipular o comportamento do modelo ou degradar o desempenho. Esse ataque cibernético pode ser uma ameaça grave aos sistemas de treinamento de ML. Para proteger a validade e a qualidade dos dados, mantenha práticas que os protejam. Essa abordagem é crucial para a consistência da imparcialidade, confiabilidade e integridade do modelo.
Para acompanhar comportamentos inconsistentes, transformações ou acessos inesperados aos seus dados, configure um monitoramento e alertas abrangentes para pipelines de dados e de ML.
Os recursos doGoogle Cloud podem ajudar você a implementar mais proteções contra envenenamento de dados:
Para validar a integridade dos dados, considere o seguinte:
- Implemente verificações robustas de validação de dados antes de usar os dados para treinamento. Verifique formatos, intervalos e distribuições de dados. É possível usar os recursos automáticos de qualidade de dados no Dataplex Universal Catalog.
- Use a Proteção de Dados Sensíveis com o Model Armor para aproveitar os recursos abrangentes de prevenção contra perda de dados. Para mais informações, consulte Principais conceitos do Model Armor. Com a Proteção de Dados Sensíveis e o Model Armor, você pode descobrir, classificar e proteger dados sensíveis, como propriedade intelectual. Esses recursos ajudam a evitar a exposição não autorizada de dados sensíveis em interações com LLMs.
- Para detectar anomalias nos seus dados de treinamento que possam indicar envenenamento de dados, use a detecção de anomalias no BigQuery com métodos estatísticos ou modelos de ML.
Para se preparar para um treinamento robusto, faça o seguinte:
- Use métodos de combinação para reduzir o impacto de pontos de dados contaminados. Treine vários modelos em diferentes subconjuntos de dados com ajuste de hiperparâmetros.
- Use técnicas de aumento de dados para equilibrar a distribuição de dados entre os conjuntos. Essa abordagem pode reduzir o impacto da contaminação de dados e permite adicionar exemplos adversários.
Para incorporar a revisão humana aos dados de treinamento ou às saídas do modelo, faça o seguinte:
- Analise as métricas de avaliação do modelo para detectar possíveis viéses, anomalias ou comportamentos inesperados que possam indicar envenenamento de dados. Para mais detalhes, consulte Avaliação de modelos na Vertex AI.
- Aproveite a experiência no domínio para avaliar o modelo ou aplicativo e identificar padrões ou pontos de dados suspeitos que os métodos automatizados podem não detectar. Para mais detalhes, consulte Visão geral do serviço de avaliação de IA generativa.
Para conferir práticas recomendadas sobre como criar plataformas de dados focadas em infraestrutura e segurança de dados, consulte o princípio Implementar segurança por design no framework bem arquitetado.
Mantenha os pipelines de IA seguros e robustos contra adulteração
Seu código de IA e ML e os pipelines definidos por código são recursos essenciais. Um código não protegido pode ser adulterado, o que pode levar a vazamentos de dados, falha de compliance e interrupção de atividades comerciais críticas. Manter seu código de IA e ML seguro ajuda a garantir a integridade e o valor dos seus modelos e resultados.
Para manter o código e os pipelines de IA seguros, considere as seguintes recomendações.
Usar práticas de programação seguras
Para evitar vulnerabilidades, use práticas de programação seguras ao desenvolver seus modelos. Recomendamos que você implemente a validação de entrada e saída específica da IA, gerencie todas as dependências de software e incorpore consistentemente princípios de programação segura ao desenvolvimento. Incorpore a segurança em todas as etapas do ciclo de vida da IA, desde o pré-processamento de dados até o código final do aplicativo.
Para implementar uma validação rigorosa, considere o seguinte:
Para evitar manipulação de modelos ou explorações do sistema, valide e limpe entradas e saídas no seu código.
- Use o Model Armor ou LLMs refinados para analisar automaticamente comandos e respostas em busca de riscos comuns.
- Implemente a validação de dados nos scripts de ingestão de dados e pré-processamento para tipos, formatos e intervalos de dados. Para o Vertex AI Pipelines ou o BigQuery, é possível usar Python para implementar essa validação de dados.
- Use agentes de LLM assistentes de programação, como o CodeMender, para melhorar a segurança do código. Mantenha uma human in the loop para validar as mudanças propostas.
Para gerenciar e proteger os endpoints de API do seu modelo de IA, use o Apigee, que inclui recursos configuráveis, como validação de solicitações, controle de tráfego e autenticação.
Para ajudar a mitigar riscos durante todo o ciclo de vida da IA, use a Proteção de IA para fazer o seguinte:
- Descubra o inventário de IA no seu ambiente.
- Avalie o inventário para identificar possíveis vulnerabilidades.
- Proteja os recursos de IA com controles, políticas e proteções.
- Gerencie sistemas de IA com recursos de detecção, investigação e resposta.
Para ajudar a proteger as dependências de código e artefato no seu pipeline de CI/CD, considere o seguinte:
- Para lidar com os riscos que as dependências de bibliotecas de código aberto podem introduzir no seu projeto, use a Análise de artefatos com o Artifact Registry para detectar vulnerabilidades conhecidas. Use e mantenha as versões aprovadas das bibliotecas. Armazene seus pacotes de ML personalizados e dependências verificadas em um repositório privado do Artifact Registry.
- Para incorporar a verificação de dependências aos pipelines de MLOps do Cloud Build, use a Autorização binária. Aplique políticas que permitam implantações somente se as imagens de contêiner do seu código passarem nas verificações de segurança.
- Para receber informações de segurança sobre sua cadeia de suprimentos de software, use os painéis no console do Google Cloud , que fornecem detalhes sobre fontes, builds, artefatos, implantações e tempos de execução. Essas informações incluem vulnerabilidades em artefatos de build, procedência de build e listas de dependências da lista de materiais de software (SBOM, na sigla em inglês).
- Para avaliar o nível de maturidade da segurança da cadeia de suprimentos de software, use o framework de Níveis da cadeia de suprimentos para artefatos de software (SLSA).
Para incorporar princípios de programação segura de maneira consistente em todas as etapas do desenvolvimento, considere o seguinte:
- Para evitar a exposição de dados sensíveis nas interações do modelo, use o Logging com a Proteção de Dados Sensíveis. Ao usar esses produtos juntos, você pode controlar quais dados seus aplicativos de IA e componentes de pipeline registram e ocultar dados sensíveis.
- Para implementar o princípio de privilégio mínimo, verifique se as contas de serviço usadas para trabalhos personalizados, pipelines e modelos implantados da Vertex AI têm apenas as permissões mínimas necessárias do IAM. Para mais informações, consulte Implementar controles de acesso com base em papéis com princípios de privilégio mínimo.
- Para ajudar a proteger seus pipelines e criar artefatos, entenda as configurações de segurança (VPC e VPC Service Controls) no ambiente em que seu código é executado.
Proteger pipelines e artefatos de modelo contra acesso não autorizado
Seus artefatos e pipelines de modelo são propriedade intelectual, e os dados de treinamento também contêm informações exclusivas. Para proteger pesos de modelo, arquivos e configurações de implantação contra adulterações e vulnerabilidades, armazene e acesse esses artefatos com segurança aprimorada. Implemente diferentes níveis de acesso para cada artefato com base nos papéis e nas necessidades dos usuários.
Para ajudar a proteger os artefatos do modelo, considere o seguinte:
- Para proteger artefatos de modelo e outros arquivos sensíveis, criptografe-os com o Cloud KMS. Essa criptografia ajuda a proteger os dados em repouso e em trânsito, mesmo que o armazenamento subjacente seja comprometido.
- Para ajudar a proteger o acesso aos seus arquivos, armazene-os no Cloud Storage e configure controles de acesso.
- Para acompanhar configurações incorretas ou inadequadas e qualquer desvio dos padrões definidos, use o Security Command Center para configurar posturas de segurança.
- Para ativar o controle de acesso refinado e a criptografia em repouso, armazene os artefatos do modelo no Vertex AI Model Registry. Para mais segurança, crie uma assinatura digital para pacotes e contêineres produzidos durante os processos de build aprovados.
- Para aproveitar a segurança de nível empresarial do Google Cloud, use modelos disponíveis no Model Garden. O Model Garden oferece modelos próprios do Google e modelos de terceiros de parceiros em destaque.
Para aplicar o gerenciamento centralizado a todos os ciclos de vida de usuários e grupos e o princípio de privilégio mínimo, use o IAM.
- Crie e use contas de serviço dedicadas com privilégios mínimos para seus pipelines de MLOps. Por exemplo, a conta de serviço de um pipeline de treinamento tem permissões para ler dados apenas de um bucket específico do Cloud Storage e gravar artefatos de modelo no Model Registry.
- Use as condições do IAM para aplicar o controle de acesso condicional baseado em atributos. Por exemplo, uma condição permite que uma conta de serviço acione um pipeline da Vertex AI somente se a solicitação for originada de um gatilho confiável do Cloud Build.
Para ajudar a proteger seus pipelines de implantação, considere o seguinte:
Para gerenciar os estágios de MLOps em serviços e recursos do Google Cloud , use o Vertex AI Pipelines, que pode ser integrado a outros serviços e fornecer controle de acesso de baixo nível. Ao executar os pipelines novamente, faça as verificações de Vertex Explainable AI e IA responsável antes de implantar os artefatos do modelo. Essas verificações podem ajudar você a detectar ou evitar os seguintes problemas de segurança:
- Mudanças não autorizadas, que podem indicar adulteração do modelo.
- Scripting em vários sites (XSS), que pode indicar imagens ou dependências de contêiner comprometidas.
- Endpoints não seguros, que podem indicar uma infraestrutura de serviço configurada incorretamente.
Para ajudar a proteger as interações do modelo durante a inferência, use endpoints particulares com base no Private Service Connect com contêineres pré-criados ou personalizados. Crie assinaturas de modelo com um esquema de entrada e saída predefinido.
Para automatizar o rastreamento de mudanças no código, use o Git para gerenciamento de código-fonte e integre o controle de versões a pipelines de CI/CD robustos.
Para mais informações, consulte Como proteger o pipeline de IA.
Aplicar linhagem e rastreamento
Para ajudar a atender aos requisitos de compliance regulatório que você possa ter, aplique linhagem e rastreamento aos seus recursos de IA e ML. A linhagem e o rastreamento de dados fornecem registros de mudanças abrangentes para dados, modelos e código. A origem do modelo oferece transparência e responsabilidade em todo o ciclo de vida da IA e do ML.
Para aplicar linhagem e rastreamento de maneira eficaz no Google Cloud, considere as seguintes ferramentas e serviços:
- Para rastrear a linhagem de modelos, conjuntos de dados e artefatos que são criptografados automaticamente em repouso, use o Vertex ML Metadata. Registrar metadados sobre fontes de dados, transformações, parâmetros de modelo e resultados de experimentos.
- Para rastrear a linhagem de artefatos de pipeline do Vertex AI Pipelines e pesquisar recursos de modelo e conjunto de dados, use o catálogo universal do Dataplex. Rastreie artefatos de pipeline individuais quando quiser realizar depuração, solução de problemas ou uma análise da causa raiz. Para rastrear todo o pipeline de MLOps, incluindo a linhagem de artefatos de pipeline, use o Vertex ML Metadata. Com o Vertex ML Metadata, também é possível analisar os recursos e as execuções. O Model Registry aplica e gerencia as versões de cada modelo armazenado.
- Para rastrear chamadas de API e ações administrativas, ative os registros de auditoria da Vertex AI. Analise os registros de auditoria com a Análise de registros para entender quem acessou ou modificou dados e modelos, e quando isso aconteceu. Você também pode encaminhar registros para destinos de terceiros.
Implante em sistemas seguros com ferramentas e artefatos seguros
Verifique se o código e os modelos são executados em um ambiente seguro. Esse ambiente precisa ter um sistema robusto de controle de acesso e oferecer garantias de segurança para as ferramentas e os artefatos implantados.
Para implantar seu código em sistemas seguros, considere as seguintes recomendações.
Treinar e implantar modelos em um ambiente seguro
Para manter a integridade, a confidencialidade e a disponibilidade do sistema para seus sistemas de IA e ML, implemente controles de acesso rigorosos que evitem a manipulação não autorizada de recursos. Essa defesa ajuda você a fazer o seguinte:
- Mitigar a adulteração do modelo que pode produzir resultados inesperados ou conflitantes.
- Proteja seus dados de treinamento contra violações de privacidade.
- Manter o tempo de atividade do serviço.
- Manter a conformidade regulamentar.
- Conquiste a confiança dos usuários.
Para treinar seus modelos de ML em um ambiente com segurança aprimorada, use serviços gerenciados no Google Cloud , como Cloud Run, GKE e Dataproc. Também é possível usar o treinamento sem servidor da Vertex AI.
Esta seção fornece recomendações para ajudar a proteger ainda mais seu ambiente de treinamento e implantação.
Para ajudar a proteger seu ambiente e perímetros, considere o seguinte:
Ao implementar medidas de segurança, conforme descrito anteriormente, considere o seguinte:
- Para isolar ambientes de treinamento e limitar o acesso, use projetos ou VPCs dedicados para treinamento.
- Para proteger dados e códigos sensíveis durante a execução, use VMs protegidas ou computação confidencial para cargas de trabalho de treinamento.
- Para ajudar a proteger sua infraestrutura de rede e controlar o acesso aos modelos implantados, use VPCs, firewalls e perímetros de segurança.
Ao usar o treinamento da Vertex AI, você pode usar os seguintes métodos para ajudar a proteger sua infraestrutura de computação:
- Para treinar jobs personalizados que se comunicam de forma privada com outros serviços autorizados Google Cloud e que não são expostos ao tráfego público, configure uma interface do Private Service Connect.
- Para aumentar a segurança e reduzir a latência da rede em comparação com o que você recebe com um endereço IP público, use um endereço IP particular para se conectar aos jobs de treinamento. Para mais detalhes, consulte Usar um IP particular para treinamento personalizado.
Ao usar o GKE ou o Cloud Run para configurar um ambiente personalizado, considere as seguintes opções:
- Para proteger seu cluster do GKE, use as políticas de rede, as políticas de segurança de pods e os controles de acesso adequados. Use imagens de contêineres confiáveis e verificadas para suas cargas de trabalho de treinamento. Para verificar vulnerabilidades em imagens de contêiner, use o Artifact Analysis.
- Para proteger seu ambiente contra escapes de contêineres e outros ataques, implemente medidas de segurança de tempo de execução para funções do Cloud Run. Para proteger ainda mais seu ambiente, use o GKE Sandbox e o isolamento de carga de trabalho.
- Para ajudar a proteger suas cargas de trabalho do GKE, siga as práticas recomendadas na visão geral de segurança do GKE.
- Para ajudar a atender aos requisitos de segurança no Cloud Run, consulte a visão geral do design de segurança.
Ao usar o Dataproc para treinamento de modelo, siga as práticas recomendadas de segurança do Dataproc.
Para ajudar a proteger sua implantação, considere o seguinte:
- Use o Model Registry ao implantar modelos. Se você implantar modelos em contêineres, use o GKE Sandbox e o Container-Optimized OS para aumentar a segurança e isolar as cargas de trabalho. Restrinja o acesso aos modelos do Model Garden de acordo com as funções e responsabilidades do usuário.
- Para ajudar a proteger as APIs de modelo, use o Apigee ou o gateway de API. Para evitar abusos, implemente chaves de API, autenticação, autorização e limitação de taxa. Para controlar o acesso às APIs de modelo, use chaves de API e mecanismos de autenticação.
- Para ajudar a proteger o acesso aos modelos durante a previsão, use a Inferência da Vertex AI. Para evitar a exfiltração de dados, use os perímetros do VPC Service Controls para proteger endpoints particulares e controlar o acesso aos modelos subjacentes. Você usa endpoints particulares para permitir o acesso aos modelos em uma rede VPC. O IAM não é aplicado diretamente ao endpoint particular, mas o serviço de destino usa o IAM para gerenciar o acesso aos modelos. Para previsão on-line, recomendamos usar o Private Service Connect.
- Para rastrear chamadas de API relacionadas à implantação de modelos, ative os Registros de auditoria do Cloud para a Vertex AI. As chamadas de API relevantes incluem atividades como criação de endpoints, implantação de modelos e atualizações de configuração.
- Para estender a infraestrutura Google Cloud a locais de borda, considere as soluções do Google Distributed Cloud. Para uma solução totalmente desconectada, use o Distributed Cloud isolado, que não exige conectividade com o Google Cloud.
- Para ajudar a padronizar implantações e garantir a conformidade com necessidades regulatórias e de segurança, use o Assured Workloads.
Siga as diretrizes da SLSA para artefatos de IA
Siga as diretrizes padrão dos Níveis da cadeia de suprimentos para artefatos de software (SLSA) (em inglês) para seus artefatos específicos de IA, como modelos e pacotes de software.
O SLSA é um framework de segurança projetado para ajudar você a melhorar a integridade de artefatos de software e evitar adulterações. Ao seguir as diretrizes do SLSA, você pode aumentar a segurança do seu pipeline de IA e ML e dos artefatos que ele produz. A conformidade com o SLSA pode oferecer os seguintes benefícios:
- Aumento da confiança nos seus artefatos de IA e ML: a SLSA ajuda a garantir que não haja adulteração nos seus modelos e pacotes de software. Os usuários também podem rastrear modelos e pacotes de software até a origem, o que aumenta a confiança na integridade e confiabilidade dos artefatos.
- Risco reduzido de ataques à cadeia de suprimentos: o SLSA ajuda a reduzir o risco de ataques que exploram vulnerabilidades na cadeia de suprimentos de software, como ataques que injetam código malicioso ou comprometem processos de build.
- Postura de segurança aprimorada: a SLSA ajuda a fortalecer a postura geral de segurança dos seus sistemas de IA e ML. Essa implementação pode ajudar a reduzir o risco de ataques e proteger seus ativos valiosos.
Para implementar o SLSA nos seus artefatos de IA e ML no Google Cloud, faça o seguinte:
- Entenda os níveis da SLSA: conheça os diferentes níveis da SLSA e os requisitos deles. À medida que os níveis aumentam, a integridade que eles oferecem também aumenta.
- Avalie seu nível atual: compare suas práticas atuais com o framework do SLSA para determinar seu nível atual e identificar áreas de melhoria.
- Defina o nível desejado: determine o nível apropriado da SLSA para atingir com base na sua tolerância a riscos, nos requisitos de segurança e na criticidade dos seus sistemas de IA e ML.
Implementar requisitos da SLSA: para atender ao nível desejado da SLSA, implemente os controles e práticas necessários, que podem incluir o seguinte:
- Controle de origem: use um sistema de controle de versões como o Git para monitorar mudanças no código e nas configurações.
- Processo de build: use um serviço que ajude a proteger seus builds, como o Cloud Build, e garanta que o processo seja programado ou automatizado.
- Geração de procedência: gere metadados de procedência que capturam detalhes sobre como os artefatos foram criados, incluindo o processo de build, o código-fonte e as dependências. Para mais detalhes, consulte Rastrear metadados de Vertex ML e Rastrear execuções e artefatos.
- Assinatura de artefatos: assine seus artefatos para verificar a autenticidade e a integridade deles.
- Gerenciamento de vulnerabilidades: verifique regularmente seus artefatos e dependências em busca de vulnerabilidades. Use ferramentas como o Artifact Analysis.
- Segurança de implantação: implemente práticas de implantação que ajudem a proteger seus sistemas, como as descritas neste documento.
Melhoria contínua: monitore e melhore sua implementação do SLSA para lidar com novas ameaças e vulnerabilidades e busque níveis mais altos do SLSA.
Usar imagens de contêineres pré-criadas validadas
Para evitar um único ponto de falha nos estágios de MLOps, isole as tarefas que exigem gerenciamento de dependências diferentes em contêineres diferentes. Por exemplo, use contêineres separados para engenharia de recursos, treinamento ou ajuste e tarefas de inferência. Essa abordagem também oferece aos engenheiros de ML a flexibilidade de controlar e personalizar o ambiente.
Para promover a consistência de MLOps em toda a organização, use contêineres pré-criados. Mantenha um repositório central de imagens de plataforma de base verificadas e confiáveis com as seguintes práticas recomendadas:
- Mantenha uma equipe de plataforma centralizada na sua organização que crie e gerencie contêineres de base padronizados.
- Estenda as imagens de contêiner pré-criadas que a Vertex AI fornece especificamente para IA e ML. Gerencie as imagens de contêiner em um repositório central na sua organização.
A Vertex AI oferece vários contêineres de aprendizado profundo pré-criados para treinamento e inferência, além de permitir o uso de contêineres personalizados. Para modelos menores, é possível reduzir a latência da inferência se você carregar modelos em contêineres.
Para melhorar a segurança do gerenciamento de contêineres, considere as seguintes recomendações:
- Use o Artifact Registry para criar, armazenar e gerenciar repositórios de imagens de contêiner com diferentes formatos. O Artifact Registry processa o controle de acesso com o IAM e tem recursos integrados de observabilidade e avaliação de vulnerabilidades. Com o Artifact Registry, é possível ativar recursos de segurança de contêineres, verificar imagens de contêineres e investigar vulnerabilidades.
- Execute etapas de integração contínua e crie imagens de contêiner com o Cloud Build. Problemas de dependência podem ser destacados nessa etapa. Se você quiser implantar apenas as imagens criadas pelo Cloud Build, use a autorização binária. Para ajudar a evitar ataques à cadeia de suprimentos, implante as imagens criadas pelo Cloud Build no Artifact Registry. Integre ferramentas de teste automatizadas, como SonarQube, PyLint ou OWASP ZAP.
- Use uma plataforma de contêineres como o GKE ou o Cloud Run, que são otimizados para GPU ou TPU em cargas de trabalho de IA e ML. Considere as opções de verificação de vulnerabilidades para contêineres em clusters do GKE.
Considere a computação confidencial para GPUs
Para proteger dados em uso, use a Computação confidencial. As medidas de segurança convencionais protegem os dados em repouso e em trânsito, mas a computação confidencial criptografa os dados durante o processamento. Ao usar a computação confidencial para GPUs, você ajuda a proteger dados de treinamento sensíveis e parâmetros de modelo contra acesso não autorizado. Você também pode ajudar a evitar acesso não autorizado de usuários privilegiados da nuvem ou possíveis invasores que possam acessar a infraestrutura subjacente.
Para determinar se você precisa da computação confidencial para GPUs, considere a sensibilidade dos dados, os requisitos regulamentares e os riscos potenciais.
Se você configurou a computação confidencial, considere as seguintes opções:
- Para cargas de trabalho de IA e ML de uso geral, use instâncias de VM confidencial com GPUs NVIDIA T4. Essas instâncias de VM oferecem criptografia baseada em hardware de dados em uso.
- Para cargas de trabalho em contêineres, use os nós confidenciais do GKE. Esses nós fornecem um ambiente seguro e isolado para seus pods.
- Para garantir que sua carga de trabalho esteja sendo executada em um enclave genuíno e seguro, verifique os relatórios de atestado fornecidos pela VM confidencial.
- Para acompanhar a performance, a utilização de recursos e os eventos de segurança, monitore os recursos de computação confidencial e os Confidential GKE Nodes usando o Monitoring e o Logging.
Verificar e proteger entradas
Trate todas as entradas dos seus sistemas de IA como não confiáveis, sejam elas de usuários finais ou de outros sistemas automatizados. Para manter seus sistemas de IA seguros e garantir que eles funcionem conforme o esperado, é necessário detectar e limpar possíveis vetores de ataque no início do processo.
Para verificar e proteger suas entradas, considere as recomendações a seguir.
Implementar práticas que ajudam a proteger sistemas de IA generativa
Trate os comandos como um componente de aplicativo essencial que tem a mesma importância para a segurança que o código. Implemente uma estratégia de defesa em profundidade que combine design proativo, triagem automatizada e gerenciamento disciplinado do ciclo de vida.
Para ajudar a proteger seus comandos de IA generativa, crie-os para segurança, faça uma triagem antes do uso e gerencie-os durante todo o ciclo de vida.
Para melhorar a segurança do design e da engenharia de comandos, considere as seguintes práticas:
- Estruture os comandos para ter mais clareza: crie e teste todos os comandos usando os recursos de gerenciamento de comandos do Vertex AI Studio. Os comandos precisam ter uma estrutura clara e sem ambiguidade. Defina uma função, inclua exemplos de few-shot e dê instruções específicas e limitadas. Esses métodos reduzem o risco de o modelo interpretar mal a entrada de um usuário de uma forma que crie uma brecha de segurança.
Teste a robustez e o embasamento das entradas: teste todos os seus sistemas de forma proativa contra entradas inesperadas, malformadas e maliciosas para evitar falhas ou saídas não seguras. Use testes de equipe vermelha para simular ataques do mundo real. Como uma etapa padrão nos seus pipelines da Vertex AI, automatize os testes de robustez. É possível usar as seguintes técnicas de teste:
- Fuzzing.
- Teste diretamente contra PII, entradas sensíveis e injeções de SQL.
- Verificar entradas multimodais que podem conter malware ou violar as políticas de comandos.
Implemente uma defesa em camadas: use várias defesas e nunca confie em uma única medida de proteção. Por exemplo, para um aplicativo baseado em geração aumentada por recuperação (RAG), use um LLM separado para classificar a intenção do usuário e verificar padrões maliciosos. Em seguida, esse LLM pode transmitir a solicitação ao LLM principal mais potente que gera a resposta final.
Remova e valide entradas: antes de incorporar entradas externas ou fornecidas pelo usuário em um comando, filtre e valide todas as entradas no código do aplicativo. Essa validação é importante para ajudar a evitar injeção indireta de comandos.
Para triagem automatizada de comandos e respostas, considere as seguintes práticas:
- Use serviços de segurança abrangentes: implemente um serviço de segurança dedicado e independente de modelo, como o Model Armor, como uma camada de proteção obrigatória para seus LLMs. O Model Armor inspeciona comandos e respostas em busca de ameaças como injeção de comandos, tentativas de jailbreak e conteúdo nocivo. Para garantir que seus modelos não vazem dados de treinamento sensíveis ou propriedade intelectual nas respostas, use a integração da Proteção de dados sensíveis com o Model Armor. Para mais detalhes, consulte Filtros do Model Armor.
- Monitorar e registrar interações: mantenha registros detalhados de todos os comandos e respostas dos endpoints de modelo. Use o Logging para auditar essas interações, identificar padrões de uso indevido e detectar vetores de ataque que podem surgir contra seus modelos implantados.
Para ajudar a proteger o gerenciamento do ciclo de vida do prompt, considere as seguintes práticas:
- Implemente o controle de versões para solicitações: trate todas as solicitações de produção como código de aplicativo. Use um sistema de controle de versões como o Git para criar um histórico completo de mudanças, aplicar padrões de colaboração e permitir rollbacks para versões anteriores. Essa prática principal de MLOps pode ajudar você a manter sistemas de IA estáveis e seguros.
- Centralizar o gerenciamento de comandos: use um repositório central para armazenar, gerenciar e implantar todos os comandos versionados. Essa estratégia garante a consistência em todos os ambientes e permite atualizações de tempo de execução sem a necessidade de uma nova implantação completa do aplicativo.
- Faça auditorias e testes regulares de equipe vermelha: teste continuamente as defesas do sistema contra vulnerabilidades conhecidas, como as listadas no OWASP Top 10 para aplicativos de LLM. Como engenheiro de IA, você precisa ser proativo e fazer testes de equipe vermelha no seu próprio aplicativo para descobrir e corrigir falhas antes que um invasor possa se aproveitar delas.
Evitar consultas maliciosas aos seus sistemas de IA
Além da autenticação e da autorização, que foram abordadas neste documento, você pode tomar outras medidas para proteger seus sistemas de IA contra entradas maliciosas. É necessário preparar seus sistemas de IA para cenários pós-autenticação em que invasores ignoram os protocolos de autenticação e autorização e tentam atacar o sistema internamente.
Para implementar uma estratégia abrangente que ajude a proteger seu sistema contra ataques pós-autenticação, aplique os seguintes requisitos:
Camadas de rede e de aplicativo seguras: estabeleça uma defesa multicamadas para todos os seus recursos de IA.
- Para criar um perímetro de segurança que impeça a exfiltração de dados de modelos do Model Registry ou de dados sensíveis do BigQuery, use o VPC Service Controls. Sempre use o modo de teste para validar o impacto de um perímetro antes de aplicá-lo.
- Para proteger ferramentas baseadas na Web, como notebooks, use o IAP.
- Para ajudar a proteger todos os endpoints de inferência, use a Apigee para segurança e governança de nível empresarial. Também é possível usar o gateway de API para autenticação simples.
Monitore anomalias no padrão de consulta: por exemplo, um invasor que investiga um sistema em busca de vulnerabilidades pode enviar milhares de consultas sequenciais ligeiramente diferentes. Marque padrões de consulta anormais que não refletem o comportamento normal do usuário.
Monitore o volume de solicitações: um aumento repentino no volume de consultas indica um ataque de negação de serviço (DoS) ou de roubo de modelo, que é uma tentativa de fazer engenharia reversa do modelo. Use a limitação de taxa e a limitação para controlar o volume de solicitações de um único endereço IP ou usuário.
Monitore e defina alertas para anomalias geográficas e temporais: estabeleça um valor de referência para padrões de acesso normais. Gerar alertas para atividades repentinas de locais geográficos incomuns ou em horários estranhos. Por exemplo, um aumento enorme nos logins de um novo país às 3h.
Monitorar, avaliar e se preparar para responder a resultados
Os sistemas de IA geram valor porque produzem resultados que aumentam, otimizam ou automatizam a tomada de decisões humanas. Para manter a integridade e a confiabilidade dos seus sistemas e aplicativos de IA, garanta que as saídas sejam seguras e estejam dentro dos parâmetros esperados. Você também precisa de um plano para responder a incidentes.
Para manter suas saídas, considere as seguintes recomendações.
Avaliar a performance do modelo com métricas e medidas de segurança
Para garantir que seus modelos de IA atendam aos comparativos de desempenho, aos requisitos de segurança e aos padrões de justiça e compliance, avalie-os completamente. Faça avaliações antes da implantação e continue avaliando os modelos em produção regularmente. Para minimizar riscos e criar sistemas de IA confiáveis, implemente uma estratégia de avaliação abrangente que combine métricas de desempenho com avaliações específicas de segurança de IA.
Para avaliar a robustez e a postura de segurança do modelo, considere as seguintes recomendações:
Implemente a assinatura e a verificação de modelos no seu pipeline de MLOps.
- Para modelos em contêineres, use a autorização binária para verificar assinaturas.
- Para modelos implantados diretamente em endpoints da Vertex AI, use verificações personalizadas nos scripts de implantação para verificação.
- Para qualquer modelo, use o Cloud Build para assinatura de modelo.
Avalie a capacidade do seu modelo de lidar com entradas inesperadas ou adversárias.
- Para todos os seus modelos, teste corrupções comuns de dados e modificações potencialmente maliciosas. Para organizar esses testes, use o treinamento da Vertex AI ou o Vertex AI Pipelines.
- Para modelos críticos de segurança, faça simulações de ataques adversários para entender as possíveis vulnerabilidades.
- Para modelos implantados em contêineres, use o Artifact Analysis no Artifact Registry para verificar vulnerabilidades nas imagens de base.
Use o Vertex AI Model Monitoring para detectar desvios e inclinações em modelos implantados. Em seguida, use esses insights nos ciclos de reavaliação ou retreinamento.
Use as avaliações de modelo da Vertex AI como um componente de pipeline com o Vertex AI Pipelines. É possível executar o componente de avaliação de modelo sozinho ou com outros componentes do pipeline. Compare as versões do modelo com as métricas e os conjuntos de dados definidos. Registre os resultados da avaliação no Vertex ML Metadata para linhagem e rastreamento.
Use ou crie com base no Serviço de avaliação de IA generativa para avaliar os modelos escolhidos ou implementar fluxos de trabalho personalizados de avaliação humana.
Para avaliar a imparcialidade, o viés, a capacidade de explicação e a veracidade, considere as seguintes recomendações:
- Defina medidas de imparcialidade que correspondam aos seus casos de uso e avalie seus modelos para possíveis vieses em diferentes partes de dados.
- Entenda quais recursos impulsionam as previsões do modelo para garantir que os recursos e as previsões resultantes estejam alinhados ao conhecimento do domínio e às diretrizes éticas.
- Use a Vertex Explainable AI para receber atribuições de atributos dos seus modelos.
- Use o serviço de avaliação de IA generativa para calcular métricas. Durante a fase de verificação de origem dos testes, a métrica de embasamento do serviço verifica a veracidade em relação ao texto da fonte fornecida.
- Ative o fundamentação para a saída do modelo e facilite uma segunda camada de verificação de origem no nível do usuário.
- Revise nossos princípios de IA e adapte-os para seus aplicativos de IA.
Monitore as saídas de modelos de IA e ML em produção
Monitore continuamente seus modelos de IA e ML e a infraestrutura de suporte deles em produção. É importante identificar e diagnosticar rapidamente degradações na qualidade ou no desempenho da saída do modelo, vulnerabilidades de segurança que surgem e desvios das obrigações de compliance. Esse monitoramento ajuda a manter a segurança, a confiabilidade e a confiabilidade do sistema.
Para monitorar as saídas do sistema de IA em busca de anomalias, ameaças e degradação da qualidade, considere as seguintes recomendações:
- Use o Model Monitoring para rastrear mudanças inesperadas nas distribuições de previsão ou picos em previsões de modelo de baixa confiança. Monitore ativamente as saídas do seu modelo de IA generativa para conteúdo gerado que seja inseguro, tendencioso, fora do assunto ou malicioso. Você também pode usar o Model Armor para analisar todas as saídas do modelo.
- Identificar padrões de erros específicos, capturar indicadores de qualidade ou detectar saídas nocivas ou não conformes no nível do aplicativo. Para encontrar esses problemas, use o monitoramento personalizado nos painéis do Monitoring e as métricas com base em registros do Logging.
Para monitorar saídas em busca de sinais específicos de segurança e mudanças não autorizadas, considere as seguintes recomendações:
- Identifique tentativas de acesso não autorizado a modelos de IA, conjuntos de dados no Cloud Storage ou no BigQuery ou componentes do pipeline de MLOps. Em especial, identifique mudanças inesperadas ou não autorizadas nas permissões do IAM para recursos de IA. Para rastrear essas atividades e analisar padrões suspeitos, use os registros de auditoria de atividade do administrador e de acesso a dados nos Registros de auditoria do Cloud. Integre as descobertas do Security Command Center, que podem sinalizar configurações incorretas de segurança e possíveis ameaças relevantes para seus recursos de IA.
- Monitore as saídas para grandes volumes de solicitações ou solicitações de fontes suspeitas, o que pode indicar tentativas de fazer engenharia reversa de modelos ou exfiltrar dados. Você também pode usar a Proteção de dados sensíveis para monitorar a exfiltração de dados potencialmente sensíveis.
- Integre registros às suas operações de segurança. Use o Google Security Operations para detectar, orquestrar e responder a ameaças cibernéticas dos seus sistemas de IA.
Para acompanhar a integridade operacional e o desempenho da infraestrutura que atende aos seus modelos de IA, considere as seguintes recomendações:
- Identifique problemas operacionais que podem afetar a entrega de serviços ou o desempenho do modelo.
- Monitore os endpoints da Vertex AI para verificar latência, taxas de erro e padrões de tráfego.
- Monitore os pipelines de MLOps para verificar o status de execução e erros.
- Use o Monitoring, que oferece métricas prontas. Também é possível criar painéis personalizados para ajudar a identificar problemas como interrupções de endpoints ou falhas de pipeline.
Implementar procedimentos de alerta e resposta a incidentes
Quando você identifica possíveis problemas de desempenho, segurança ou conformidade, uma resposta eficaz é fundamental. Para garantir notificações oportunas às equipes adequadas, implemente mecanismos de alerta robustos. Estabeleça e operacionalize procedimentos abrangentes de resposta a incidentes com reconhecimento de IA para gerenciar, conter e corrigir esses problemas de maneira eficiente.
Para estabelecer mecanismos de alerta robustos para problemas de IA identificados, considere as seguintes recomendações:
- Configure alertas úteis para notificar as equipes relevantes com base nas atividades de monitoramento da sua plataforma. Por exemplo, configure alertas para serem acionados quando o Model Monitoring detectar desvio, inclinação ou anomalias de previsão significativos. Ou configure alertas para serem acionados quando o Model Armor ou regras de monitoramento personalizadas sinalizarem entradas maliciosas ou saídas não seguras.
- Defina canais de notificação claros, que podem incluir Slack, e-mail ou SMS por integrações do Pub/Sub. Personalize os canais de notificação para as gravidades dos alertas e as equipes responsáveis.
Desenvolver e operacionalizar um plano de resposta a incidentes com reconhecimento de IA. Um plano estruturado de resposta a incidentes é essencial para minimizar possíveis impactos e garantir a recuperação. Personalize esse plano para lidar com riscos específicos de IA, como adulteração de modelos, previsões incorretas devido a desvios, injeção de comandos ou saídas não seguras de modelos generativos. Para criar um plano eficaz, inclua as seguintes fases principais:
Preparação: identifique recursos e vulnerabilidades, desenvolva playbooks e garanta que suas equipes tenham os privilégios adequados. Esta fase inclui as seguintes tarefas:
- Identifique ativos de IA críticos, como modelos, conjuntos de dados e recursos específicos da Vertex AI, como endpoints ou instâncias do Vertex AI Feature Store.
- Identifique os possíveis modos de falha ou vetores de ataque dos recursos.
Desenvolva manuais específicos de IA para incidentes que correspondam ao modelo de ameaça da sua organização. Por exemplo, os playbooks podem incluir o seguinte:
- Um rollback de modelo que usa o controle de versões no Model Registry.
- Um pipeline de retreinamento de emergência no Vertex AI Training.
- O isolamento de uma fonte de dados comprometida no BigQuery ou no Cloud Storage.
Use o IAM para garantir que as equipes de resposta tenham o acesso de menor privilégio necessário às ferramentas exigidas durante um incidente.
Identificação e triagem: use alertas configurados para detectar e validar possíveis incidentes. Estabeleça critérios e limites claros para como sua organização investiga ou declara um incidente relacionado à IA. Para uma investigação detalhada e coleta de evidências, use o Logging para registros de aplicativos e serviços, e os registros de auditoria do Cloud para atividades administrativas e padrões de acesso a dados. As equipes de segurança podem usar o Google SecOps para análises mais detalhadas da telemetria de segurança.
Contenção: isole os sistemas ou componentes de IA afetados para evitar mais impacto ou exfiltração de dados. Essa fase pode incluir as seguintes tarefas:
- Desativar um endpoint problemático da Vertex AI.
- Revogue permissões específicas do IAM.
- Atualize as regras de firewall ou as políticas do Cloud Armor.
- Pausar um pipeline da Vertex AI que está com comportamento inadequado.
Erradicação: identifique e remova a causa raiz do incidente. Essa fase pode incluir as seguintes tarefas:
- Corrija o código vulnerável em um contêiner de modelo personalizado.
- Remova os backdoors maliciosos identificados de um modelo.
- Limpe os dados contaminados antes de iniciar um job de retreinamento seguro no Vertex AI Training.
- Atualize todas as configurações inseguras.
- Refine a lógica de validação de entrada para bloquear técnicas específicas de injeção de comandos.
Recuperação e nova implantação segura: restaure os sistemas de IA afetados para um estado operacional bom e seguro conhecido. Essa fase pode incluir as seguintes tarefas:
- Implante uma versão de modelo validada e confiável do Model Registry.
- Encontre e aplique todos os patches de segurança para vulnerabilidades que possam estar presentes no seu código ou sistema.
- Redefina as permissões do IAM para o princípio de privilégio mínimo.
Atividade pós-incidente e lições aprendidas: depois de resolver os incidentes significativos de IA, faça uma revisão completa pós-incidente. Essa análise envolve todas as equipes relevantes, como as de IA e ML, MLOps, segurança e ciência de dados. Entenda todo o ciclo de vida do incidente. Use esses insights para refinar o design do sistema de IA, atualizar os controles de segurança, melhorar as configurações de monitoramento e aprimorar o plano e os playbooks de resposta a incidentes de IA.
Integre a resposta a incidentes de IA com os frameworks organizacionais mais amplos, como gerenciamento de incidentes de TI e segurança, para um esforço coordenado. Para alinhar sua resposta a incidentes específicos de IA com as estruturas organizacionais, considere o seguinte:
- Encaminhamento: defina caminhos claros para encaminhar incidentes significativos de IA ao SOC central, TI, jurídico ou unidades de negócios relevantes.
- Comunicação: use os canais organizacionais estabelecidos para todos os relatórios e atualizações de incidentes internos e externos.
- Ferramentas e processos: use os sistemas empresariais de gestão de incidentes e de tíquetes para incidentes de IA. Assim, você garante acompanhamento e visibilidade consistentes.
- Colaboração: pré-defina protocolos de colaboração entre equipes de IA e ML, MLOps, ciência de dados, segurança, jurídica e compliance para respostas eficazes a incidentes de IA.
Colaboradores
Autores:
- Kamilla Kurta | Engenheira de clientes especialista em IA generativa/ML
- Vidhi Jain | Engenheira de nuvem, análise e IA
- Mohamed Fawzi | Líder de segurança e compliance do Benelux
- Filipe Gracio, PhD | Engenheiro de clientes, especialista em IA/ML
Outros colaboradores:
- Lauren Anthony | Engenheiro de clientes, especialista em segurança
- Daniel Lees | Arquiteto de segurança do Cloud
- John Bacon | Arquiteto de soluções para parceiros
- Kumar Dhanagopal | Desenvolvedor de soluções para vários produtos
- Marwan Al Shawi | Engenheiro de clientes do parceiro
- Mónica Carranza | Analista sênior de ameaças de IA generativa
- Tarun Sharma | Arquiteto principal
- Wade Holmes | Diretor global de soluções