Vista geral do Model Armor

O Model Armor é um Google Cloud serviço concebido para melhorar a segurança das suas aplicações de IA. Funciona através da análise proativa de comandos e respostas de GMLs, protegendo contra vários riscos e garantindo práticas de IA responsáveis. Quer esteja a implementar a IA no seu ambiente de nuvem ou mesmo em fornecedores de nuvem externos, o Model Armor pode ajudar a evitar entradas maliciosas, validar a segurança do conteúdo, proteger dados confidenciais, manter a conformidade e aplicar as suas políticas de segurança e proteção da IA de forma consistente no seu panorama diversificado de IA.

Arquitetura

Arquitetura do Model Armor Este diagrama de arquitetura mostra uma aplicação que usa o Model Armor para proteger um MDG e um utilizador. Os passos seguintes explicam o fluxo de dados.

  1. Um utilizador fornece um comando à aplicação.
  2. O Model Armor inspeciona o comando recebido para verificar a existência de conteúdo potencialmente sensível.
  3. O comando (ou o comando higienizado) é enviado para o MDG.
  4. O GML gera uma resposta.
  5. O Model Armor inspeciona a resposta gerada quanto a conteúdo potencialmente sensível.
  6. A resposta (ou a resposta higienizada) é enviada ao utilizador. O Model Armor envia uma descrição detalhada dos filtros acionados e não acionados na resposta.

O Model Armor filtra a entrada (comandos) e a saída (respostas) para impedir que o MDI/CE seja exposto a conteúdo malicioso ou sensível, ou o gere.

Exemplos de utilização

O Model Armor tem vários exemplos de utilização em vários setores:

  • Segurança

    • Mitigar o risco de fuga de propriedade intelectual (PI) sensível e informações de identificação pessoal (IIP) que sejam incluídas em comandos ou respostas de MDIs.
    • Proteção contra ataques de injeção de comandos e jailbreak, impedindo que intervenientes maliciosos manipulem sistemas de IA para realizar ações não intencionais.
    • Analise texto em PDFs para verificar a existência de conteúdo sensível ou malicioso.
  • Segurança e IA responsável

    • Impedir que o chatbot recomende soluções de concorrentes, mantendo a integridade da marca e a fidelidade dos clientes.
    • As organizações podem filtrar publicações nas redes sociais geradas pela respetiva IA que contenham mensagens prejudiciais, como conteúdo perigoso ou de incitamento ao ódio.

Modelos do Model Armor

Os modelos do Model Armor permitem-lhe configurar a forma como o Model Armor filtra comandos e respostas. Funcionam como conjuntos de filtros e limiares personalizados para diferentes níveis de confiança de segurança, permitindo o controlo sobre o conteúdo denunciado.

Os limites representam níveis de confiança, ou seja, o nível de confiança do Model Armor de que o comando ou a resposta inclui conteúdo ofensivo. Por exemplo, pode criar um modelo que filtre comandos para conteúdo de ódio com um HIGHlimiar, o que significa que o Model Armor comunica uma elevada confiança de que o comando contém conteúdo de ódio. Um limite de LOW_AND_ABOVE indica qualquer nível de confiança (LOW, MEDIUM e HIGH) na apresentação dessa reivindicação.

Para mais informações, consulte o artigo Modelos do Armor.

Níveis de confiança do Model Armor

Pode definir níveis de confiança para categorias de segurança de IA responsável (conteúdo sexualmente explícito, perigoso, assédio e incitamento ao ódio), deteção de injeção de comandos e jailbreak, e proteção de dados confidenciais (incluindo a atualidade).

Para níveis de confiança que permitem limites detalhados, o Model Armor interpreta-os da seguinte forma:

  • Elevada: identifica se a mensagem tem conteúdo com uma probabilidade elevada.
  • Médio e superior: identifica se a mensagem tem conteúdo com uma probabilidade média ou elevada.
  • Baixa e superior: identifica se a mensagem tem conteúdo com uma probabilidade baixa, média ou alta.

Filtros do Model Armor

O Model Armor oferece uma variedade de filtros para ajudar a fornecer modelos de IA seguros e protegidos. Estão disponíveis as seguintes categorias de filtros.

Filtro de segurança de IA responsável

Pode filtrar comandos e respostas nos níveis de confiança mencionados acima para as seguintes categorias:

Categoria Definição
Incitação ao ódio Comentários negativos ou prejudiciais que visam a identidade e/ou atributos protegidos.
Assédio Comentários ameaçadores, intimidantes, de bullying ou abusivos dirigidos a outro indivíduo.
Conteúdo sexualmente explícito Contém referências a atos sexuais ou outro conteúdo lascivo.
Conteúdo perigoso Promova ou permita o acesso a bens, serviços e atividades prejudiciais.

O filtro de material relativo a abuso sexual infantil (CSAM) é aplicado por predefinição e não pode ser desativado.

Deteção de injeção de comandos e jailbreak

A injeção de comandos é uma vulnerabilidade de segurança em que os atacantes criam comandos especiais na entrada de texto (o comando) para enganar um modelo de IA. Isto pode fazer com que a IA ignore as suas instruções habituais, revele informações confidenciais ou execute ações para as quais não foi concebida. O jailbreaking no contexto dos MDIs refere-se ao ato de ignorar os protocolos de segurança e as diretrizes éticas incorporados no modelo. Isto permite que o MDI/CE gere respostas que foi originalmente concebido para evitar, como conteúdo prejudicial, antiético e perigoso.

Quando a injeção de comandos e a deteção de jailbreak estão ativadas, o Model Armor analisa os comandos e as respostas em busca de conteúdo malicioso. Se for detetado, o Model Armor bloqueia o comando ou a resposta.

Proteção de dados confidenciais

A proteção de dados confidenciais é um Google Cloud serviço que ajuda a descobrir, classificar e desidentificar dados confidenciais. A proteção de dados confidenciais pode identificar elementos, contexto e documentos confidenciais para ajudar a reduzir o risco de fuga de dados que entram e saem das cargas de trabalho de IA. Pode usar a proteção de dados confidenciais diretamente no Model Armor para transformar, aplicar tokens e ocultar elementos confidenciais, mantendo o contexto não confidencial. O Model Armor pode aceitar modelos de inspeção existentes, que são configurações que funcionam como planos para simplificar o processo de análise e identificação de dados confidenciais específicos da sua empresa e necessidades de conformidade. Desta forma, pode ter consistência e interoperabilidade entre outras cargas de trabalho que usam a proteção de dados confidenciais.

O Model Armor oferece dois modos para a configuração da proteção de dados confidenciais:

  • Configuração básica: neste modo, configura a proteção de dados confidenciais especificando os tipos de dados confidenciais a analisar. Este modo suporta as seguintes categorias:

    • Número do cartão de crédito
    • Número de Identificação da Segurança Social (NISS) dos EUA
    • Número da conta financeira
    • Número de identificação fiscal individual (ITIN) dos EUA
    • Google Cloud credenciais
    • Google Cloud Chave da API

    A configuração básica só permite operações de inspeção e não suporta a utilização de modelos de proteção de dados confidenciais. Para mais informações, consulte a configuração básica da proteção de dados confidenciais.

  • Configuração avançada: este modo oferece mais flexibilidade e personalização através de modelos de proteção de dados confidenciais. Os modelos de proteção de dados confidenciais são configurações predefinidas que lhe permitem especificar regras de deteção mais detalhadas e técnicas de desidentificação. A configuração avançada suporta operações de inspeção e desidentificação.

Os níveis de confiança da proteção de dados confidenciais funcionam de forma ligeiramente diferente dos níveis de confiança de outros filtros. Para mais informações acerca dos níveis de confiança da proteção de dados confidenciais, consulte Probabilidade de correspondência da proteção de dados confidenciais. Para mais informações sobre a proteção de dados confidenciais em geral, consulte a vista geral da proteção de dados confidenciais.

Deteção de URLs maliciosos

Os URLs maliciosos são frequentemente disfarçados para parecerem legítimos, o que os torna uma ferramenta potente para ataques de phishing, distribuição de software malicioso e outras ameaças online. Por exemplo, se um PDF contiver um URL malicioso incorporado, pode ser usado para comprometer quaisquer sistemas a jusante que processem resultados de MDIs.

Quando a deteção de URLs maliciosos está ativada, o Model Armor analisa os URLs para identificar se são maliciosos. Isto permite-lhe tomar medidas e impedir a devolução de URLs maliciosos.

Defina o tipo de aplicação

A aplicação define o que acontece após a deteção de uma violação. Para configurar a forma como o Model Armor processa as deteções, define o tipo de aplicação. O Model Armor oferece os seguintes tipos de aplicação:

  • Apenas inspecionar: inspeciona as solicitações que violam as definições configuradas, mas não as bloqueia.
  • Inspeção e bloqueio: bloqueia pedidos que violem as definições configuradas.

Para usar o Inspect only de forma eficaz e obter estatísticas valiosas, ative o Cloud Logging. Sem o Cloud Logging ativado, Inspect only não produz informações úteis.

Aceda aos seus registos através do Cloud Logging. Filtre pelo nome do serviço modelarmor.googleapis.com. Procure entradas relacionadas com as operações que ativou no modelo. Para mais informações, consulte o artigo Veja registos através do Explorador de registos.

Definições do chão do Model Armor

Embora os modelos do Model Armor ofereçam flexibilidade para aplicações individuais, as organizações precisam frequentemente de estabelecer um nível base de proteção em todas as suas aplicações de IA. É aqui que são usadas as definições do limite inferior do Model Armor. Atuam como regras que definem os requisitos mínimos para todos os modelos criados num ponto específico da hierarquia de Google Cloud recursos (ou seja, ao nível da organização, da pasta ou do projeto).

Para mais informações, consulte o artigo Definições do chão do modelo Armor.

Suporte de idiomas

Os filtros do Model Armor suportam a limpeza de comandos e respostas em vários idiomas.

Existem duas formas de ativar a deteção de vários idiomas:

  • Ativar em cada pedido: para um controlo detalhado, ative a deteção de vários idiomas em função de cada pedido quando limpar um comando do utilizador e limpar uma resposta do modelo.

  • Ativar uma vez: se preferir uma configuração mais simples, pode ativar a deteção de vários idiomas como uma configuração única ao nível do modelo do Model Armor através da API REST. Para mais informações, consulte o artigo Crie um modelo do Model Armor.

Triagem de documentos

O texto nos documentos pode incluir conteúdo malicioso e sensível. O Model Armor pode analisar os seguintes tipos de documentos quanto a segurança, tentativas de injeção de comandos e jailbreak, dados confidenciais e URLs maliciosos:

  • PDFs
  • CSV
  • Ficheiros de texto: TXT
  • Documentos do Microsoft Word: DOCX, DOCM, DOTX e DOTM
  • Slides do Microsoft PowerPoint: PPTX, PPTM, POTX, POTM e POT
  • Folhas do Microsoft Excel: XLSX, XLSM, XLTX e XLTM

Preços

O Model Armor pode ser comprado como parte integrada do Security Command Center ou como um serviço autónomo. Para informações sobre preços, consulte o artigo Preços do Security Command Center.

Tokens

Os modelos de IA generativa dividem o texto e outros dados em unidades denominadas tokens. O Model Armor usa o número total de tokens em comandos e respostas de IA para fins de preços. O Model Armor limita o número de tokens processados em cada comando e resposta.

O Model Armor tem limites de tokens variáveis consoante o filtro específico. Quando o comando ou a resposta excede o limite de tokens, o filtro de proteção de dados confidenciais devolve EXECUTION_SKIPPED. Todos os outros filtros, se o comando ou a resposta excederem o limite de tokens, devolvem MATCH_FOUND se for encontrado conteúdo malicioso e EXECUTION_SKIPPED se não for encontrado conteúdo malicioso.

Filtro Limite de tokens
Deteção de injeção de comandos e jailbreak 10 000
IA responsável 10 000
Material relativo a abuso sexual infantil 10 000
Proteção de dados confidenciais Até 130 000

O que se segue?