O Google usa tecnologia de IA na tradução de conteúdos para seu idioma de preferência. As traduções com IA podem ter erros.

Vista geral do Model Armor

O Model Armor é um Google Cloud serviço concebido para melhorar a segurança das suas aplicações de IA. Funciona através da análise proativa dos comandos e das respostas dos GMLs, protegendo contra vários riscos e garantindo práticas de IA responsáveis. Quer esteja a implementar IA na Google Cloud ou noutros fornecedores de nuvem, o Model Armor pode ajudar a evitar entradas maliciosas, validar a segurança do conteúdo, proteger dados confidenciais, manter a conformidade e aplicar as suas políticas de segurança e proteção de IA de forma consistente nas suas aplicações de IA. Google Cloud

Arquitetura

Arquitetura do Model Armor Este diagrama de arquitetura mostra uma aplicação que usa o Model Armor para proteger um MDG e um utilizador. Os passos seguintes explicam o fluxo de dados:

Um utilizador fornece um comando à aplicação.
O Model Armor inspeciona o comando recebido para verificar a existência de conteúdo potencialmente sensível.
O comando (ou o comando limpo) é enviado para o MDG.
O GML gera uma resposta.
O Model Armor inspeciona a resposta gerada quanto a conteúdo potencialmente sensível.
A resposta (ou a resposta higienizada) é enviada ao utilizador. O Model Armor envia uma descrição detalhada dos filtros acionados e não acionados na resposta.

O Model Armor filtra a entrada (comandos) e a saída (respostas) para impedir que o MDI/CE seja exposto a conteúdo malicioso ou sensível, ou o gere.

Exemplos de utilização

O Model Armor tem vários exemplos de utilização, incluindo os seguintes:

Segurança
- Mitigar o risco de fuga de propriedade intelectual (PI) sensível e informações de identificação pessoal (IIP) em comandos ou respostas de MDIs.
- Proteção contra ataques de injeção de comandos e jailbreak, impedindo que intervenientes maliciosos manipulem sistemas de IA para realizar ações não intencionais.
- Analise texto em PDFs para verificar a existência de conteúdo sensível ou malicioso.
Segurança e IA responsável
- Impedir que o chatbot recomende soluções de concorrentes, mantendo a integridade da marca e a fidelidade dos clientes.
- As organizações podem filtrar publicações nas redes sociais geradas pelas respetivas aplicações de IA que contenham mensagens prejudiciais, como conteúdo perigoso ou de incitamento ao ódio.

Modelos do Model Armor

Os modelos do Model Armor permitem-lhe configurar a forma como o Model Armor filtra comandos e respostas. Funcionam como conjuntos de filtros e limiares personalizados para diferentes níveis de confiança de segurança, permitindo o controlo sobre o conteúdo denunciado.

Os limites representam níveis de confiança, ou seja, o nível de confiança do Model Armor de que o comando ou a resposta inclui conteúdo ofensivo. Por exemplo, pode criar um modelo que filtre comandos para conteúdo de ódio com um HIGHlimite, o que significa que o Model Armor comunica uma elevada confiança de que o comando contém conteúdo de ódio. Um limite LOW_AND_ABOVE indica qualquer nível de confiança (LOW, MEDIUM e HIGH) na apresentação dessa reivindicação.

Para mais informações, consulte o artigo Modelos do Armor.

Níveis de confiança do Model Armor

Pode definir níveis de confiança para categorias de segurança de IA responsável (conteúdo sexualmente explícito, perigoso, assédio e discurso de ódio), deteção de injeção de comandos e jailbreak, e proteção de dados confidenciais (incluindo a atualidade).

Para níveis de confiança que permitem limites detalhados, o Model Armor interpreta-os da seguinte forma:

Elevada: identifica se a mensagem tem conteúdo com uma probabilidade elevada.
Médio e superior: identifica se a mensagem tem conteúdo com uma probabilidade média ou elevada.
Baixa e superior: identifica se a mensagem tem conteúdo com uma probabilidade baixa, média ou alta.

Filtros do Model Armor

O Model Armor oferece uma variedade de filtros para ajudar a fornecer modelos de IA seguros e protegidos. Estão disponíveis as seguintes categorias de filtros.

Filtro de segurança de IA responsável

Pode filtrar comandos e respostas nos níveis de confiança mencionados acima para as seguintes categorias:

Categoria	Definição
Incitação ao ódio	Comentários negativos ou prejudiciais que visam a identidade e/ou atributos protegidos.
Assédio	Comentários ameaçadores, intimidatórios, de bullying ou abusivos dirigidos a outro indivíduo.
Conteúdo sexualmente explícito	Contém referências a atos sexuais ou outro conteúdo lascivo.
Conteúdo perigoso	Promova ou permita o acesso a bens, serviços e atividades prejudiciais.
CSAM	Contém referências a material relativo a abuso sexual infantil (CSAM). Este filtro é aplicado por predefinição e não pode ser desativado.

Deteção de injeção de comandos e jailbreak

A injeção de comandos é uma vulnerabilidade de segurança em que os atacantes criam comandos especiais na entrada de texto (o comando) para enganar um modelo de IA. Isto pode fazer com que a IA ignore as suas instruções habituais, revele informações confidenciais ou execute ações para as quais não foi concebida. O jailbreaking no contexto dos MDIs refere-se ao ato de ignorar os protocolos de segurança e as diretrizes éticas incorporados no modelo. Isto permite que o MDI/CE gere respostas que foi originalmente concebido para evitar, como conteúdo prejudicial, antiético e perigoso.

Quando a injeção de comandos e a deteção de jailbreak estão ativadas, o Model Armor analisa os comandos e as respostas em busca de conteúdo malicioso. Se for detetado, o Model Armor bloqueia o comando ou a resposta.

Proteção de dados confidenciais

A Proteção de dados confidenciais é um Google Cloud serviço que ajuda a descobrir, classificar e desidentificar dados confidenciais. A proteção de dados confidenciais pode identificar elementos, contexto e documentos confidenciais para ajudar a reduzir o risco de fuga de dados que entram e saem das cargas de trabalho de IA. Pode usar a proteção de dados confidenciais diretamente no Model Armor para transformar, aplicar tokens e ocultar elementos confidenciais, mantendo o contexto não confidencial. O Model Armor pode aceitar modelos de inspeção existentes, que são configurações que funcionam como planos para simplificar o processo de análise e identificação de dados confidenciais específicos da sua empresa e necessidades de conformidade. Desta forma, pode ter consistência e interoperabilidade entre outras cargas de trabalho que usam a proteção de dados confidenciais.

O Model Armor oferece dois modos para a configuração da proteção de dados confidenciais:

Configuração básica: neste modo, configura a proteção de dados confidenciais especificando os tipos de dados confidenciais a analisar. Este modo suporta as seguintes categorias:
- Número do cartão de crédito
- Número de Identificação da Segurança Social (NISS) dos EUA
- Número da conta financeira
- Número de identificação fiscal individual (ITIN) dos EUA
- Google Cloud credenciais
- Google Cloud Chave da API
A configuração básica só permite operações de inspeção e não suporta a utilização de modelos de proteção de dados confidenciais. Para mais informações, consulte a configuração básica da proteção de dados confidenciais.
Configuração avançada: este modo oferece mais flexibilidade e personalização através de modelos de proteção de dados confidenciais. Os modelos de proteção de dados confidenciais são configurações predefinidas que lhe permitem especificar regras de deteção mais detalhadas e técnicas de desidentificação. A configuração avançada suporta operações de inspeção e desidentificação.

Os níveis de confiança da proteção de dados confidenciais funcionam de forma ligeiramente diferente dos níveis de confiança de outros filtros. Para mais informações acerca dos níveis de confiança da proteção de dados confidenciais, consulte Probabilidade de correspondência da proteção de dados confidenciais. Para mais informações sobre a proteção de dados confidenciais em geral, consulte a vista geral da proteção de dados confidenciais.

Deteção de URLs maliciosos

Os URLs maliciosos são frequentemente disfarçados para parecerem legítimos, o que os torna uma ferramenta potente para ataques de phishing, distribuição de software malicioso e outras ameaças online. Por exemplo, se um PDF contiver um URL malicioso incorporado, pode ser usado para comprometer quaisquer sistemas a jusante que processem resultados de MDIs.

Quando a deteção de URLs maliciosos está ativada, o Model Armor analisa os URLs para identificar se são maliciosos. Isto permite-lhe tomar medidas e impedir a devolução de URLs maliciosos.

Defina o tipo de aplicação

A aplicação define o que acontece após a deteção de uma violação. Para configurar a forma como o Model Armor processa as deteções, define o tipo de aplicação. O Model Armor oferece os seguintes tipos de aplicação:

Apenas inspeção: o Model Armor inspeciona as solicitações que violam as definições configuradas, mas não as bloqueia.
Inspecionar e bloquear: o Model Armor bloqueia pedidos que violem as definições configuradas.

Para mais informações, consulte os artigos Defina o tipo de aplicação para modelos e Defina o tipo de aplicação para definições de preço mínimo.

Para usar o Inspect only de forma eficaz e obter estatísticas valiosas, ative o Cloud Logging. Sem o Cloud Logging ativado, Inspect only não produz informações úteis.

Aceda aos seus registos através do Cloud Logging. Filtre pelo nome do serviço modelarmor.googleapis.com. Procure entradas relacionadas com as operações que ativou no modelo. Para mais informações, consulte o artigo Veja registos através do Explorador de registos.

Definições do chão do Model Armor

Embora os modelos do Model Armor ofereçam flexibilidade para aplicações individuais, as organizações precisam frequentemente de estabelecer um nível base de proteção em todas as suas aplicações de IA. É aqui que são usadas as definições do limite mínimo do Model Armor. Funcionam como regras que definem os requisitos mínimos para todos os modelos criados ao nível do projeto na Google Cloud hierarquia de recursos.

Para mais informações, consulte o artigo Definições do chão do modelo Armor.

Suporte de idiomas

Os filtros do Model Armor suportam a limpeza de comandos e respostas em vários idiomas.

O filtro de proteção de dados confidenciais suporta inglês e outros idiomas, consoante os infoTypes que selecionou.
Os filtros de IA responsável e deteção de injeção de comandos e jailbreak são testados nos seguintes idiomas:
- Chinês (mandarim)
- Inglês
- Francês
- Alemão
- Italiano
- Japonês
- Coreano
- Português
- Espanhol
Estes filtros podem funcionar em muitos outros idiomas, mas a qualidade dos resultados pode variar. Para códigos de idiomas, consulte Idiomas suportados.

Existem duas formas de ativar a deteção de vários idiomas:

Ativar em cada pedido: para um controlo detalhado, ative a deteção de vários idiomas em cada pedido quando limpar um comando do utilizador e limpar uma resposta do modelo.
Ativar uma vez: se preferir uma configuração mais simples, pode ativar a deteção de vários idiomas como uma configuração única ao nível do modelo do Model Armor através da API REST. Para mais informações, consulte o artigo Crie um modelo de Model Armor.

Triagem de documentos

O texto nos documentos pode incluir conteúdo malicioso e sensível. O Model Armor pode analisar os seguintes tipos de documentos quanto a segurança, tentativas de injeção de comandos e jailbreak, dados confidenciais e URLs maliciosos:

PDFs
CSV
Ficheiros de texto: TXT
Documentos do Microsoft Word: DOCX, DOCM, DOTX e DOTM
Slides do Microsoft PowerPoint: PPTX, PPTM, POTX, POTM e POT
Folhas do Microsoft Excel: XLSX, XLSM, XLTX e XLTM

Preços

O Model Armor pode ser comprado como parte integrada do Security Command Center ou como um serviço autónomo. Para informações sobre preços, consulte o artigo Preços do Security Command Center.

Tokens

Os modelos de IA generativa dividem o texto e outros dados em unidades denominadas tokens. O Model Armor usa o número total de tokens em comandos e respostas de IA para fins de preços. O Model Armor limita o número de tokens processados em cada comando e resposta. Para ver os limites de tokens, consulte os limites de tokens.

O que se segue?

Saiba mais sobre os modelos do Model Armor.
Saiba mais acerca das definições mínimas do Model Armor.
Saiba mais sobre os pontos finais do Model Armor.
Limpar comandos e respostas.
Saiba mais sobre o registo de auditoria do Model Armor.
Resolva problemas do Model Armor.