Esta página fornece informações sobre os conceitos principais do Model Armor.
Modelos do Model Armor
Os modelos do Model Armor permitem-lhe configurar a forma como o Model Armor filtra comandos e respostas. Funcionam como conjuntos de filtros e limiares personalizados para diferentes níveis de confiança de segurança, permitindo o controlo sobre o conteúdo denunciado.
Os limites representam níveis de confiança. Ou seja, o nível de confiança do Model Armor
de que o comando ou a resposta inclui conteúdo ofensivo. Por exemplo, pode criar um modelo que filtre comandos para conteúdo de ódio com um HIGH
limiar, o que significa que o Model Armor comunica uma elevada confiança de que o comando contém conteúdo de ódio. Um limite de LOW_AND_ABOVE
indica qualquer nível de confiança (LOW
, MEDIUM
e HIGH
) na apresentação dessa reivindicação.
Filtros do Model Armor
O Model Armor oferece uma variedade de filtros para ajudar a fornecer modelos de IA seguros e protegidos. Segue-se uma discriminação das categorias de filtros.
Filtro de segurança de IA responsável
Os comandos e as respostas podem ser filtrados nos níveis de confiança mencionados acima para as seguintes categorias:
Categoria | Definição |
---|---|
Incitação ao ódio | Comentários negativos ou prejudiciais que visam a identidade e/ou atributos protegidos. |
Assédio | Comentários ameaçadores, intimidantes, de bullying ou abusivos dirigidos a outro indivíduo. |
Conteúdo sexualmente explícito | Contém referências a atos sexuais ou outro conteúdo lascivo. |
Conteúdo perigoso | Promova ou permita o acesso a bens, serviços e atividades prejudiciais. |
O filtro de material relativo a abuso sexual infantil (CSAM) é aplicado por predefinição e não pode ser desativado.
Deteção de injeção de comandos e jailbreak
A injeção de comandos é uma vulnerabilidade de segurança em que os atacantes criam comandos especiais na entrada de texto (o comando) para enganar um modelo de IA. Isto pode fazer com que a IA ignore as suas instruções habituais, revele informações confidenciais ou execute ações para as quais não foi concebida. O jailbreaking no contexto dos MDIs refere-se ao ato de ignorar os protocolos de segurança e as diretrizes éticas incorporados no modelo. Isto permite que o MDI/CE gere respostas que foi originalmente concebido para evitar, como conteúdo prejudicial, antiético e perigoso.
Quando a injeção de comandos e a deteção de jailbreak estão ativadas, o Model Armor analisa os comandos e as respostas em busca de conteúdo malicioso. Se for detetado, o Model Armor bloqueia o comando ou a resposta.
Proteção de dados confidenciais
Os dados confidenciais, como o nome ou a morada de uma pessoa, podem ser enviados inadvertidamente ou intencionalmente para um modelo ou fornecidos na resposta de um modelo.
A Proteção de dados confidenciais é um Google Cloud serviço que ajuda a descobrir, classificar e desidentificar dados confidenciais. A proteção de dados confidenciais pode identificar elementos, contexto e documentos confidenciais para ajudar a reduzir o risco de fuga de dados que entram e saem das cargas de trabalho de IA. Pode usar a proteção de dados confidenciais diretamente no Model Armor para transformar, criar símbolos e ocultar elementos confidenciais, ao mesmo tempo que retém o contexto não confidencial. O Model Armor pode aceitar modelos de inspeção existentes, que são configurações que funcionam como planos para simplificar o processo de análise e identificação de dados confidenciais específicos da sua empresa e necessidades de conformidade. Desta forma, pode ter consistência e interoperabilidade entre outras cargas de trabalho que usam a proteção de dados confidenciais.
O Model Armor oferece dois modos para a configuração da proteção de dados confidenciais:
Configuração básica da proteção de dados confidenciais: este modo oferece uma forma mais simples de configurar a proteção de dados confidenciais especificando diretamente os tipos de dados confidenciais a analisar. Suporta seis categorias, que são:
CREDIT_CARD_NUMBER
,US_SOCIAL_SECURITY_NUMBER
,FINANCIAL_ACCOUNT_NUMBER
,US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
,GCP_CREDENTIALS
eGCP_API_KEY
. A configuração básica só permite operações de inspeção e não suporta a utilização de modelos de proteção de dados confidenciais. Para mais informações, consulte a configuração básica da proteção de dados confidenciais.Configuração avançada da proteção de dados confidenciais: este modo oferece mais flexibilidade e personalização ao permitir a utilização de modelos de proteção de dados confidenciais. Os modelos de proteção de dados confidenciais são configurações predefinidas que lhe permitem especificar regras de deteção mais detalhadas e técnicas de desidentificação. A configuração avançada suporta operações de inspeção e desidentificação.
Embora seja possível definir níveis de confiança para a proteção de dados confidenciais, estes funcionam de forma ligeiramente diferente dos níveis de confiança de outros filtros. Para mais informações sobre os níveis de confiança da proteção de dados confidenciais, consulte o artigo Probabilidade de correspondência da proteção de dados confidenciais. Para mais informações sobre a proteção de dados confidenciais em geral, consulte a vista geral da proteção de dados confidenciais.
Deteção de URLs maliciosos
Os URLs maliciosos são frequentemente disfarçados para parecerem legítimos, o que os torna uma ferramenta potente para ataques de phishing, distribuição de software malicioso e outras ameaças online. Por exemplo, se um PDF contiver um URL malicioso incorporado, pode ser usado para comprometer quaisquer sistemas a jusante que processem resultados de MDIs.
Quando a deteção de URLs maliciosos está ativada, o Model Armor analisa os URLs para identificar se são maliciosos. Isto permite-lhe tomar medidas e impedir que sejam devolvidos URLs maliciosos.
Níveis de confiança do Model Armor
Os níveis de confiança podem ser definidos para categorias de segurança da IA responsável (ou seja, sexualmente explícito, perigoso, assédio e incitamento ao ódio), injeção de comandos e jailbreak, e proteção de dados sensíveis (incluindo a atualidade).
Para níveis de confiança que permitem limites detalhados, o Model Armor interpreta-os da seguinte forma:
- Elevado: identifica se a mensagem tem conteúdo com uma probabilidade elevada.
- Médio e superior: identifica se a mensagem tem conteúdo com uma probabilidade média ou elevada.
- Baixa e superior: identifica se a mensagem tem conteúdo com uma probabilidade baixa, média ou elevada.
Defina o tipo de aplicação
A aplicação define o que acontece após a deteção de uma violação. Para configurar a forma como o Model Armor processa as deteções, define o tipo de aplicação. O Model Armor oferece os seguintes tipos de aplicação:
- Apenas inspecionar: inspeciona as solicitações que violam as definições configuradas, mas não as bloqueia.
- Inspeção e bloqueio: bloqueia pedidos que violem as definições configuradas.
Para usar o Inspect only
de forma eficaz e obter estatísticas valiosas, ative o Cloud Logging.
Sem o Cloud Logging ativado, Inspect only
não produz informações úteis.
Aceda aos seus registos através do Cloud Logging. Filtre pelo nome do serviço
modelarmor.googleapis.com
. Procure entradas relacionadas com as operações que ativou no modelo. Para mais informações, consulte o artigo
Veja registos através do Explorador de registos.
Análise de PDFs
O texto em PDFs pode incluir conteúdo malicioso e sensível. O Model Armor pode analisar PDFs quanto à segurança, injeção de comandos e tentativas de jailbreak, dados confidenciais e URLs maliciosos.
Definições do chão do Model Armor
Embora os modelos do Model Armor ofereçam flexibilidade para aplicações individuais, as organizações precisam frequentemente de estabelecer um nível base de proteção em todas as suas aplicações de IA. É aqui que são usadas as definições do limite inferior do Model Armor. Atuam como regras que ditam os requisitos mínimos para todos os modelos criados num ponto específico da hierarquia de Google Cloud recursos (ou seja, ao nível da organização, da pasta ou do projeto).
Para mais informações, consulte o artigo Definições do chão do modelo Armor.
O que se segue?
- Saiba mais sobre a vista geral do Model Armor.
- Saiba mais sobre os modelos do Model Armor.
- Saiba mais acerca das definições de limite mínimo do Model Armor.
- Limpar comandos e respostas.
- Saiba mais sobre o registo de auditoria do Model Armor.
- Resolva problemas do Model Armor.