Desidentificação de dados confidenciais do Cloud Storage

Esta página descreve como a proteção de dados confidenciais pode criar cópias desidentificadas de dados armazenados no Cloud Storage. Também indica as limitações desta operação e os pontos que deve considerar antes de começar.

Para obter informações sobre como usar a Proteção de dados confidenciais para criar cópias anónimas dos seus dados do Cloud Storage, consulte o seguinte:

Acerca da desidentificação

A desidentificação é o processo de remoção de informações de identificação dos dados. O objetivo é permitir a utilização e a partilha de informações pessoais, como informações de saúde, financeiras ou demográficas, ao mesmo tempo que cumpre os requisitos de privacidade. Para mais informações sobre a desidentificação, consulte o artigo Desidentificar dados confidenciais.

Para informações mais detalhadas sobre as transformações de desidentificação na proteção de dados confidenciais, consulte a referência de transformações. Para mais informações sobre como a proteção de dados confidenciais oculta dados confidenciais de imagens, consulte Inspeção e ocultação de imagens.

Quando usar esta funcionalidade

Esta funcionalidade é útil se os ficheiros que usa nas operações da sua empresa contiverem dados confidenciais, como informações de identificação pessoal (IIP). Esta funcionalidade permite-lhe usar e partilhar informações como parte dos processos da sua empresa, mantendo ocultos os dados confidenciais.

Processo de desidentificação

Esta secção descreve o processo de desidentificação na proteção de dados confidenciais para conteúdo no Cloud Storage.

Para usar esta funcionalidade, crie uma tarefa de inspeção (DlpJob) configurada para criar cópias anónimas dos ficheiros do Cloud Storage. A proteção de dados confidenciais analisa os ficheiros na localização especificada, inspecionando-os de acordo com a sua configuração. À medida que inspeciona cada ficheiro, a Proteção de dados confidenciais desidentifica todos os dados que correspondem aos seus critérios de dados confidenciais e, em seguida, escreve o conteúdo num novo ficheiro. O novo ficheiro tem sempre o mesmo nome de ficheiro que o ficheiro original. Armazena este novo ficheiro num diretório de saída que especificar. Se um ficheiro for incluído na sua análise, mas nenhum dado corresponder aos seus critérios de anonimização, e não existirem erros no respetivo processamento, o ficheiro é copiado, sem alterações, para o diretório de saída.

O diretório de saída que definir tem de estar num contentor do Cloud Storage diferente do contentor que contém os seus ficheiros de entrada. No diretório de saída, a Proteção de dados confidenciais cria uma estrutura de ficheiros que reflete a estrutura de ficheiros do diretório de entrada.

Por exemplo, suponha que define os seguintes diretórios de entrada e saída:

  • Diretório de entrada: gs://input-bucket/folder1/folder1a
  • Diretório de saída: gs://output-bucket/output-directory

Durante a desidentificação, a proteção de dados confidenciais armazena os ficheiros desidentificados em gs://output-bucket/output-directory/folder1/folder1a.

Se existir um ficheiro no diretório de saída com o mesmo nome de ficheiro que um ficheiro anonimizado, esse ficheiro é substituído. Se não quiser substituir os ficheiros existentes, altere o diretório de saída antes de executar esta operação. Em alternativa, considere ativar o controlo de versões de objetos no contentor de saída.

As listas de controlo de acesso (ACLs) ao nível do ficheiro para os ficheiros originais são copiadas para os novos ficheiros, independentemente de terem sido encontrados e anonimizados dados confidenciais. No entanto, se o contentor de saída estiver configurado apenas para autorizações uniformes ao nível do contentor e não para autorizações detalhadas (ao nível do objeto), as ACLs não são copiadas para os ficheiros anonimizados.

O diagrama seguinte mostra o processo de desidentificação de quatro ficheiros armazenados num contentor do Cloud Storage. Cada ficheiro é copiado independentemente de a proteção de dados confidenciais detetar dados confidenciais. Cada ficheiro copiado tem o mesmo nome que o original.

Anulação da identificação de ficheiros armazenados no Cloud Storage.
Desidentificação de ficheiros armazenados no Cloud Storage (clique para aumentar).

Preços

Para informações sobre preços, consulte o artigo Inspeção e transformação de dados no armazenamento.

Tipos de ficheiros suportados

A Proteção de dados confidenciais pode remover a identificação dos seguintes grupos de tipos de ficheiros:

  • CSV
  • Imagem
  • Texto
  • TSV

Comportamento de anulação da identificação predefinido

Se quiser definir como a Proteção de dados confidenciais transforma as conclusões, pode fornecer modelos de desidentificação para os seguintes tipos de ficheiros:

  • Ficheiros não estruturados, como ficheiros de texto com texto de forma livre
  • Ficheiros estruturados, como ficheiros CSV
  • Imagens

Se não fornecer um modelo de desidentificação, a proteção de dados confidenciais transforma as descobertas da seguinte forma:

  • Em ficheiros não estruturados e estruturados, a Proteção de dados confidenciais substitui todas as descobertas pelo respetivo infoType, conforme descrito na substituição de infoType.
  • Nas imagens, a proteção de dados confidenciais abrange todas as conclusões com uma caixa preta.

Limitações e considerações

Considere os seguintes pontos antes de criar cópias anonimizadas dos dados do Cloud Storage.

Espaço em disco

Esta operação só suporta conteúdo armazenado no Cloud Storage.

Esta operação cria uma cópia de cada ficheiro à medida que a proteção de dados confidenciais o inspeciona. Não modifica nem remove o conteúdo original. Os dados copiados vão ocupar aproximadamente a mesma quantidade de espaço em disco adicional que os dados originais.

Acesso de escrita ao armazenamento

Uma vez que a proteção de dados confidenciais cria uma cópia dos ficheiros originais, o agente de serviço do seu projeto tem de ter acesso de escrita no contentor de saída do Cloud Storage.

Amostragem e definição de limites de resultados

Esta operação não suporta amostragem. Especificamente, não pode limitar a quantidade de cada ficheiro que o Google Cloud DLP analisa e desidentifica. Isto significa que, se estiver a usar a API Cloud Data Loss Prevention, não pode usar bytesLimitPerFile e bytesLimitPerFilePercent no objeto CloudStorageOptions do seu DlpJob.

Além disso, não pode controlar o número máximo de resultados a devolver. Se estiver a usar a API DLP, não pode definir um objeto FindingLimits no seu DlpJob.

Requisito para inspecionar dados

Quando executa a tarefa de inspeção, a proteção de dados confidenciais inspeciona primeiro os dados, de acordo com a configuração de inspeção, antes de realizar a desidentificação. Não é possível ignorar o processo de inspeção.

Requisito para usar extensões de ficheiros

A proteção de dados confidenciais baseia-se nas extensões de ficheiros para identificar os tipos de ficheiros dos ficheiros no seu diretório de entrada. Pode não anular a identificação de ficheiros que não tenham extensões de ficheiros, mesmo que esses ficheiros sejam de tipos suportados.

Ficheiros ignorados

Quando desidentifica ficheiros no armazenamento, a proteção de dados confidenciais ignora os seguintes ficheiros:

  • Ficheiros com mais de 60 000 KB. Se tiver ficheiros grandes que excedam este limite, considere dividi-los em partes mais pequenas.
  • Tipos de ficheiros que não estão listados em Tipos de ficheiros suportados nesta página.
  • Tipos de ficheiros que excluiu intencionalmente da configuração de anonimização. Se estiver a usar a API DLP, os tipos de ficheiros que excluiu do campo file_types_to_transform da ação Deidentify do seu DlpJob são ignorados.
  • Ficheiros que encontraram erros de transformação.

Ordem das linhas de saída em tabelas anonimizadas

Não existe qualquer garantia de que a ordem das linhas numa tabela anonimizada corresponda à ordem das linhas na tabela original. Se quiser comparar a tabela original com a tabela com dados anónimos, não pode basear-se no número da linha para identificar as linhas correspondentes. Se pretender comparar linhas das tabelas, tem de usar um identificador exclusivo para identificar cada registo.

Teclas transitórias

Se escolher um método criptográfico como método de transformação, tem de criar primeiro uma chave envolvida através do Cloud Key Management Service. Em seguida, faculte essa chave no modelo de anulação da identificação. As chaves temporárias (não processadas) não são suportadas.

O que se segue?