Oculte dados confidenciais

Este tutorial mostra como usar o plug-in do Cloud Data Fusion para o Cloud DLP para ocultar dados confidenciais.

Cenário

Considere o seguinte cenário, no qual algumas informações confidenciais dos clientes têm de ser ocultadas:

A sua equipa de apoio técnico documenta os detalhes de cada registo de apoio técnico que processa num pedido de apoio técnico. Todas as informações no pedido de apoio técnico são extraídas para um ficheiro CSV. Os técnicos de apoio técnico não devem documentar informações de clientes consideradas confidenciais, mas, por vezes, fazem-no por engano. Repara que no ficheiro CSV aparecem os números de telefone de alguns clientes.

Quer analisar o ficheiro CSV e ocultar todos os números de telefone. Cria um pipeline do Cloud Data Fusion que oculta os dados de clientes sensíveis através do plug-in Cloud DLP.

Neste tutorial, vai criar um pipeline que faz o seguinte:

  • Oculta os números de telefone dos clientes, substituindo-os pelo caráter #.
  • Armazena os dados confidenciais ocultados e os dados não confidenciais num contentor do Cloud Storage.

Crie o pipeline

Crie um pipeline que oculte dados confidenciais de clientes. O pipeline que cria faz o seguinte:

  • Lê os dados de entrada através do plug-in de origem do Cloud Storage.
  • Implementa o plugin do Cloud DLP a partir do Hub.
  • Escreve os dados de saída através de um plug-in de destino do Cloud Storage.

Carregue os dados de clientes

Este tutorial usa o conjunto de dados de entrada, CallCenterRecords.csv, fornecido num contentor do Cloud Storage disponível publicamente.

  1. Abra a instância do Cloud Data Fusion e clique em Menu > Studio.

  2. No menu Origem, clique no plug-in Armazenamento na nuvem.

    Selecione o plug-in.

  3. No nó Cloud Storage, clique em Propriedades.

  4. No campo Nome de referência, introduza um nome.

  5. No campo Caminho, introduza gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. No campo Formato, selecione CSV.

  7. Para o esquema de saída, elimine os campos offset e body. Clique em Adicionar e introduza os seguintes campos:

    • Data
    • Banco
    • Estado
    • Código postal
    • Notas

    Introduza propriedades de origem.

  8. Clique em Validar para verificar se existem erros.

  9. Clique em Fechar.

Oculte dados confidenciais

O plug-in Redact do Cloud DLP identifica registos confidenciais no seu fluxo de entrada de dados e aplica transformações que define a esses registos. Um registo de dados é considerado confidencial se corresponder aos filtros predefinidos do Cloud DLP que escolher ou a um modelo personalizado que definir.

Neste tutorial, quer ocultar os números de telefone dos clientes que alguns técnicos de apoio técnico da sua equipa anotaram acidentalmente. Introduziram as informações confidenciais na secção Notas dos pedidos de apoio técnico, que aparece como a coluna Notas no ficheiro CSV. Cria um modelo do Cloud DLP personalizado e, em seguida, fornece o ID do modelo no menu de propriedades do plug-in.

Implemente o plugin Cloud DLP

  1. Na sua instância do Cloud Data Fusion, clique em Hub.

  2. Clique no plugin Cloud DLP.

  3. Clique em Implementar.

  4. Clique em Concluir.

  5. Clique em Fechar para sair da caixa de diálogo do Cloud DLP.

  6. Clique em Fechar para sair do Hub.

Crie um modelo personalizado

  1. Na Google Cloud consola, aceda à página Cloud DLP.

    Aceda ao Cloud DLP

  2. No menu Criar, escolha Modelo. imagem

  3. No campo ID do modelo, introduza um ID para o seu modelo.

  4. Clique em Continuar.

  5. No campo Configurar deteção, clique em Gerir tipos de informações.

  6. No separador Integrado, use o filtro para pesquisar "número de telefone".

    Filtro.

  7. Selecione PHONE_NUMBER.

  8. Clique em Concluído > Criar.

Saiba mais sobre como criar modelos de DLP na nuvem.

Aplique a transformação de ocultação do Cloud DLP

  1. Aceda à página Studio do Cloud Data Fusion e clique para expandir o menu Transformar.

  2. Clique no plugin Redact do Cloud DLP.

    Clique no plug-in para o adicionar ao seu pipeline.

  3. Arraste uma seta de ligação do nó Cloud Storage para o nó Ocultar.

    Ligue os dois nós.

  4. Mantenha o ponteiro sobre o nó Ocultar e clique em Propriedades.

    1. Defina o modelo personalizado como Yes.

    2. No campo ID do modelo, introduza o ID do modelo personalizado que criou.

    3. No campo Correspondência , aplique a ocultação no modelo personalizado nas Notas.

    4. No campo Caráter de ocultação, introduza #.

      Máscara.

    5. Clique em Validar para verificar se existem erros.

    6. Clique em Fechar.

Armazene os dados de saída

Armazenar os resultados do pipeline num ficheiro do Cloud Storage.

  1. Na página Studio, clique para expandir o menu Sink.

  2. Clique em Cloud Storage.

  3. Arraste uma seta de ligação do nó Ocultar para o nó Cloud Storage2.

    Ligue o nó Ocultar ao segundo nó do Cloud Storage.

  4. Mantenha o ponteiro sobre o nó Cloud Storage2 e clique em Propriedades.

    1. No campo Nome de referência, introduza um nome.

    2. No campo Caminho, introduza o caminho de um contentor do Cloud Storage onde quer armazenar os resultados do pipeline. O Cloud Data Fusion cria o contentor para si. Certifique-se de que segue as diretrizes de nomenclatura de contentores.

    3. No campo Formato, selecione CSV.

    4. Clique em Validar para garantir que não existem erros.

    5. Clique em Fechar.

Execute o pipeline no modo de pré-visualização

Execute o pipeline no modo de pré-visualização antes de o implementar.

  1. Clique em Pré-visualizar e, de seguida, em Executar.

    Execute a conduta.

    Se clicar em Executar, é apresentado o estado do pipeline, que começa com A iniciar, passa para Parar e, em seguida, para Executar.

  2. Quando a execução de pré-visualização estiver concluída, no nó Redact, clique em Pré-visualizar dados para ver uma comparação lado a lado dos dados de entrada e saída. Verifique se os números de telefone foram ocultados com o caráter #.

    Verifique se os números de telefone estão ocultados.

Oculte outro tipo de dados

Ao examinar os resultados da execução de pré-visualização, repara que ainda existem informações confidenciais apresentadas na coluna Notas: endereços de email. Volta atrás e edita o modelo do Cloud DLP para ocultar também os endereços de email.

  1. Na Google Cloud consola, aceda à página Cloud DLP.

    Abra a página do Cloud DLP

  2. No separador Configuração, selecione o modelo.

  3. Clique em Edit.

  4. Clique em Gerir tipos de informações.

  5. No separador Integrado, use o filtro para pesquisar "OU" "endereço de email".

    Filtro.

  6. Selecione tudo e clique em Concluído.

  7. Clique em Guardar.

  8. Mais uma vez, execute o pipeline no modo de pré-visualização. O Cloud Data Fusion usa automaticamente o modelo do Cloud DLP atualizado.

  9. Verifique se os números de telefone e os endereços de email foram ocultados com o caráter #.

    Verifique se os dados estão ocultados.

Implemente e execute a pipeline

  1. Certifique-se de que o modo Pré-visualização não está selecionado.

  2. Clique em Guardar. Se clicar em Guardar, é-lhe pedido que atribua um nome ao seu pipeline. Em seguida, clique em OK.

  3. Clique em Implementar.

  4. Quando a implementação estiver concluída, clique em Executar. A execução do pipeline pode demorar alguns minutos. Enquanto aguarda, pode observar o Estado da transição do pipeline de Aprovisionamento para Início, Execução, Desaprovisionamento e Concluído.

Veja os resultados

  1. Na Google Cloud consola, aceda à página do Cloud Storage.

    Aceda ao Cloud Storage

  2. No Navegador de armazenamento, navegue para o contentor do Cloud Storage que especificou nas propriedades do plug-in do Cloud Storage.

  3. Em URL do link, clique no link para transferir o ficheiro CSV com os resultados. Verifique se os números de telefone e os endereços de email foram ocultados com o caráter #.

    Verifique se os dados estão ocultados.