Masquer les données confidentielles

Ce tutoriel explique comment utiliser le plug-in Cloud Data Fusion pour Cloud DLP afin de masquer les données sensibles.

Scénario

Prenons le scénario suivant, dans lequel certaines informations client sensibles doivent être masquées :

Votre équipe d'assistance consigne les détails de chaque demande d'assistance gérées lors d'une demande d'assistance. Toutes les informations contenues dans les demandes d'assistance sont extraites dans un fichier CSV. Les techniciens de l'assistance ne sont pas censés documenter les informations client considérées comme sensibles, mais ils le font parfois par erreur. Vous remarquez que des numéros de téléphone de certains clients apparaissent dans le fichier CSV.

Vous souhaitez parcourir le fichier CSV et masquer tous les numéros de téléphone. Vous créez un pipeline Cloud Data Fusion qui supprime les données client sensibles à l'aide du plug-in Cloud DLP.

Dans ce tutoriel, vous allez créer un pipeline qui effectue les opérations suivantes :

  • Il masque les numéros de téléphone des clients en leur attribuant le caractère #.
  • Il stocke les données sensibles masquées et les données non sensibles dans un bucket Cloud Storage.

Créer le pipeline

Créez un pipeline qui masque les données client sensibles. Le pipeline que vous créez effectue les opérations suivantes :

  • Il lit les données d'entrée à l'aide du plug-in source Cloud Storage.
  • Il déploie le plug-in Cloud DLP à partir du Hub.
  • Il écrit les données de sortie à l'aide d'un plug-in récepteur Cloud Storage.

Charger les données client

Ce tutoriel utilise l'ensemble de données d'entrée, CallCenterRecords.csv, fourni dans un bucket Cloud Storage accessible au public.

  1. Ouvrez votre instance Cloud Data Fusion, puis cliquez sur Menu > Studio.

  2. Dans le menu Source, cliquez sur le plug-in Cloud Storage.

    Sélectionnez le plug-in.

  3. Sur le nœud Cloud Storage, cliquez sur Propriétés.

  4. Dans le champ Nom de référence, saisissez un nom.

  5. Dans le champ Chemin d'accès, saisissez gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. Dans le champ Format, sélectionnez CSV.

  7. Pour le schéma de sortie, supprimez les champs offset et body. Cliquez sur Ajouter et saisissez les champs suivants :

    • Date
    • Banque
    • État
    • Zip
    • Remarques

    Saisissez les propriétés sources.

  8. Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.

  9. Cliquez sur Fermer.

Masquer les données sensibles

Le plug-in Cloud DLP Masquer identifie les enregistrements sensibles dans votre flux de données d'entrée et applique les transformations que vous définissez à ces enregistrements. Un enregistrement de données est considéré comme sensible s'il correspond à des filtres Cloud DLP prédéfinis que vous choisissez ou à un modèle personnalisé que vous définissez.

Dans ce tutoriel, vous souhaitez masquer les numéros de téléphone de clients dont certains techniciens d'assistance ont accidentellement pris note. Ils ont saisi les informations sensibles dans la section Notes des demandes d'assistance, ce qui apparaît dans la colonne Notes du fichier CSV. Vous créez un modèle Cloud DLP personnalisé, puis indiquez son ID dans le menu des propriétés du plug-in.

Déployer le plug-in Cloud DLP

  1. Dans votre instance Cloud Data Fusion, cliquez sur Hub.

  2. Cliquez sur le plug-in Cloud DLP.

  3. Cliquez sur Déployer.

  4. Cliquez sur Terminer.

  5. Cliquez sur Fermer pour fermer la boîte de dialogue Cloud DLP.

  6. Cliquez sur Fermer pour quitter le Hub.

Créer un modèle personnalisé

  1. Dans la console Google Cloud , accédez à la page Cloud DLP.

    Accéder à Cloud DLP

  2. Dans le menu Créer, sélectionnez Modèle. image

  3. Dans le champ ID du modèle, saisissez un ID pour votre modèle.

  4. Cliquez sur Continuer.

  5. Dans le champ Configurer la détection, cliquez sur Gérer les infoTypes.

  6. Dans l'onglet Intégré, utilisez le filtre pour rechercher "numéro de téléphone".

    Filtre.

  7. Sélectionnez PHONE_NUMBER.

  8. Cliquez sur OK > Créer.

Apprenez-en plus sur la création de modèles Cloud DLP.

Appliquer la transformation Masquer de Cloud DLP

  1. Accédez à la page Studio de Cloud Data Fusion, puis cliquez pour développer le menu Transformation.

  2. Cliquez sur le plug-in Redact de Cloud DLP.

    Cliquez sur le plug-in pour l'ajouter à votre pipeline.

  3. Faites glisser une flèche de connexion du nœud Cloud Storage vers le nœud Masquer.

    Connectez les deux nœuds.

  4. Maintenez le pointeur de la souris sur le nœud Masquer et cliquez sur Propriétés.

    1. Définissez Modèle personnalisé sur Yes.

    2. Dans le champ ID du modèle, saisissez l'ID du modèle personnalisé que vous avez créé.

    3. Dans le champ Correspondance , appliquez le Masquage au Modèle personnalisé dans Notes.

    4. Dans le champ Caractère de masquage, saisissez #.

      Masque.

    5. Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.

    6. Cliquez sur Fermer.

Stocker les données de sortie

Stockez les résultats de votre pipeline dans un fichier Cloud Storage.

  1. Sur la page Studio, cliquez pour développer le menu Sink.

  2. Cliquez sur Cloud Storage.

  3. Faites glisser une flèche de connexion du nœud Masquer vers le nœud Cloud Storage2.

    Connectez le nœud "Redact" (Masquer) au deuxième nœud Cloud Storage.

  4. Maintenez le pointeur sur le nœud Cloud Storage2, puis cliquez sur Propriétés.

    1. Dans le champ Nom de référence, saisissez un nom.

    2. Dans le champ Chemin d'accès, saisissez le chemin d'un bucket Cloud Storage dans lequel vous souhaitez stocker les résultats du pipeline. Cloud Data Fusion crée le bucket pour vous. Veillez à respecter les consignes relatives aux noms des buckets.

    3. Dans le champ Format, sélectionnez CSV.

    4. Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.

    5. Cliquez sur Fermer.

Exécuter le pipeline en mode aperçu

Exécutez le pipeline en mode aperçu avant de le déployer.

  1. Cliquez sur Aperçu, puis sur Exécuter.

    Exécutez le pipeline.

    Si vous cliquez sur Exécuter, l'état du pipeline s'affiche. Il commence par Démarrage, puis passe à Arrêt et enfin à Exécuter.

  2. Une fois l'exécution de l'aperçu terminée, sur le nœud Masquer, cliquez sur Prévisualiser les données pour afficher un comparatif des données d'entrée et de sortie. Vérifiez que les numéros de téléphone ont été masqués avec le caractère #.

    Vérifiez que les numéros de téléphone sont masqués.

Masquer un autre type de données

Lors de l'examen des résultats d'exécution de l'aperçu, vous remarquez que des informations sensibles apparaissent toujours dans la colonne Notes : adresses e-mail. Vous revenez en arrière et modifiez le modèle Cloud DLP pour masquer ces adresses e-mail.

  1. Dans la console Google Cloud , accédez à la page Cloud DLP.

    Ouvrir la page Cloud DLP

  2. Dans l'onglet Configuration, sélectionnez votre modèle.

  3. Cliquez sur Modifier.

  4. Cliquez sur Gérer les infoTypes.

  5. Dans l'onglet Intégré, utilisez le filtre pour rechercher "OU" "adresse e-mail".

    Filtre.

  6. Sélectionnez tout, puis cliquez sur OK.

  7. Cliquez sur Enregistrer.

  8. À nouveau, exécutez votre pipeline en mode aperçu. Cloud Data Fusion utilisera automatiquement le modèle Cloud DLP mis à jour.

  9. Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère #.

    Vérifiez que les données sont masquées.

Déployer et exécuter le pipeline

  1. Assurez-vous que le mode Aperçu est décoché.

  2. Cliquez sur Enregistrer. Cliquer sur Enregistrer vous invite à nommer votre pipeline. Cliquez ensuite sur OK.

  3. Cliquez sur Déployer.

  4. Une fois le déploiement terminé, cliquez sur Exécuter. L'exécution de votre pipeline peut prendre quelques minutes. En attendant, vous pouvez observer l'État de transition du pipeline qui passe de Provisionnement à Démarrage, En cours d'exécution, Annulation du provisionnement et enfin Réussi.

Afficher les résultats

  1. Dans la console Google Cloud , accédez à la page Cloud Storage.

    Accéder à Cloud Storage

  2. Dans le Navigateur de stockage, accédez au bucket Cloud Storage du récepteur que vous avez spécifié dans les propriétés du plug-in Cloud Storage du récepteur.

  3. Dans URL du lien, cliquez sur le lien pour télécharger le fichier CSV contenant les résultats. Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère #.

    Vérifiez que les données sont masquées.