Envoyer les résultats de l'inspection de la protection des données sensibles à Data Catalog

Ce guide vous explique comment utiliser Sensitive Data Protection pour inspecter une table BigQuery et envoyer les résultats d'inspection à Data Catalog.

Vous pouvez également effectuer un profilage des données, qui est différent d'une opération d'inspection. Vous pouvez également envoyer des profils de données à Knowledge Catalog. Pour en savoir plus, consultez Taguer des tables dans Knowledge Catalog en fonction des insights issus des profils de données.

Data Catalog est un service évolutif de gestion des métadonnées qui vous permet d'identifier, de gérer et d'interpréter rapidement toutes vos données dans Google Cloud.

Sensitive Data Protection est intégré à Data Catalog. Lorsque vous utilisez une action Sensitive Data Protection pour inspecter des données sensibles dans vos tables BigQuery, elle peut envoyer les résultats directement à Data Catalog sous la forme d'un modèle de balise.

Suivez les étapes décrites dans ce guide pour effectuer les opérations suivantes :

  • Activer Data Catalog et Sensitive Data Protection
  • Configurer Sensitive Data Protection pour inspecter une table BigQuery
  • Configurer une inspection Sensitive Data Protection pour envoyer les résultats d'inspection à Data Catalog

Pour en savoir plus sur Data Catalog, consultez la documentation correspondante.

Si vous souhaitez envoyer les résultats des opérations de profilage des données (et non des tâches d'inspection ) à Knowledge Catalog, consultez plutôt la documentation sur le profilage d'une organisation, d'un dossier, ou projet.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud:

  • Sensitive Data Protection
  • BigQuery

Obtenez une estimation des coûts en fonction de votre utilisation prévue, utilisez le simulateur de coût.

Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai sans frais.

Avant de commencer

Pour pouvoir envoyer les résultats d'inspection de Sensitive Data Protection à Data Catalog, procédez comme suit :

  • Étape 1 : Configurez la facturation.
  • Étape 2 : Créez un projet et remplissez une nouvelle table BigQuery (facultatif).
  • Étape 3 : Activez Data Catalog.
  • Étape 4 : Activez Sensitive Data Protection.

Les sous-sections suivantes présentent chaque étape en détail.

Étape 1 : Configurer la facturation

Vous devez d'abord configurer un compte de facturation si vous n'en possédez pas déjà un.

Découvrir comment activer la facturation

Étape 2 : Créer un projet et remplir une nouvelle table BigQuery (facultatif)

Si vous configurez cette fonctionnalité dans un environnement de production ou si vous avez déjà une table BigQuery à inspecter, ouvrez le Google Cloud projet qui contient la table et passez à l'étape 3.

Si vous essayez cette fonctionnalité et que vous souhaitez inspecter des données de test, créez un projet. Pour réaliser cette étape, vous devez disposer du rôle IAM Créateur de projet. En savoir plus sur les rôles IAM.

  1. Accédez à la page Nouveau projet dans la Google Cloud console.

    Nouveau projet

  2. Dans la liste déroulante Compte de facturation, sélectionnez le compte de facturation auquel le projet doit être rattaché.
  3. Dans la liste déroulante Organisation, sélectionnez l'organisation dans laquelle vous souhaitez créer le projet.
  4. Dans la liste déroulante Emplacement, sélectionnez l'organisation ou le dossier dans lequel vous souhaitez créer le projet.
  5. Pour créer le projet, cliquez sur Créer.

Ensuite, téléchargez et stockez les exemples de données.

  1. Accédez au dépôt des tutoriels sur les fonctions Cloud Run sur GitHub.
  2. Sélectionnez l'un des fichiers CSV contenant des exemples de données, puis téléchargez le fichier.
  3. Accédez ensuite à BigQuery dans la Google Cloud console.
  4. Sélectionnez votre projet.
  5. Cliquez sur Créer un ensemble de données.
  6. Cliquez sur Créer une table.
  7. Cliquez sur Importer, puis sélectionnez le fichier à importer.
  8. Attribuez un nom à la table, puis cliquez sur Créer une table.

Étape 3 : Activer Data Catalog

Vous devez ensuite activer Data Catalog pour le projet qui contient la table BigQuery que vous souhaitez inspecter à l'aide de Sensitive Data Protection.

Pour activer Data Catalog à l'aide de la Google Cloud console :

  1. Enregistrez votre application pour Data Catalog.

    Enregistrer votre application pour Data Catalog

  2. Dans la liste déroulante Créer un projet sur la page d'inscription, sélectionnez le projet que vous souhaitez utiliser avec Data Catalog.
  3. Après avoir sélectionné le projet, cliquez sur Continuer.

Data Catalog est désormais activé pour votre projet.

Étape 4 : Activer Sensitive Data Protection

Activez Sensitive Data Protection pour le projet dans lequel vous avez activé Data Catalog.

Pour activer Sensitive Data Protection à l'aide de la Google Cloud console :

  1. Enregistrez votre application pour Sensitive Data Protection.

    Enregistrer votre application pour Sensitive Data Protection

  2. Dans la liste déroulante Créer un projet sur la page d'inscription, sélectionnez le même projet que lors de l'étape précédente.
  3. Après avoir sélectionné le projet, cliquez sur Continuer.

Sensitive Data Protection est désormais activé pour votre projet.

Configurer et exécuter une tâche d'inspection Sensitive Data Protection

Vous pouvez configurer et exécuter une tâche d'inspection Sensitive Data Protection à l'aide de la Google Cloud console ou de l'API DLP.

Les modèles de tags Data Catalog sont stockés dans le même projet et la même région que la table BigQuery. Si vous inspectez une table d'un autre projet, vous devez attribuer le rôle Propriétaire de TagTemplate Data Catalog (roles/datacatalog.tagTemplateOwner) à l'agent de service Sensitive Data Protection dans le projet où se trouve la table BigQuery.

Google Cloud Console

Pour configurer une tâche d'inspection pour une table BigQuery à l'aide de Sensitive Data Protection, procédez comme suit :

  1. Dans la section Sensitive Data Protection de la Google Cloud console, accédez à la page Créer une tâche ou un déclencheur de tâche.

    Accéder à la page "Créer une tâche ou un déclencheur de tâche"

  2. Saisissez les informations sur la tâche Sensitive Data Protection, puis cliquez sur Continuer à chaque étape :

    • Pour l'étape 1 : Choisir les données d'entrée, attribuez un nom à la tâche en saisissant une valeur dans le champ Nom. Dans Emplacement, sélectionnez BigQuery dans le menu Type de stockage, puis saisissez les informations de la table à inspecter. La section Échantillonnage est préconfigurée pour exécuter un exemple d'inspection avec vos données. Vous pouvez ajuster les champs Limiter les lignes par et Nombre maximal de lignes pour économiser des ressources si vous disposez d'une grande quantité de données. Pour en savoir plus, consultez la section Choisir les données d'entrée.

    • (Facultatif) Pour l'étape 2 : Configurer la détection, vous pouvez configurer les types de données à rechercher, appelés infoTypes. Pour les besoins de ce tutoriel, laissez les infoTypes par défaut sélectionnés. Pour en savoir plus, consultez la section Configurer la détection.

    • Pour l'étape 3 : Ajouter des actions, activez l'option Enregistrer dans Data Catalog.

    • (Facultatif) Pour l'étape 4 : Programmer dans le cadre de ce tutoriel, laissez le menu défini sur Aucun afin que l'inspection ne s'exécute qu'une seule fois. Pour en savoir plus sur la programmation des tâches d'inspection répétées, consultez la section Programmer.

  3. Cliquez sur Créer. La tâche s'exécute immédiatement.

API DLP

Dans cette section, vous allez configurer et exécuter une tâche d'inspection Sensitive Data Protection.

La tâche d'inspection que vous configurez ici indique à Sensitive Data Protection d'inspecter les exemples de données BigQuery décrits à l'étape 2 ci-dessus, ou vos propres données BigQuery. C'est également dans la configuration de tâche que vous demandez à Sensitive Data Protection d'enregistrer ses résultats d'inspection dans Data Catalog.

Étape 1 : Noter l'identifiant du projet

  1. Accédez à la Google Cloud console.

    Accéder à la Google Cloud console

  2. Cliquez sur Sélectionner.

  3. Dans la liste déroulante Sélectionner une organisation, sélectionnez l'organisation pour laquelle vous avez activé Data Catalog.

  4. Sous ID, copiez l'ID du projet contenant les données que vous souhaitez inspecter. Il s'agit du projet décrit à l'étape de définition des dépôts de stockage plus haut sur cette page.

  5. Dans le champ Nom, cliquez sur le projet pour le sélectionner.

Étape 2 : Ouvrir APIs Explorer et configurer la tâche

  1. Accédez à APIs Explorer sur la page de référence de la méthode dlpJobs.create. Pour que ces instructions restent disponibles, effectuez un clic droit sur le lien suivant et ouvrez-le dans un nouvel onglet ou une nouvelle fenêtre :

    Ouvrir APIs Explorer

  2. Dans la zone parent, saisissez la chaîne suivante, où project-id correspond à l'ID du projet noté à l'étape précédente :

    projects/project-id

    Copiez ensuite le code JSON suivant. Sélectionnez le contenu du champ Corps de la requête dans APIs Explorer, puis collez le code JSON pour remplacer le contenu. Veillez à remplacer les espaces réservés project-id, bigquery-dataset-name et bigquery-table-name respectivement par l'ID du projet réel et par les noms de l'ensemble de données et de la table BigQuery.

    {
      "inspectJob":
      {
        "storageConfig":
        {
          "bigQueryOptions":
          {
            "tableReference":
            {
              "projectId": "project-id",
              "datasetId": "bigquery-dataset-name",
              "tableId": "bigquery-table-name"
            }
          }
        },
        "inspectConfig":
        {
          "infoTypes":
          [
            {
              "name": "EMAIL_ADDRESS"
            },
            {
              "name": "PERSON_NAME"
            },
            {
              "name": "US_SOCIAL_SECURITY_NUMBER"
            },
            {
              "name": "PHONE_NUMBER"
            }
          ],
          "includeQuote": true,
          "minLikelihood": "UNLIKELY",
          "limits":
          {
            "maxFindingsPerRequest": 100
          }
        },
        "actions":
        [
          {
            "publishFindingsToCloudDataCatalog": {}
          }
        ]
      }
    }
    

Pour en savoir plus sur les options d'inspection disponibles, consultez la page Inspecter le stockage et les bases de données pour identifier les données sensibles. Pour obtenir la liste complète des types d'informations que Sensitive Data Protection peut inspecter, consultez la documentation de référence sur les infoTypes.

Étape 3 : Exécuter la requête pour lancer la tâche d'inspection

Après avoir configuré la tâche en suivant les étapes précédentes, cliquez sur Exécuter pour envoyer la requête. Si celle-ci aboutit, une réponse s'affiche avec un code de réussite et un objet JSON indiquant l'état de la tâche Sensitive Data Protection que vous venez de créer.

La réponse à votre requête d'inspection inclut l'ID de votre tâche d'inspection en tant que clé "name" et son état actuel en tant que clé "state". Comme vous venez d'envoyer la requête, l'état de la tâche à ce stade est "PENDING".

Vérifier l'état de la tâche d'inspection Sensitive Data Protection

Une fois la requête d'inspection envoyée, la tâche d'inspection démarre immédiatement.

Google Cloud Console

Pour vérifier l'état de la tâche d'inspection, procédez comme suit :

  1. Dans la Google Cloud console, ouvrez Sensitive Data Protection.

    Accéder à Sensitive Data Protection

  2. Cliquez sur l'onglet Tâches et déclencheurs de tâches, puis sur Toutes les tâches.

La tâche que vous venez d'exécuter figure probablement en haut de la liste. Vérifiez la colonne État pour vous assurer que son état est Terminé.

Vous pouvez cliquer sur l'ID de la tâche pour afficher ses résultats. Chaque détecteur d'infoTypes répertorié sur la page "Informations sur la tâche" est suivi du nombre de correspondances trouvées dans le contenu.

API DLP

Pour vérifier l'état de la tâche d'inspection, procédez comme suit :

  1. Pour accéder à APIs Explorer sur la page de référence de la méthode dlpJobs.get, cliquez sur le bouton suivant :

    Ouvrir APIs Explorer

  2. Dans la zone nom, indiquez au format suivant le nom de la tâche figurant dans la réponse JSON obtenue pour la requête d'inspection :

    projects/project-id/dlpJobs/job-id
    L'ID de la tâche est au format i-1234567890123456789.

  3. Pour envoyer la requête, cliquez sur Exécuter.

Si la clé "state" de l'objet JSON de réponse indique que l'état de la tâche d'inspection est "DONE", cette dernière est terminée.

Pour afficher le reste de la réponse JSON, faites défiler la page vers le bas. À chaque type d'information répertorié sous "result" > "infoTypeStats" doit correspondre un élément "count". Si ce n'est pas le cas, vérifiez que le code JSON saisi est exact et que le chemin ou l'emplacement de vos données est correct.

Une fois la tâche d'inspection terminée, vous pouvez passer à la section suivante de ce guide pour afficher les résultats de l'inspection dans Security Command Center.

Afficher les résultats d'inspection Sensitive Data Protection dans Data Catalog

Étant donné que vous avez demandé à Sensitive Data Protection d'envoyer les résultats de la tâche d'inspection à Data Catalog, vous pouvez maintenant afficher les tags et le modèle de balise créés automatiquement dans l'UI Data Catalog :

  1. Accédez à la page "Data Catalog" de la Google Cloud console.

    Accéder à Data Catalog

  2. Recherchez la table que vous avez inspectée.
  3. Cliquez sur les résultats correspondant à votre table pour afficher ses métadonnées.

La capture d'écran suivante affiche la vue des métadonnées Data Catalog d'un exemple de table :

Résultats de Sensitive Data Protection dans Data Catalog.

Résumé de l'inspection

Les résultats de Sensitive Data Protection sont inclus sous forme de résumé pour la table que vous avez inspectée. Ce récapitulatif inclut le nombre total d'infoTypes, ainsi que des données récapitulatives sur la tâche d'inspection, y compris les dates et l'ID de la ressource de tâche.

Tous les infoTypes inspectés sont répertoriés. Ceux pour lesquels des résultats ont été trouvés affichent un nombre supérieur à zéro.

Nettoyer

Pour éviter que les ressources utilisées dans cet article ne soient facturées sur votre Google Cloud compte , effectuez l'une des opérations suivantes selon que vous avez utilisé les exemples de données ou vos propres données :

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé en suivant les instructions du présent article.

Pour supprimer le projet :

  1. Dans la Google Cloud console, accédez à la page "Projets".

    Accéder à la page Projets

  2. Dans la liste des projets, sélectionnez celui que vous souhaitez supprimer, puis cliquez sur Delete project (Supprimer le projet). Après avoir coché la case à côté du nom du projet, cliquez sur "Delete project" (Supprimer le projet).
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez Arrêter pour supprimer le projet.

Lorsque vous supprimez votre projet à l'aide de cette méthode, la tâche Sensitive Data Protection et le bucket Cloud Storage que vous avez créés sont également supprimés, et vous avez terminé le nettoyage. Il n'est pas nécessaire de suivre les instructions des sections suivantes.

Supprimer la tâche ou le déclencheur de tâche Sensitive Data Protection

Si vous avez inspecté vos propres données, supprimez la tâche d'inspection ou le déclencheur de tâche que vous venez de créer.

Google Cloud Console

  1. Dans la Google Cloud console, ouvrez Sensitive Data Protection.

    Accéder à Sensitive Data Protection

  2. Cliquez sur l'onglet Tâches et déclencheurs de tâches, puis sur l'onglet Déclencheurs de tâche.

  3. Dans la colonne Actions associée au déclencheur de tâche que vous souhaitez supprimer, cliquez sur le menu Autres actions (représenté par trois points disposés verticalement) , puis cliquez sur Supprimer.

Vous pouvez également supprimer les informations sur la tâche que vous avez exécutée. Cliquez sur l'onglet Toutes les tâches puis, dans la colonne Actions associée à la tâche que vous souhaitez supprimer, cliquez sur le menu Autres actions (représenté par trois points disposés verticalement) , puis sur Supprimer.

API DLP

  1. Pour accéder à APIs Explorer sur la page de référence de la méthode dlpJobs.delete, cliquez sur le bouton suivant :

    Ouvrir APIs Explorer

  2. Dans la zone nom , indiquez au format suivant le nom de la tâche figurant dans la réponse JSON obtenue pour la requête d'inspection :

    projects/project-id/dlpJobs/job-id
    L'ID de la tâche est au format i-1234567890123456789.

Si vous avez créé des tâches d'inspection supplémentaires ou si vous souhaitez vous assurer que la tâche a bien été supprimée, vous pouvez répertorier toutes les tâches existantes :

  1. Pour accéder à APIs Explorer sur la page de référence de la méthode dlpJobs.list, cliquez sur le bouton suivant :

    Ouvrir APIs Explorer

  2. Dans la zone parent, saisissez l'identifiant du projet au format suivant, où project-id correspond à votre identifiant de projet :

    projects/project-id

  3. Cliquez sur Exécuter.

Si aucune tâche n'est répertoriée dans la réponse, cela signifie que vous avez supprimé toutes les tâches. Si des tâches sont répertoriées dans la réponse, répétez la procédure de suppression ci-dessus pour ces tâches.

Étape suivante