Ajouter des aspects Dataplex Universal Catalog en fonction des insights issus des profils de données

Cette page explique comment ajouter automatiquement des aspects Dataplex Universal Catalog à vos données une fois que Sensitive Data Protection a profilé vos ressources. Elle fournit également des exemples de requêtes que vous pouvez utiliser pour rechercher des données dans votre organisation et vos projets avec des valeurs d'aspect spécifiques.

Cette fonctionnalité est utile si vous souhaitez enrichir vos métadonnées dans Dataplex Universal Catalog avec des insights collectés à partir de profils de données Sensitive Data Protection. Les aspects générés incluent les insights suivants :

  • Niveau de sensibilité calculé pour la table ou l'ensemble de données
  • Niveau de risque lié aux données calculé pour la table ou l'ensemble de données
  • Types d'informations (infoTypes) détectés dans la table ou l'ensemble de données

Les insights issus des profils de données Sensitive Data Protection peuvent vous aider à utiliser Dataplex Universal Catalog pour découvrir les données sensibles et à haut risque dans votre organisation. Utilisez ces insights pour prendre des décisions éclairées sur la manière de gérer et de gouverner vos données.

À propos des profils de données

Vous pouvez configurer Sensitive Data Protection pour générer automatiquement des profils sur les données au sein d'une organisation, d'un dossier ou d'un projet. Les profils de données contiennent des métriques et des métadonnées relatives à vos données, et vous permettent de déterminer l'emplacement des données sensibles et à haut risque. Sensitive Data Protection signale ces métriques à différents niveaux de détail.

Vous pouvez envoyer des profils de données à d'autres Google Cloud services tels que Dataplex Universal Catalog, Pub/Sub, Security Command Center, et Google Security Operations pour enrichir vos workflows de gouvernance des données, d'alerte et de sécurité.

À propos de Dataplex Universal Catalog

Dataplex Universal Catalog fournit un inventaire unifié des Google Cloud ressources.

Dataplex Universal Catalog vous permet d'utiliser des aspects pour ajouter des métadonnées métier et techniques à vos données afin de capturer le contexte et les connaissances sur vos ressources. Vous pouvez ensuite rechercher et découvrir des données dans votre organisation, et activer la gouvernance des données sur vos éléments de données. Pour en savoir plus, consultez Aspects.

Ressources compatibles

Sensitive Data Protection peut associer automatiquement des aspects aux entrées Dataplex Universal Catalog pour les ressources suivantes :

Dataplex Universal Catalog n'ingère pas les buckets Cloud Storage. Par conséquent, cette fonctionnalité n'est pas disponible lorsque vous profilez des données Cloud Storage.

Fonctionnement

Le workflow de haut niveau pour créer automatiquement des aspects Dataplex Universal Catalog en fonction des profils de données est le suivant :

  1. Créez ou modifiez une configuration d'analyse pour un type de ressource compatible.

  2. À l'étape Ajouter des actions, assurez-vous que l'action Envoyer au catalogue Dataplex sous forme d'aspects est activée.

    Si vous créez une configuration d'analyse, cette action est activée par défaut.

    Si vous modifiez une configuration d'analyse, activez cette action.

Sensitive Data Protection adds or updates the Sensitive Data Protection profile aspect of the Dataplex Universal Catalog entry for each supported resource that you profile. Vous pouvez ensuite rechercher dans Dataplex Universal Catalog toutes les données de votre organisation ou de votre projet avec des valeurs d'aspect spécifiques.

Lorsque vous activez l'action Envoyer au catalogue Dataplex sous forme d'aspects , Sensitive Data Protection l'applique uniquement aux profils nouveaux et mis à jour. Les profils existants qui ne sont pas mis à jour ne sont pas envoyés à Dataplex Universal Catalog.

Champs de premier niveau

L'aspect résultant pour une table profilée peut comporter les champs de premier niveau suivants :

Nom à afficher Exemple de valeur Description
Sensitivity MODERATE Le niveau de sensibilité calculé pour la table
Risk MODERATE Niveau de risque lié aux données calculé pour la table
InfoTypes
  • infoType: CREDIT_CARD_NUMBER
  • infoType : PHONE_NUMBER
  • infoType: US_SOCIAL_SECURITY_NUMBER
Liste de tous les infoTypes trouvés dans la table, y compris infoTypes prédits et autres infoTypes. Ce champ est inclus si au moins un infoType a été détecté dans la table.
Column InfoTypes
  • infoType: CREDIT_CARD_NUMBER
  • infoType: PHONE_NUMBER
Liste de tous les infoTypes prédits trouvés dans toutes les colonnes de la table. Ce champ est inclus si au moins un infoType prédit a été détecté dans la table.
Project Profile Consultez Profil de projet et Profil d'organisation sur cette page. Inclus si la ressource a été profilée via une configuration d'analyse au niveau du projet.
Organization Profile Consultez Profil de projet et Profil d'organisation sur cette page. Inclus si la ressource a été profilée via une configuration d'analyse au niveau de l'organisation ou du dossier.

Si la ressource a été profilée à la fois au niveau du projet et au niveau de l'organisation ou du dossier, Sensitive Data Protection agrège les valeurs des deux profils. L'aspect fournit une union des infoTypes détectés et utilise les évaluations de sensibilité et de risque lié aux données les plus élevées des deux profils.

Par exemple, supposons que le profil au niveau du projet évalue la sensibilité de la ressource comme MODERATE et que le profil au niveau de l'organisation l'évalue comme LOW. Dans ce cas, la valeur du champ Sensitivity de premier niveau de l'aspect est MODERATE.

Champs "Profil de projet" et "Profil d'organisation"

L'aspect Sensitive Data Protection profile résultant inclut l'un des champs de premier niveau suivants, ou les deux, selon le niveau auquel la ressource a été profilée :

Project Profile
Inclus dans l'aspect si la ressource a été profilée via une configuration d'analyse au niveau du projet
Organization Profile
Inclus dans l'aspect si la ressource a été profilée via une configuration d'analyse au niveau de l'organisation ou du dossier

Si la ressource a été profilée à la fois au niveau du projet et au niveau de l'organisation ou du dossier, l'aspect résultant comporte les champs Project Profile et Organization Profile.

Chaque champ Project Profile ou Organization Profile contient des champs Sensitivity et Risk imbriqués avec les valeurs listées dans le profil de données. Si le profil de données contient des infoTypes prédits et d'autres infoTypes, ils sont également disponibles en tant que champs Column InfoTypes et InfoTypes imbriqués. De plus, chaque champ Project Profile ou Organization Profile contient les champs imbriqués suivants :

Profile

Nom complet de la ressource du profil de données. Exemples :

  • Profil au niveau du projet : projects/PROJECT_ID/locations/LOCATION/tableDataProfiles/PROFILE_ID
  • Profil au niveau de l'organisation ou du dossier : organizations/ORGANIZATION_ID/locations/LOCATION/tableDataProfiles/PROFILE_ID
Profile Link

Lien vers le profil dans la Google Cloud console. Exemples :

  • Profil au niveau du projet : https://console.cloud.google.com/security/sensitive-data-protection/projects/PROJECT_ID/locations/LOCATION/tableDataProfiles/PROFILE_ID
  • Profil au niveau de l'organisation ou du dossier : https://console.cloud.google.com/security/sensitive-data-protection/organizations/ORGANIZATION_ID/locations/LOCATION/tableDataProfiles/PROFILE_ID

Activer l'API Dataplex

L'API Dataplex doit être activée dans chaque projet contenant des données pour lesquelles vous souhaitez ajouter des aspects. Cette section explique comment activer l'API Dataplex dans un seul projet ou dans tous les projets d'une organisation ou d'un dossier.

Activer l'API Dataplex dans un seul projet

  1. Sélectionnez le projet dans lequel vous souhaitez activer l'API Dataplex.

    Accéder au sélecteur de projet

  2. Activez l'API Dataplex.

    Rôles requis pour activer les API

    Pour activer les API, vous avez besoin du rôle IAM Administrateur d'utilisation du service (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.

    Activer l'API

Activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier

Cette section fournit un script qui recherche tous les projets d'une organisation ou d'un dossier et active l'API Dataplex dans chacun d'eux.

Pour obtenir les autorisations nécessaires pour activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier, demandez à votre administrateur de vous accorder les rôles IAM suivants :

  • Lecteur Cloud Asset (roles/cloudasset.viewer) sur l'organisation ou le dossier
  • Utilisateur DLP (roles/dlp.user) sur chaque projet dans lequel vous souhaitez activer l'API Dataplex

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier :

  • Pour rechercher tous les projets d'une organisation ou d'un dossier: cloudasset.assets.searchAllResources sur l'organisation ou le dossier
  • Pour activer l'API Dataplex : serviceusage.services.use sur chaque projet dans lequel vous souhaitez activer l'API Dataplex

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier, procédez comme suit :

  1. Dans la Google Cloud console, activez Cloud Shell.

    Activer Cloud Shell

    En bas de la fenêtre de la console, une session Cloud Shell démarre et affiche une invite de ligne de commande. Google Cloud Cloud Shell est un environnement shell dans lequel Google Cloud CLI est déjà installé, et dans lequel des valeurs sont déjà définies pour votre projet actuel. L'initialisation de la session peut prendre quelques secondes.

  2. Exécutez le script suivant :

    #!/bin/bash
    
    RESOURCE_ID="RESOURCE_ID"
    
    gcloud asset search-all-resources \
        --scope="RESOURCE_TYPE/$RESOURCE_ID" \
        --asset-types="cloudresourcemanager.googleapis.com/Project" \
        --format="value(name)" |
        while read project_name; do
          project_id=$(echo "$project_name" | sed 's|.*/||')
          gcloud services enable "dataplex.googleapis.com" --project="$project_id"
        done
    

    Remplacez les éléments suivants :

    • RESOURCE_ID: numéro d'organisation ou de dossier de la ressource contenant les projets
    • RESOURCE_TYPE : type de ressource contenant les projets (organizations ou folders)

Rôles et autorisations pour afficher les aspects

Pour obtenir les autorisations nécessaires pour rechercher les aspects associés à vos ressources, demandez à votre administrateur de vous accorder les rôles IAM suivants sur les ressources :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour rechercher les aspects associés à vos ressources. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour rechercher les aspects associés à vos ressources :

  • Afficher les entrées Dataplex Universal Catalog :
    • dataplex.entries.list
    • dataplex.entries.get
  • Afficher les ensembles de données et les tables BigQuery :
    • bigquery.datasets.get
    • bigquery.tables.get
  • Afficher les ensembles de données Vertex AI : aiplatform.datasets.get

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les autorisations requises pour utiliser Dataplex Universal Catalog, consultez Autorisations IAM Dataplex Universal Catalog.

Rechercher l'aspect généré pour un profil de données de table donné

  1. Dans la Google Cloud console, accédez à la page Rechercher de Dataplex Universal Catalog.

    Accéder à la recherche

  2. Sélectionnez votre organisation ou votre projet.

  3. Pour Choisir une plate-forme de recherche, sélectionnez Dataplex Universal Catalog comme mode de recherche.

  4. Dans le champ Rechercher, saisissez les éléments suivants :

    name:TABLE_ID
    

    Remplacez TABLE_ID par l'ID de la table qui a été profilée.

  5. Dans la liste qui s'affiche, cliquez sur le nom de la table. Les détails de la table BigQuery s'affichent. Tous les aspects Sensitive Data Protection profile qui y sont associés sont affichés dans la section Tags et aspects facultatifs.

Pour en savoir plus sur la recherche de ressources, consultez Rechercher des ressources dans Dataplex Universal Catalog.

Exemples de requêtes de recherche

Cette section fournit des exemples de requêtes de recherche que vous pouvez utiliser dans Dataplex Universal Catalog pour rechercher des données dans votre organisation ou votre projet avec des valeurs d'aspect spécifiques.

Vous ne pouvez trouver que les données auxquelles vous avez accès. L'accès aux données est contrôlé par les autorisations IAM. Pour en savoir plus, consultez Rôles et autorisations pour afficher les aspects sur cette page.

Vous pouvez saisir ces exemples de requêtes dans le champ Rechercher de la page Rechercher de Dataplex Universal Catalog.

Accéder à la recherche

Pour savoir comment formuler les requêtes, consultez Syntaxe de recherche pour Dataplex Universal Catalog.

Rechercher toutes les ressources qui ont l'aspect "Profil de protection des données sensibles"

aspect:sensitive-data-protection-profile

Rechercher toutes les ressources avec un score de sensibilité donné

aspect:sensitive-data-protection-profile.sensitivity=SENSITIVITY_SCORE

Remplacez SENSITIVITY_SCORE par HIGH, MODERATE, UNKNOWN ou LOW.

Pour en savoir plus, consultez la page Niveaux de sensibilité et de risques liés aux données.

Rechercher toutes les ressources avec un score de risque donné

aspect:sensitive-data-protection-profile.risk=DATA_RISK_LEVEL

Remplacez DATA_RISK_LEVEL par HIGH, MODERATE, UNKNOWN ou LOW.

Pour en savoir plus, consultez la page Niveaux de sensibilité et de risques liés aux données.

Rechercher toutes les ressources qui ont un profil au niveau du projet

aspect:sensitive-data-protection-profile.projectProfile

Rechercher toutes les ressources qui ont un profil au niveau de l'organisation

aspect:sensitive-data-protection-profile.organizationProfile

Migrer vers l'action "Envoyer au catalogue Dataplex sous forme d'aspects"

Pour migrer une configuration de découverte définie pour utiliser l'action obsolète Envoyer à Dataplex sous forme de tags, procédez comme suit :

  1. Modifiez la configuration de découverte configurée pour envoyer les résultats de la découverte à Data Catalog sous forme de tags.
  2. Dans la section Actions, désactivez Envoyer à Dataplex sous forme de tags.
  3. Activez Envoyer au catalogue Dataplex sous forme d'aspects.
  4. Cliquez sur Enregistrer.