Cette page explique comment appliquer automatiquement des tags Data Catalog aux tables BigQuery après que Sensitive Data Protection a profilé ces tables. Elle fournit également des exemples de requêtes que vous pouvez utiliser pour trouver des données taguées dans votre organisation et vos projets.
Cette fonctionnalité est utile si vous souhaitez enrichir vos métadonnées organisées manuellement dans Knowledge Catalog avec des insights collectés à partir des profils de données Sensitive Data Protection. Les tags générés incluent les insights suivants :
- Types d'informations (infoTypes) détectés dans les colonnes de la table
- Niveau de sensibilité calculé pour la table
- Niveau de risque lié aux données calculé pour la table
Les insights des profils de données Sensitive Data Protection peuvent vous aider à utiliser Knowledge Catalog pour découvrir les données sensibles et à haut risque dans votre organisation. Utilisez ces insights pour prendre des décisions éclairées sur la manière de gérer et de gouverner vos données.
Si vous souhaitez envoyer les résultats des tâches d'inspection (et non les opérations de profilage des données) à Knowledge Catalog, consultez Envoyer les résultats d'inspection Sensitive Data Protection à Data Catalog.
À propos des profils de données
Vous pouvez configurer Sensitive Data Protection pour générer automatiquement des profils sur les données d'une organisation, d'un dossier ou d'un projet. Les profils de données contiennent des métriques et des métadonnées relatives à vos données, et vous permettent de déterminer l'emplacement des données sensibles et à haut risque. Sensitive Data Protection signale ces métriques à différents niveaux de détail. Pour en savoir plus sur les types de données que vous pouvez profiler, consultez Ressources compatibles.
À propos de Knowledge Catalog et Data Catalog
Knowledge Catalog est un Google Cloud service qui unifie les données distribuées et automatise la gestion et la gouvernance de ces données. Data Catalog (obsolète) est un service de gestion des métadonnées évolutif entièrement géré.
Data Catalog vous permet d'utiliser des tags et des modèles de tags pour associer des métadonnées métier à vos données. Vous pouvez ensuite rechercher et gérer toutes les métadonnées de votre organisation ou de votre projet dans un service unifié. Pour en savoir plus, consultez Tags et modèles de tags.
Fonctionnement
Si l'action Envoyer à Dataplex sous forme de tags est activée dans votre configuration d'analyse de découverte, Sensitive Data Protection effectue les opérations suivantes chaque fois qu'il profile vos données. Cette action n'est appliquée qu'aux profils nouveaux et mis à jour. Les profils existants qui ne sont pas mis à jour ne sont pas envoyés à Knowledge Catalog.
Crée un modèle de tag privé contenant le schéma des tags qui seront associés à vos tables BigQuery. Pour en savoir plus sur le nom, l'ID et l'emplacement du modèle de tag, consultez Détails du modèle de tag.
Seuls les principaux disposant des rôles et autorisations appropriés peuvent afficher le modèle de tag.
Crée un tag pour chaque table BigQuery que vous profilez. Le tag est basé sur le modèle de tag nouvellement créé.
Par exemple, un tag résultant associé à une table peut contenir les métadonnées suivantes :
Nom à afficher Valeur Column Insightsccn: CREDIT_CARD_NUMBER
first_name: PERSON_NAME
last_name: PERSON_NAME
ssn: US_SOCIAL_SECURITY_NUMBER
email: EMAIL_ADDRESSColumn Sensitivityccn: HIGH
first_name: MODERATE
last_name: MODERATE
favorite_animal: LOW
ssn: HIGH
email: MODERATE
id: LOWData Risk LevelHIGHOther InfoTypesPHONE_NUMBERPredicted InfoTypesCREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAMEProfile Last GeneratedDATE at TIMESensitive Data Profileorganizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_IDSensitivity ScoreHIGH
Une table comporte deux tags si elle a été profilée à l'aide des deux éléments suivants :
- Une configuration d'analyse au niveau de l'organisation ou du dossier
- Une configuration d'analyse au niveau du projet
Une fois les tables taguées, vous pouvez rechercher dans Knowledge Catalog toutes les données de votre organisation ou de votre projet avec des valeurs de tag spécifiques.
Détails du modèle de tag
Le nom du modèle, l'ID du modèle et le projet dans lequel le nouveau modèle de tag est stocké dépendent de la ressource à laquelle la configuration d'analyse se rapporte.
- Si la configuration d'analyse est une configuration au niveau de l'organisation ou du dossier, le modèle de tag est stocké dans le conteneur de l'agent de service. Le nom du modèle de tag est
Sensitive Data Profile. Son ID de modèle estsensitive_data_profile. - Si la configuration d'analyse est une configuration au niveau du projet, le modèle de tag est stocké dans le projet à profiler. Le nom du modèle de tag est
Sensitive Data Profile (Project). Son ID de modèle estsensitive_data_profile_project.
Tarifs
Pour savoir comment d'autres Google Cloud services peuvent vous facturer l' exportation de profils de données, consultez Tarifs d'exportation des profils de données.
Taguer automatiquement les tables BigQuery en fonction des profils de données
Créez une configuration d'analyse. Vous pouvez également modifier une configuration d'analyse existante.
- Pour créer une configuration d'analyse au niveau de l'organisation ou du dossier, consultez Profiler des données dans une organisation ou un dossier.
- Pour créer une configuration d'analyse au niveau du projet, consultez Profiler des données dans un seul projet.
À l'étape Ajouter des actions, assurez-vous que l'option Envoyer à Dataplex sous forme de tags est activée.
- Si vous créez une configuration d'analyse, cette action est activée par défaut.
- Si vous modifiez une configuration d'analyse, vous devez activer cette action.
Une fois les données profilées et taguées, vous pouvez commencer à rechercher des données taguées dans Knowledge Catalog.
Rôles et autorisations pour afficher les tags
Les résultats de recherche Knowledge Catalog n'affichent que les données auxquelles vous avez accès. Vous avez besoin des rôles ou autorisations Identity and Access Management (IAM) suivants pour rechercher les tags associés à vos tables BigQuery.
| Objectif | Rôle prédéfini | Autorisations pertinentes |
|---|---|---|
| Afficher le modèle de tag privé | Lecteur de modèles de tag Data Catalog (roles/datacatalog.tagTemplateViewer) |
datacatalog.tagTemplates.getTag |
| Afficher les tags appliqués aux tables BigQuery | Lecteur de métadonnées BigQuery (roles/bigquery.metadataViewer) |
bigquery.datasets.getbigquery.tables.get |
Pour en savoir plus sur les rôles Knowledge Catalog, consultez Rôles permettant d'afficher les tags publics et privés.
Pour savoir comment attribuer un rôle prédéfini, consultez Attribuer un seul rôle. Si vous souhaitez utiliser un rôle personnalisé au lieu d'un rôle prédéfini, assurez-vous qu'il dispose des autorisations appropriées. Pour en savoir plus, consultez Créer un rôle personnalisé.
Trouver le modèle de tag généré
Dans la Google Cloud console, accédez à la page Modèles de tag de Knowledge Catalog.
Dans la liste, recherchez le modèle de tag. Pour en savoir plus sur le nom, l'ID et l' emplacement du modèle de tag, consultez Détails du modèle de tag.
(Facultatif) Pour trouver le modèle de tag généré par une configuration d'analyse de découverte donnée, saisissez les informations suivantes dans le champ Filtre :
name:PROJECT_ID.TAG_TEMPLATE_IDRemplacez les éléments suivants :
- PROJECT_ID : ID du projet associé à la configuration d'analyse. Si vous avez profilé vos données au niveau de l'organisation ou du dossier, saisissez l'ID de projet du conteneur de l'agent de service.
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet.
Trouver le tag généré pour un profil de données de table donné
Dans la Google Cloud console, accédez à la page Rechercher de Knowledge Catalog.
Dans le champ Rechercher, saisissez les informations suivantes :
name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_IDRemplacez les éléments suivants :
- TABLE_ID : ID de la table qui a été profilée.
- PROJECT_ID : ID du projet contenant le modèle de tag. Si vous avez profilé vos données au niveau de l'organisation ou du dossier, saisissez l'ID de projet du conteneur de l'agent de service.
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet.
Dans la liste qui s'affiche, cliquez sur l'ID de la table. Les détails de la table BigQuery s'affichent, ainsi que tous les tags
Sensitive Data ProfileouSensitive Data Profile (Project)qui y sont associés.Une table comporte deux tags si elle a été profilée à l'aide des deux éléments suivants :
- Une configuration d'analyse au niveau de l'organisation ou du dossier
- Une configuration d'analyse au niveau du projet
Pour savoir comment effectuer une recherche via l'API Data Catalog, consultez Rechercher des éléments de données.
Exemples de requêtes de recherche
Cette section fournit des exemples de requêtes de recherche que vous pouvez utiliser dans Knowledge Catalog pour trouver des données dans votre organisation ou votre projet avec des valeurs de tag spécifiques.
Vous ne pouvez trouver que les données auxquelles vous avez accès. L'accès aux données est contrôlé par les autorisations IAM. Pour en savoir plus, consultez Rôles et autorisations pour afficher les tags sur cette page.
Vous pouvez saisir ces requêtes dans la page Rechercher de Knowledge Catalog dans la Google Cloud console.
Pour savoir comment formuler les requêtes, consultez Syntaxe de recherche dans Data Catalog. Pour savoir comment effectuer une recherche via l'API Data Catalog, consultez Rechercher des éléments de données.
Trouver toutes les tables taguées à l'aide du nouveau modèle de tag
tag:PROJECT_ID.TAG_TEMPLATE_ID
Remplacez les éléments suivants :
- PROJECT_ID : ID du projet contenant le modèle de tag. Si vous avez profilé vos données au niveau de l'organisation ou du dossier, saisissez l'ID de projet du conteneur de l'agent de service.
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet.
Les exemples suivants sur cette page n'incluent pas l'ID de projet. Vous pouvez donc obtenir des résultats associés à différentes configurations d'analyse de découverte. Pour limiter vos résultats à une configuration d'analyse particulière, ajoutez l'ID de projet à la requête, comme illustré dans cet exemple.
Trouver toutes les tables qui ont été profilées pour la dernière fois avant une date donnée
tag:TAG_TEMPLATE_ID.profile_last_generated<DATE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet. - DATE : date au format
YYYY-MM-DD, par exemple2023-01-15.
Trouver toutes les tables avec un score de sensibilité donné au niveau de la table
tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet. - SENSITIVITY_SCORE :
HIGH,MODERATEouLOW.
Pour en savoir plus, consultez Niveaux de risque et de sensibilité des données.
Trouver toutes les tables avec un niveau de risque lié aux données donné
tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet. - DATA_RISK_LEVEL :
HIGH,MODERATEouLOW.
Pour en savoir plus, consultez Niveaux de risque et de sensibilité des données.
Trouver toutes les tables contenant un infoType prédit donné
tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet. - INFOTYPE : infoType, par exemple
PERSON_NAME.
Pour en savoir plus, consultez InfoType prédit dans la documentation de référence sur les métriques.
Trouver toutes les tables qui contiennent partiellement un infoType donné
tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet. - INFOTYPE : infoType, par exemple
PERSON_NAME.
Pour en savoir plus, consultez Autres infoTypes dans la documentation de référence sur les métriques.
Trouver toutes les tables contenant une colonne donnée avec un infoType prédit donné
tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet. - COLUMN_NAME : nom de la colonne dans la table BigQuery.
- INFOTYPE : infoType, par exemple
PERSON_NAME.
Pour en savoir plus, consultez InfoType prédit dans la documentation de référence sur les métriques.
Trouver toutes les tables contenant une colonne donnée avec un score de sensibilité donné au niveau de la colonne
tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profilesi la configuration d'analyse concerne une organisation ou un dossier ;sensitive_data_profile_projectsi la configuration d'analyse concerne un projet. - COLUMN_NAME : nom de la colonne dans la table BigQuery.
- SENSITIVITY_SCORE :
HIGH,MODERATEouLOW.
Pour en savoir plus, consultez Niveaux de risque et de sensibilité des données.
Valeurs de tag tronquées
Si les données d'en-tête de colonne d'une table BigQuery dépassent 10 Mo, le
tag résultant peut afficher [TRUNCATED] dans le champ Column Insights ou Column
Sensitivity. Dans ce cas, nous vous recommandons d'accéder à
Sensitive Data Protection pour examiner le profil de données de la table
profile et
les profils de données de colonne associés.