Knowledge Catalog (anciennement Dataplex Universal Catalog) vous permet de mieux comprendre et d'analyser vos données en profilant automatiquement vos tables BigQuery.
Le profilage revient à obtenir un rapport de santé détaillé pour vos données. Il vous fournit des statistiques clés, telles que les valeurs courantes, la répartition des données (distribution) et le nombre d'entrées manquantes (nombre de valeurs nulles). Ces informations accélèrent votre analyse.
Le profilage des données détecte automatiquement les informations sensibles et vous permet de définir des stratégies de contrôle des accès. Il recommande des règles de vérification de la qualité des données pour garantir la fiabilité de vos données.
Modèle conceptuel
Knowledge Catalog vous permet de mieux comprendre le profil de vos données en créant une analyse de profilage des données. Une analyse de profilage des données est un type de analyse de données Knowledge Catalog qui analyse une table BigQuery pour générer des insights statistiques.
Le schéma suivant montre comment Knowledge Catalog analyse les données pour générer des rapports sur les caractéristiques statistiques.
Une analyse de profilage des données est associée à une table BigQuery et l'analyse pour générer les résultats du profilage des données. Une analyse de profilage des données est compatible avec plusieurs options de configuration.
Options de configuration
Cette section décrit les options de configuration disponibles pour exécuter des analyses de profilage des données.
Modes de profilage
Vous pouvez choisir parmi les modes de profilage suivants :
Standard : il s'agit du mode par défaut. Il fournit un profil complet et personnalisable en analysant vos données en fonction de l'échantillonnage et des filtres que vous spécifiez. Le mode standard est adapté à l'analyse détaillée et à la surveillance à long terme des caractéristiques des données.
Lightweight (Preview) : ce mode fournit des analyses de profilage à faible latence qui renvoient des résultats en quelques secondes. Il est optimisé pour la vitesse et la rentabilité afin de prendre en charge des cas d'utilisation tels que les suivants :
- Ancrer les réponses des agents IA avec des caractéristiques de données immédiates
- Pré-générer des profils à grande échelle de manière rentable pour la découverte de données mondiale
- Fournir des rapports de santé rapides lors de l'exploration interactive des données
Le mode léger présente les limites suivantes :
- Contrairement au mode de profilage standard, vous ne pouvez pas modifier le champ d'application, les filtres ni la taille de l'échantillon lors des analyses légères.
- Il n'est pas compatible avec les vues BigQuery ni les tables externes.
Options de programmation
Vous pouvez planifier une analyse de profilage des données avec une fréquence définie ou exécuter l'analyse à la demande.
Identité d'exécution
Par défaut, Knowledge Catalog utilise un agent de service centralisé (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) pour exécuter les analyses de profilage des données.
Vous pouvez également remplacer cette identité d'exécution par défaut en spécifiant un compte de service personnalisé (Bring Your Own Service Account) ou en utilisant vos propres identifiants d'utilisateur final. Cela présente plusieurs avantages :
- Principe du moindre privilège : n'accordez que les autorisations IAM exactes requises pour des tâches de profilage de données spécifiques à un compte de service dédié, ce qui minimise les accès surprovisionnés.
- Contrôle des accès précis : limitez les autorisations à des ressources spécifiques, ce qui permet l'intégration avec les stratégies d'accès au niveau des lignes et des colonnes dans BigQuery.
- Auditabilité améliorée : attribuez des comptes de service personnalisés ou des identifiants utilisateur à des analyses spécifiques, ce qui rend le suivi et la journalisation des activités beaucoup plus clairs dans les journaux d'audit.
- Unification de la facturation : lorsque vous utilisez une identité d'exécution personnalisée, les frais de traitement et de stockage sont centralisés directement sous BigQuery (en contournant les SKU Knowledge Catalog Premium). Vous pouvez ainsi profiter des remises pour les entreprises et des engagements d'emplacements BigQuery.
Pour savoir comment configurer une identité d'exécution personnalisée, consultez Configurer l'identité d'exécution.
Champ d'application
Pour les analyses de profilage standard, vous pouvez spécifier le champ d'application des données à analyser :
Table complète : l'ensemble de la table est analysé dans l'analyse de profilage des données. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués à l'ensemble de la table avant le calcul des statistiques de profilage.
Incrémental : les données incrémentales que vous spécifiez sont analysées dans l'analyse de profilage des données. Spécifiez une colonne
DateouTimestampdans la table à utiliser comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués aux données incrémentales avant le calcul des statistiques de profilage.
Filtrer les données
Pour les analyses de profilage standard, vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de lignes et de filtres de colonnes. L'utilisation de filtres vous permet de réduire la durée d'exécution et les coûts, et d'exclure les données sensibles et inutiles. Les analyses de profilage légères ne sont pas compatibles avec les filtres de colonnes ni les filtres de lignes.
Filtres de lignes : les filtres de lignes vous permettent de vous concentrer sur les données d'une période ou d'un segment spécifiques, comme une région. Par exemple, vous pouvez filtrer les données dont le code temporel est antérieur à une certaine date.
Filtres de colonnes : les filtres de colonnes vous permettent d'inclure et d'exclure des colonnes spécifiques de votre table pour exécuter l'analyse de profilage des données.
Exemples de données
Pour les analyses de profilage standard, vous pouvez spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profilage des données. La création d'analyses de profilage des données sur un échantillon de données plus petit peut réduire la durée d'exécution et le coût de l'interrogation de l'ensemble de données.
Plusieurs analyses de profil de données
Vous pouvez créer plusieurs analyses de profilage des données à la fois à l'aide de la Google Cloud console. Vous pouvez sélectionner jusqu'à 100 tables à partir d'un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. Pour en savoir plus, consultez Créer plusieurs analyses de profilage des données.
Exporter les résultats d'analyse dans une table BigQuery
Vous pouvez exporter les résultats de l'analyse de profilage des données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez connecter les données de la table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.
Résultats du profilage des données
Les résultats du profilage des données incluent les valeurs suivantes :
| Type de colonne | Résultats du profilage des données |
|---|---|
| Colonne numérique |
|
| Colonne de chaîne |
|
| Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.) |
|
| Toutes les autres colonnes imbriquées ou de type de données complexes (telles que Record, Array, JSON) ou toute colonne avec le mode repeated. |
|
Les résultats incluent le nombre d'enregistrements analysés dans chaque job.
Création de rapports et surveillance
Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et méthodes suivants :
Rapports publiés avec la table source dans les pages BigQuery et Knowledge Catalog
Si vous configurez une analyse de profilage des données pour publier les résultats dans BigQuery et Knowledge Catalog, vous pouvez consulter les derniers résultats de l'analyse de profilage des données dans l'onglet Profil de données de la table source dans BigQuery et Knowledge Catalog. Ces résultats sont accessibles depuis n'importe quel projet.
Rapport historique par job
Sur la page Profilage et qualité des données > Analyse de profilage des données dans Knowledge Catalog et BigQuery, vous pouvez consulter les rapports détaillés des jobs les plus récents et historiques. Cela inclut les informations de profil au niveau des colonnes et la configuration utilisée.
Onglet "Analyse"
Sur la page Profilage et qualité des données > Analyse de profilage des données dans Knowledge Catalog et BigQuery, vous pouvez utiliser l'onglet Analyse pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs jobs de profilage. Par exemple, si vous disposez d'une analyse incrémentale, vous pouvez voir comment la moyenne d'une valeur a évolué au fil du temps.
Créer votre propre tableau de bord ou vos propres analyses
Si vous avez configuré une analyse de profilage des données pour exporter les résultats vers une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Looker Studio.
Limites
- Le profilage des données est compatible avec les tables BigQuery de tous les types de colonnes, à l'exception de
BIGNUMERIC. Une analyse créée pour une table avec une colonneBIGNUMERICgénère une erreur de validation et n'est pas créée.
Tarifs
Pour en savoir plus sur les tarifs, consultez Tarifs de Knowledge Catalog.
Étape suivante
- Découvrez comment utiliser le profilage des données.
- Pour en savoir plus sur les ressources Terraform disponibles pour créer des analyses de profilage des données, consultez les pages suivantes :
- Ressource d'analyse des données Dataplex dans le registre Terraform.
- La documentation sur les ressources d'analyse des données Dataplex sur GitHub, qui est compatible avec la configuration des règles basées sur YAML.
- Découvrez-en plus sur la qualité automatique des données.
- Découvrez comment utiliser la qualité automatique des données.
- Apprenez à explorer vos données et générer des insights.