Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

À propos du profilage des données

Knowledge Catalog (anciennement Dataplex Universal Catalog) vous permet de mieux comprendre et analyser vos données en profilant automatiquement vos tables BigQuery et Iceberg REST Catalog.

Le profilage, c'est comme obtenir un rapport de santé détaillé pour vos données. Il vous fournit des statistiques clés, telles que les valeurs courantes, la répartition des données (distribution) et le nombre d'entrées manquantes (nombre de valeurs nulles). Ces informations accélèrent votre analyse.

Le profilage des données recommande des règles de vérification de la qualité des données pour garantir la fiabilité de vos données.

Modèle conceptuel

Knowledge Catalog vous permet de mieux comprendre le profil de vos données en créant une analyse de profilage des données. Une analyse de profil de données est un type d'analyse de données Knowledge Catalog qui analyse une table BigQuery ou Iceberg REST Catalog pour générer des insights statistiques.

Le diagramme suivant montre comment Knowledge Catalog analyse les données pour générer des rapports sur les caractéristiques statistiques.

Une analyse de profil de données est associée à une table BigQuery ou Iceberg REST Catalog. Elle analyse la table pour générer les résultats du profilage des données. Une analyse de profil de données est compatible avec plusieurs options de configuration.

Options de configuration

Cette section décrit les options de configuration disponibles pour exécuter des analyses de profilage des données.

Modes de profilage

Vous pouvez choisir entre les modes de profilage suivants :

Standard : il s'agit du mode par défaut. Il fournit un profil complet et personnalisable en analysant vos données en fonction de l'échantillonnage et des filtres que vous spécifiez. Le mode standard convient à l'analyse détaillée et à la surveillance à long terme des caractéristiques des données.
Léger (aperçu) : ce mode fournit des analyses de profilage à faible latence qui renvoient des résultats en quelques secondes. Elle est optimisée pour la rapidité et la rentabilité afin de prendre en charge des cas d'utilisation tels que les suivants :
- Ancrer les réponses des agents IA avec les caractéristiques immédiates des données
- Pré-générer des profils à grande échelle de manière économique pour la découverte de données mondiales
- Fournir des rapports sur l'état de santé rapides lors de l'exploration interactive des données
Le mode simplifié présente les limites suivantes :
- Contrairement au mode de profilage standard, vous ne pouvez pas modifier le champ d'application, les filtres ni la taille de l'échantillon lors des analyses légères.
- Il n'est pas compatible avec les vues BigQuery ni les tables externes.
Non structuré (aperçu) : ce mode utilise une analyse autonome du profil de données pour les données non structurées (UnstructuredDataProfileSpec) optimisée par les modèles Gemini de Vertex AI. Il permet d'analyser le contenu qualitatif réel des fichiers non structurés (tels que les PDF dans Cloud Storage) à l'aide des tables d'objets BigQuery existantes. Contrairement aux modes de profilage structurés (standard et léger), qui calculent des métriques statistiques telles que le nombre de valeurs nulles et les distributions de valeurs, les analyses de profil de données pour les données non structurées effectuent une inférence sémantique pour extraire les entités commerciales (NodeType) et les relations (EdgeType), associer un aspect Graph Profile (dataplex-types.global.graph-profile) à l'entrée de catalogue et permettre la matérialisation programmatique des données dans des tables ou des vues BigQuery physiques.

Remarque : Les analyses de profil de données non structurées sont disponibles en aperçu public à l'aide de l'API REST Dataplex uniquement. Les workflows de la console Google Cloud et de la Google Cloud CLI ne sont pas compatibles.

Pour en savoir plus, consultez À propos des insights sur les données non structurées, Utiliser l'analyse de découverte pour les données non structurées (pour les analyses de découverte Cloud Storage) et Utiliser le profil de données pour les données non structurées (pour le profilage de tables d'objets autonomes).

Options de programmation

Vous pouvez planifier une analyse du profil de données avec une fréquence définie ou l'exécuter à la demande. Si une tâche d'analyse prend plus de temps que prévu, vous pouvez l'annuler.

Identité d'exécution

Par défaut, Knowledge Catalog utilise un agent de service centralisé (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) pour exécuter les analyses de profilage des données.

Vous pouvez également remplacer cette identité d'exécution par défaut en spécifiant un compte de service personnalisé (Bring Your Own Service Account) ou en utilisant vos propres identifiants utilisateur final. Cela présente plusieurs avantages :

Principe du moindre privilège : n'accordez à un compte de service dédié que les autorisations IAM (Identity and Access Management) exactes requises pour des tâches de profilage de données spécifiques. Cela permet de minimiser les accès surprovisionnés.
Contrôle des accès précis : définissez des autorisations pour des ressources spécifiques, ce qui permet l'intégration aux règles d'accès au niveau des lignes et des colonnes dans BigQuery.
Auditabilité améliorée : attribuez des comptes de service personnalisés ou des identifiants utilisateur à des analyses spécifiques. Le suivi et la journalisation des activités sont ainsi beaucoup plus clairs dans les journaux d'audit.
Unification de la facturation : lorsque vous utilisez une identité d'exécution personnalisée, les frais de traitement et de stockage sont centralisés directement sous BigQuery (en contournant les SKU Knowledge Catalog Premium). Vous pouvez ainsi profiter des remises BigQuery Enterprise et des engagements d'emplacements.

Pour savoir comment configurer une identité d'exécution personnalisée, consultez Configurer l'identité d'exécution.

Champ d'application

Pour les analyses de profilage Standard, vous pouvez spécifier le champ d'application des données à analyser :

Table complète : l'intégralité de la table est analysée lors de l'analyse du profil de données. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués à l'ensemble du tableau avant le calcul des statistiques de profilage.
Incrémentiel : les données incrémentielles que vous spécifiez sont analysées dans l'analyse de profilage des données. Spécifiez une colonne Date ou Timestamp dans le tableau à utiliser comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués aux données incrémentales avant le calcul des statistiques de profilage.

Filtrer les données

Pour les analyses de profilage standard, vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de lignes et de colonnes. L'utilisation de filtres vous aide à réduire la durée d'exécution et les coûts, et à exclure les données sensibles et inutiles. Les analyses de profilage léger ne sont pas compatibles avec les filtres de colonnes ni de lignes.

Filtres de ligne : ils vous permettent de vous concentrer sur les données d'une période ou d'un segment spécifiques, comme une région. Par exemple, vous pouvez filtrer les données dont le code temporel est antérieur à une certaine date.
Filtres de colonnes : ils vous permettent d'inclure et d'exclure des colonnes spécifiques de votre tableau pour exécuter l'analyse du profil de données.

Exemples de données

Pour les analyses de profilage standard, vous pouvez spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profilage des données. La création d'analyses de profilage de données sur un échantillon de données plus petit peut réduire la durée d'exécution et le coût de l'interrogation de l'ensemble de données.

Plusieurs analyses de profil de données

Vous pouvez créer plusieurs analyses de profilage de données à la fois à l'aide de la console Google Cloud . Vous pouvez sélectionner jusqu'à 100 tables dans un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. Pour en savoir plus, consultez Créer plusieurs analyses de profilage des données.

Exporter les résultats de l'analyse vers une table BigQuery

Vous pouvez exporter les résultats de l'analyse de profil de données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez connecter les données de la table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.

Résultats du profilage des données

Les résultats du profilage des données incluent les valeurs suivantes :

Type de colonne	Résultats du profilage des données
Colonne numérique	Pourcentage de valeurs nulles. Pourcentage de valeurs uniques (distinctes) approximatives. Les 10 valeurs les plus courantes de la colonne. Elle peut être inférieure à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10 (les valeurs nulles ne sont pas incluses). Pour chacune de ces valeurs les plus courantes, le pourcentage de leur occurrence dans les données analysées lors de l'analyse actuelle est affiché. Valeurs moyenne, écart type, minimale, quartile inférieur approximatif, médiane approximative, quartile supérieur approximatif et maximale.
Colonne de chaîne	Pourcentage de valeurs nulles. Pourcentage de valeurs uniques (distinctes) approximatives. Les 10 valeurs les plus fréquentes de la colonne (moins de 10 si le nombre de valeurs uniques de la colonne est inférieur à 10). Longueur moyenne, minimale et maximale de la chaîne.
Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.)	Pourcentage de valeurs nulles. Pourcentage de valeurs uniques (distinctes) approximatives. Les 10 valeurs les plus fréquentes de la colonne (moins de 10 si le nombre de valeurs uniques de la colonne est inférieur à 10).
Toutes les autres colonnes de types de données imbriqués ou complexes (telles que "Record", "Array" ou "JSON") ou toute colonne avec le mode repeated.	Pourcentage de valeurs nulles.

Les résultats incluent le nombre d'enregistrements analysés dans chaque job.

Création de rapports et surveillance

Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et méthodes suivants :

Rapports publiés avec la table source sur les pages BigQuery et Knowledge Catalog

Si vous configurez une analyse de profilage des données pour publier les résultats dans BigQuery et Knowledge Catalog, vous pouvez consulter les derniers résultats de l'analyse de profilage des données dans l'onglet Profil de données de la table source, à la fois dans BigQuery et dans Knowledge Catalog. Ces résultats sont accessibles depuis n'importe quel projet.
Rapport historique par tâche

Sur la page Profilage et qualité des données > Analyse du profil de données dans Knowledge Catalog et BigQuery, vous pouvez consulter les rapports détaillés des jobs les plus récents et de l'historique. Cela inclut les informations de profil au niveau des colonnes et la configuration utilisée.
Onglet "Analyse"

Sur la page Profilage et qualité des données > Analyse du profil de données dans Knowledge Catalog et BigQuery, vous pouvez utiliser l'onglet Analyse pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs jobs de profilage. Par exemple, si vous effectuez une analyse incrémentielle, vous pouvez voir comment la moyenne d'une valeur a évolué au fil du temps.
Créer votre propre tableau de bord ou vos propres données analytiques

Si vous avez configuré une analyse de profilage des données pour exporter les résultats vers une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Data Studio.

Limites

Vous ne pouvez exécuter des analyses de profil de données que sur les tables BigQuery et Iceberg REST Catalog.
Le profilage des données est compatible avec les tables BigQuery de tous les types de colonnes, à l'exception de BIGNUMERIC. Une analyse créée pour une table avec une colonne BIGNUMERIC génère une erreur de validation et n'est pas créée.

Tarifs

Pour en savoir plus sur les tarifs, consultez Tarifs de Knowledge Catalog.

Étapes suivantes

Découvrez comment utiliser le profilage des données.
Pour en savoir plus sur les ressources Terraform disponibles pour créer des analyses de profil de données, consultez les pages suivantes :
- Ressource d'analyse des données Knowledge Catalog dans le registre Terraform.
- La documentation sur les ressources d'analyse des données du Knowledge Catalog sur GitHub, qui est compatible avec la configuration des règles basées sur YAML.
Découvrez-en plus sur la qualité automatique des données.
Découvrez comment utiliser la qualité automatique des données.
Apprenez à explorer vos données et générer des insights.