À propos du profilage des données

Knowledge Catalog (anciennement Dataplex Universal Catalog) vous permet de mieux comprendre et d'analyser vos données en profilant automatiquement vos tables BigQuery.

Le profilage revient à obtenir un rapport de santé détaillé pour vos données. Il vous fournit des statistiques clés, telles que les valeurs courantes, la répartition des données (distribution) et le nombre d'entrées manquantes (nombre de valeurs nulles). Ces informations accélèrent votre analyse.

Le profilage des données détecte automatiquement les informations sensibles et vous permet de définir des stratégies de contrôle des accès. Il recommande des règles de vérification de la qualité des données pour garantir la fiabilité de vos données.

Modèle conceptuel

Knowledge Catalog vous permet de mieux comprendre le profil de vos données en créant une analyse de profilage des données. Une analyse de profilage des données est un type de analyse de données Knowledge Catalog qui analyse une table BigQuery pour générer des insights statistiques.

Le schéma suivant montre comment Knowledge Catalog analyse les données pour générer des rapports sur les caractéristiques statistiques.

Une analyse de profil de données analyse les données d'une table pour générer un rapport sur les caractéristiques statistiques.

Une analyse de profilage des données est associée à une table BigQuery et l'analyse pour générer les résultats du profilage des données. Une analyse de profilage des données est compatible avec plusieurs options de configuration.

Options de configuration

Cette section décrit les options de configuration disponibles pour exécuter des analyses de profilage des données.

Modes de profilage

Vous pouvez choisir parmi les modes de profilage suivants :

  • Standard : il s'agit du mode par défaut. Il fournit un profil complet et personnalisable en analysant vos données en fonction de l'échantillonnage et des filtres que vous spécifiez. Le mode standard est adapté à l'analyse détaillée et à la surveillance à long terme des caractéristiques des données.

  • Lightweight (Preview) : ce mode fournit des analyses de profilage à faible latence qui renvoient des résultats en quelques secondes. Il est optimisé pour la vitesse et la rentabilité afin de prendre en charge des cas d'utilisation tels que les suivants :

    • Ancrer les réponses des agents IA avec des caractéristiques de données immédiates
    • Pré-générer des profils à grande échelle de manière rentable pour la découverte de données mondiale
    • Fournir des rapports de santé rapides lors de l'exploration interactive des données

    Le mode léger présente les limites suivantes :

    • Contrairement au mode de profilage standard, vous ne pouvez pas modifier le champ d'application, les filtres ni la taille de l'échantillon lors des analyses légères.
    • Il n'est pas compatible avec les vues BigQuery ni les tables externes.

Options de programmation

Vous pouvez planifier une analyse de profilage des données avec une fréquence définie ou exécuter l'analyse à la demande.

Identité d'exécution

Par défaut, Knowledge Catalog utilise un agent de service centralisé (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) pour exécuter les analyses de profilage des données.

Vous pouvez également remplacer cette identité d'exécution par défaut en spécifiant un compte de service personnalisé (Bring Your Own Service Account) ou en utilisant vos propres identifiants d'utilisateur final. Cela présente plusieurs avantages :

  • Principe du moindre privilège : n'accordez que les autorisations IAM exactes requises pour des tâches de profilage de données spécifiques à un compte de service dédié, ce qui minimise les accès surprovisionnés.
  • Contrôle des accès précis : limitez les autorisations à des ressources spécifiques, ce qui permet l'intégration avec les stratégies d'accès au niveau des lignes et des colonnes dans BigQuery.
  • Auditabilité améliorée : attribuez des comptes de service personnalisés ou des identifiants utilisateur à des analyses spécifiques, ce qui rend le suivi et la journalisation des activités beaucoup plus clairs dans les journaux d'audit.
  • Unification de la facturation : lorsque vous utilisez une identité d'exécution personnalisée, les frais de traitement et de stockage sont centralisés directement sous BigQuery (en contournant les SKU Knowledge Catalog Premium). Vous pouvez ainsi profiter des remises pour les entreprises et des engagements d'emplacements BigQuery.

Pour savoir comment configurer une identité d'exécution personnalisée, consultez Configurer l'identité d'exécution.

Champ d'application

Pour les analyses de profilage standard, vous pouvez spécifier le champ d'application des données à analyser :

  • Table complète : l'ensemble de la table est analysé dans l'analyse de profilage des données. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués à l'ensemble de la table avant le calcul des statistiques de profilage.

  • Incrémental : les données incrémentales que vous spécifiez sont analysées dans l'analyse de profilage des données. Spécifiez une colonne Date ou Timestamp dans la table à utiliser comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués aux données incrémentales avant le calcul des statistiques de profilage.

Filtrer les données

Pour les analyses de profilage standard, vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de lignes et de filtres de colonnes. L'utilisation de filtres vous permet de réduire la durée d'exécution et les coûts, et d'exclure les données sensibles et inutiles. Les analyses de profilage légères ne sont pas compatibles avec les filtres de colonnes ni les filtres de lignes.

  • Filtres de lignes : les filtres de lignes vous permettent de vous concentrer sur les données d'une période ou d'un segment spécifiques, comme une région. Par exemple, vous pouvez filtrer les données dont le code temporel est antérieur à une certaine date.

  • Filtres de colonnes : les filtres de colonnes vous permettent d'inclure et d'exclure des colonnes spécifiques de votre table pour exécuter l'analyse de profilage des données.

Exemples de données

Pour les analyses de profilage standard, vous pouvez spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profilage des données. La création d'analyses de profilage des données sur un échantillon de données plus petit peut réduire la durée d'exécution et le coût de l'interrogation de l'ensemble de données.

Plusieurs analyses de profil de données

Vous pouvez créer plusieurs analyses de profilage des données à la fois à l'aide de la Google Cloud console. Vous pouvez sélectionner jusqu'à 100 tables à partir d'un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. Pour en savoir plus, consultez Créer plusieurs analyses de profilage des données.

Exporter les résultats d'analyse dans une table BigQuery

Vous pouvez exporter les résultats de l'analyse de profilage des données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez connecter les données de la table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.

Résultats du profilage des données

Les résultats du profilage des données incluent les valeurs suivantes :

Type de colonne Résultats du profilage des données
Colonne numérique
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Les 10 valeurs les plus courantes de la colonne. Ce nombre peut être inférieur à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10 (les valeurs nulles ne sont pas incluses). Pour chacune de ces valeurs les plus courantes, le pourcentage de leur occurrence dans les données analysées lors de l'analyse actuelle s'affiche.
  • Moyenne, écart type, minimum, quartile inférieur approximatif, médiane approximative, quartile supérieur approximatif et valeurs maximales.
Colonne de chaîne
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Les 10 valeurs les plus courantes de la colonne, qui peuvent être inférieures à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10.
  • Longueur moyenne, minimale et maximale de la chaîne.
Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.)
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Les 10 valeurs les plus courantes de la colonne, qui peuvent être inférieures à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10.
Toutes les autres colonnes imbriquées ou de type de données complexes (telles que Record, Array, JSON) ou toute colonne avec le mode repeated.
  • Pourcentage de valeurs nulles.

Les résultats incluent le nombre d'enregistrements analysés dans chaque job.

Création de rapports et surveillance

Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et méthodes suivants :

  • Rapports publiés avec la table source dans les pages BigQuery et Knowledge Catalog

    Si vous configurez une analyse de profilage des données pour publier les résultats dans BigQuery et Knowledge Catalog, vous pouvez consulter les derniers résultats de l'analyse de profilage des données dans l'onglet Profil de données de la table source dans BigQuery et Knowledge Catalog. Ces résultats sont accessibles depuis n'importe quel projet.

    Rapports publiés.

  • Rapport historique par job

    Sur la page Profilage et qualité des données > Analyse de profilage des données dans Knowledge Catalog et BigQuery, vous pouvez consulter les rapports détaillés des jobs les plus récents et historiques. Cela inclut les informations de profil au niveau des colonnes et la configuration utilisée.

    Rapport historique par tâche.

  • Onglet "Analyse"

    Sur la page Profilage et qualité des données > Analyse de profilage des données dans Knowledge Catalog et BigQuery, vous pouvez utiliser l'onglet Analyse pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs jobs de profilage. Par exemple, si vous disposez d'une analyse incrémentale, vous pouvez voir comment la moyenne d'une valeur a évolué au fil du temps.

    Onglet "Analyse".

  • Créer votre propre tableau de bord ou vos propres analyses

    Si vous avez configuré une analyse de profilage des données pour exporter les résultats vers une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Looker Studio.

Limites

  • Le profilage des données est compatible avec les tables BigQuery de tous les types de colonnes, à l'exception de BIGNUMERIC. Une analyse créée pour une table avec une colonne BIGNUMERIC génère une erreur de validation et n'est pas créée.

Tarifs

Pour en savoir plus sur les tarifs, consultez Tarifs de Knowledge Catalog.

Étape suivante