Cette page explique comment suivre la traçabilité des données pour votre instance Looker (Google Cloud Core) à l'aide de Knowledge Catalog.
La traçabilité des données consiste à suivre la façon dont les données transitent par vos systèmes. En intégrant Looker (Google Cloud Core) au Knowledge Catalog, vous pouvez visualiser le parcours complet de vos données, de leur source dans BigQuery à leur consommation en aval dans les tableaux de bord et les Looks, en passant par la couche sémantique Looker (vues et explorations LookML).
Cette visibilité aide les ingénieurs et les administrateurs de données à effectuer une analyse de l'impact. Par exemple, avant de supprimer une colonne dans une table BigQuery, vous pouvez consulter le graphique de traçabilité pour voir exactement quels tableaux de bord Looker seraient affectés par la modification.
Avant de commencer
Pour utiliser la traçabilité des données avec Looker (Google Cloud Core), vous devez remplir les conditions préalables suivantes :
- Looker (Google Cloud Core) : la traçabilité des données est compatible avec tous les types d'édition des instances Looker (Google Cloud Core). Les instances Looker (original) ne s'intègrent pas à Knowledge Catalog.
- Autorisations requises : pour afficher les graphiques de traçabilité, vous devez disposer des rôles IAM suivants :
- Visionneuse de schéma Looker (
roles/looker.schemaViewer) dans le projet qui héberge l'instance Looker (Google Cloud Core) - Lecteur Dataplex (
roles/dataplex.viewer) ou autorisations équivalentes pour afficher les assets du Knowledge Catalog - Lecteur de la traçabilité des données (
roles/datalineage.viewer) pour lire les données de traçabilité
- Visionneuse de schéma Looker (
Activer la traçabilité des données
Pour activer la traçabilité des données, procédez comme suit :
- Activez l'intégration du catalogue universel pour Looker (Google Cloud Core) : l'intégration entre votre instance Looker (Google Cloud Core) et Knowledge Catalog est activée par défaut dans la console Google Cloud . Si l'intégration a été désactivée, vous devez la réactiver. Pour obtenir des instructions, consultez Activer l'intégration.
- Activez la fonctionnalité d'aperçu de la traçabilité Knowledge Catalog dans Looker : la fonctionnalité d'aperçu Traçabilité Knowledge Catalog est désactivée par défaut sur la page Fonctionnalités en preview du panneau Admin de votre instance Looker (Google Cloud Core).
- Activez l'API Data Lineage : vous devez activer l'API Data Lineage (
datalineage.googleapis.com) sur tous les projets Google Cloud qui hébergent votre instance Looker (Google Cloud Core) et vos données BigQuery. - Activez l'ingestion du lineage au niveau du service : Ensure que l'intégration du lineage et de Looker (Google Cloud Core) au niveau du service est activée. La traçabilité au niveau du service respecte les états par défaut suivants :
- Pour éviter toute implication tarifaire future, l'ingestion de l'ancêtre au niveau du service Looker (Google Cloud Core) est désactivée par défaut pour les projets qui, à la date de disponibilité de la version Preview de cette fonctionnalité, avaient l'API Data Lineage activée et hébergé au moins une instance Looker (Google Cloud Core).
- L'ingestion de la traçabilité au niveau du service est activée par défaut pour les instances Looker (Google Cloud Core) créées après la date de disponibilité de la version preview de cette fonctionnalité dans les projets pour lesquels l'API Data Lineage est activée.
Pour afficher la configuration de l'arborescence d'un projet Google Cloud , consultez la documentation Obtenir la configuration actuelle. Si l'intégration à Looker (Google Cloud Core) est désactivée, la commande renvoie un résultat semblable à celui-ci :
{ "name": "projects/123456789012/locations/global/config", "ingestion": { "rules": [ { "integrationSelector": { "integration": "LOOKER_CORE" }, "lineageEnablement": { "enabled": false } } ] }, "etag": "Wb35wDxTTLd6Z+QAL+Yd4g==" }
L'ID du projet indiqué dans la réponse correspondra à celui de votre requête. Le champ etag est une somme de contrôle générée par le serveur et basée sur la valeur actuelle de la configuration.
Afficher la traçabilité des données
Une fois l'intégration activée et la synchronisation initiale terminée (ce qui peut prendre jusqu'à 24 heures), vous pouvez afficher la lignée dans la console Knowledge Catalog.
- Dans la console Google Cloud , accédez à la page Knowledge Catalog.
- Cliquez sur Rechercher dans le volet de navigation de gauche.
- Recherchez une table BigQuery ou un élément Looker (Google Cloud Core) (comme un tableau de bord ou une exploration).
- Vous pouvez utiliser le panneau Filtres pour filtrer par Système > Looker.
- Cliquez sur le nom du composant pour ouvrir sa page d'informations.
- Cliquez sur l'onglet Traçabilité.
Le graphique de traçabilité affiche le composant en tant que nœud central, avec les sources en amont à gauche et les consommateurs en aval à droite.
Interpréter le graphique de traçabilité
Le graphique de traçabilité se compose de nœuds et de liens :
- Nœuds : représentent les éléments de données. Voici les composants Looker (Google Cloud Core) compatibles :
- Tableau de bord Looker
- Élément de tableau de bord Looker (vignette)
- Looker Look
- Exploration LookML
- Vue LookML
- Liens : représentent le flux de données. Par exemple, un lien d'une table BigQuery vers une vue LookML indique que la vue sélectionne les données de cette table.
Identifier les propriétaires des composants
Pour savoir à qui appartient un composant en aval susceptible d'être affecté par une modification, procédez comme suit :
- Dans le graphique de lignée, cliquez sur le nœud de l'asset (par exemple, un tableau de bord Looker).
- Un panneau d'informations s'ouvre sur le côté droit de l'écran.
- Recherchez la section Aspects pour trouver l'adresse e-mail du propriétaire.
Filtrer la liste de traçabilité
Dans la vue Liste du lineage, vous pouvez filtrer les entités par nom ou valeur de propriété. Par exemple, les modèles LookML complexes peuvent générer de grands graphiques de lignée avec de nombreuses entités intermédiaires. Pour vous concentrer sur l'impact commercial, vous pouvez filtrer par type d'entité en procédant comme suit :
- Dans l'onglet Traçabilité, passez à la vue Liste.
- Recherchez les options de filtre dans la barre d'outils.
- Dans le filtre Entité, saisissez Tableau de bord Looker et Look Looker pour filtrer les types intermédiaires tels que Vue LookML et Explorer Looker.
La liste des entités est mise à jour pour n'afficher que les types d'assets sélectionnés, ce qui facilite l'identification des contenus destinés aux utilisateurs.
Limites
L'intégration de la traçabilité Looker (Google Cloud Core) présente les limites suivantes pendant la version Preview :
- Sources de données : dans l'aperçu, la traçabilité n'est compatible qu'avec les sources de données BigQuery.
- Précision : la traçabilité est fournie au niveau de l'objet (table, vue, Explorer, tableau de bord). La traçabilité au niveau des colonnes n'est pas prise en charge.
- Latence : les données de lignée ne sont pas en temps réel. Le processus de synchronisation prend généralement quatre heures. Toutefois, la synchronisation peut prendre jusqu'à huit heures, selon le calendrier des exportations de métadonnées Looker et de la consommation des données de traçabilité. Il peut s'écouler un certain temps avant que les modifications apportées dans Looker ou BigQuery n'apparaissent dans le graphique de traçabilité.
- SQL complexe : il est possible que le LookML défini avec un SQL personnalisé complexe (par exemple, des modèles Liquid, des tables dérivées avec des jointures complexes) ne soit pas entièrement analysé, ce qui peut entraîner des nœuds déconnectés.
Tarifs
Pendant la version preview, les fonctionnalités de traçage des données utilisées avec cette intégration sont sans frais.
Lorsque le lineage des données sera disponible pour tous les utilisateurs, des frais seront facturés. Pour éviter toute implication tarifaire future, l'ingestion de l'héritage Looker (Google Cloud Core) est désactivée par défaut pour les projets qui, à la date de disponibilité de la version Preview de cette fonctionnalité, avaient l'API Data Lineage activée et hébergé au moins une instance Looker (Google Cloud Core).
Pour en savoir plus, consultez la page des tarifs du Knowledge Catalog.
Étapes suivantes
- Gérer les ressources de métadonnées avec Knowledge Catalog
- En savoir plus sur la traçabilité des données