Dans ce scénario, vous gérez un projet BigQuery avec des ensembles de données dérivés du Quarterly Census of Employment and Wages (QCEW). Le projet contient de nombreux tableaux et vues pour différents tableaux de bord et analyses, comme le suivi des tendances de l'emploi ou les comparaisons de salaires. Vos coûts de stockage augmentent alors. Pour réduire les coûts, vous identifiez les tables ou les vues qui ne sont pas utilisées activement comme sources pour les jobs ou les composants dans BigQuery, ce qui vous permet de les supprimer.
Utilisez la traçabilité des données pour identifier les composants qui ne sont utilisés comme source par aucun autre job BigQuery. En vérifiant les liens en aval de chaque composant, signalez systématiquement les ressources inutilisées à supprimer pour réduire les coûts de stockage.
Commencer
Pour réaliser le cas d'utilisation, commencez par configurer l'environnement et exécutez les transformations de données. Utilisez la page Conditions préalables et configuration pour connecter un dépôt distant à Dataform. Ce dépôt contient le code nécessaire pour configurer l'ensemble de données et transformer les données.
Une fois la configuration de l'environnement terminée, utilisez BigQuery et l'explorateur de lignage pour identifier visuellement les composants sans dépendances en aval.
Identifier les composants inutilisés avec l'explorateur de traçabilité
Une fois l'ensemble de données préparé, identifiez les composants qui n'ont pas de dépendances en aval. Bien que vous puissiez le faire visuellement pour des tables individuelles, vous pouvez également utiliser une approche programmatique pour les ensembles de données plus volumineux.
Dans cet exemple, comparez les composants actifs avec les composants autonomes pour déterminer ceux qui peuvent être supprimés sans risque :
- Dans la console Google Cloud , accédez à la page BigQuery.
- Utilisez le champ de recherche pour trouver un tableau autonome (par exemple, un ancien tableau d'analyse d'une année spécifique).
- Cliquez sur l'onglet Traçabilité.
- Dans le volet Explorateur de lignage, procédez comme suit :
- Dans la section Direction, sélectionnez la direction En aval.
- Cliquez sur Appliquer.
Observez le graphique. S'il n'y a pas de nœuds en aval, l'actif n'est pas utilisé comme source pour d'autres jobs BigQuery suivis. Pour en savoir plus sur la visualisation des données avec le graphique de traçabilité des données, consultez Vue Graphique de traçabilité.