Dans ce scénario, vous gérez une base de données qui stocke des enregistrements sur l'utilisation des différents services fournis par un prestataire de santé. Pour faciliter l'utilisation des données, vous parcourez les tables afin d'identifier les modifications potentielles. Avant d'implémenter les modifications, vous vérifiez si des améliorations affectent les workflows existants et si des ajustements supplémentaires sont nécessaires.
Dans ce tutoriel, utilisez la traçabilité des données pour identifier l'impact des transformations de données sur les ressources en aval et les workflows auxquels elles appartiennent.
Commencer
Pour réaliser ce cas d'utilisation, configurez d'abord l'environnement et exécutez les transformations de données. Utilisez la page des prérequis et de configuration pour connecter un dépôt distant à Dataform. Ce dépôt contient le code nécessaire pour configurer l'ensemble de données et transformer les données.
Une fois la configuration de l'environnement terminée, utilisez BigQuery et l'explorateur de traçabilité pour suivre les transformations de données et leur impact sur les workflows.
Analyser les transformations de données avec l'explorateur de traçabilité
Une fois l'ensemble de données préparé, analysez l'impact de la transformation des données à l'aide de l'onglet Traçabilité de BigQuery.
Vérifier l'intégrité des données
Dans cet exemple, examinez la colonne medicare_participation_indicator qui indique si un médecin ou un fournisseur accepte de fournir des services pour Medicare. Le graphique de traçabilité montre comment les transformations de données entre les tables dérivées entraînent des modifications du type de données de la colonne :
- Dans la Google Cloud console, accédez à la page BigQuery.
- Utilisez le champ de recherche pour trouver la table
physicians_and_other_supplier_2012_original. - Cliquez sur l'onglet Traçabilité.
- Dans le volet Explorateur de traçabilité, procédez comme suit :
- Dans la section Traçabilité au niveau de la colonne, sélectionnez le nom de la colonne
medicare_participation_indicatordans la liste. - Dans la section Direction, sélectionnez la direction En aval.
- Cliquez sur Appliquer.
- Dans la section Traçabilité au niveau de la colonne, sélectionnez le nom de la colonne
- Développez le chemin de traçabilité jusqu'à atteindre
vertex_ai_model_final_features. Analysez les modifications de chemin entre la table
supplier_stg3et la tablesupplier_transform1:
Visualisation du suivi de la traçabilité pour la colonne medicare_participation_indicator- Le marquage de chemin Copie exacte indique que la colonne passe sans modification.
- Le marquage de chemin Autre indique une transformation. Dans ce chemin, le type de données
Stringest traité commeBoolean.
Le chemin indique que les types de données de la colonne changent, ce qui peut nécessiter des ajustements dans les workflows qui utilisent ces tables.
Identifier les colonnes redondantes
Cet exemple examine la colonne nppes_credentials qui répertorie les identifiants nationaux de fournisseur que les praticiens détiennent dans le National Plan and Provider Enumeration System (NPPES) :
- Dans la Google Cloud console, accédez à la page BigQuery.
- Utilisez le champ de recherche pour trouver la table
physicians_and_other_supplier_2012_original. - Cliquez sur l'onglet Traçabilité.
- Dans le volet Explorateur de traçabilité, procédez comme suit :
- Dans la section Traçabilité au niveau de la colonne, sélectionnez le nom de la colonne
nppes_credentialsdans la liste. - Dans la section Direction, sélectionnez la direction En aval.
- Cliquez sur Appliquer.
- Dans la section Traçabilité au niveau de la colonne, sélectionnez le nom de la colonne
- Développez le chemin pour vérifier s'il existe une traçabilité en aval menant à
vertex_ai_model_final_features.
L'absence de traçabilité signifie que cette colonne n'est peut-être pas pertinente dans ce workflow particulier et qu'elle peut même être supprimée.
Pour en savoir plus sur la visualisation des données avec un graphique de traçabilité des données, consultez Vue Graphique de traçabilité.