In diesem Szenario verwalten Sie eine Datenbank, in der Datensätze zur Nutzung verschiedener Dienste eines Gesundheitsdienstleisters gespeichert sind. Um die Daten einfacher verwenden zu können, durchsuchen Sie die Tabellen nach potenziellen Änderungen. Bevor Sie die Änderungen implementieren, prüfen Sie, ob sich Verbesserungen auf vorhandene Arbeitsabläufe auswirken und ob zusätzliche Anpassungen erforderlich sind.
In dieser Anleitung verwenden Sie die Datenherkunft, um zu ermitteln, wie sich Datentransformationen auf nachgelagerte Ressourcen und die Arbeitsabläufe auswirken, zu denen die Ressourcen gehören.
Jetzt starten
Um den Anwendungsfall abzuschließen, richten Sie zuerst die Umgebung ein und führen Sie die Datentransformationen aus. Auf der Seite Voraussetzungen und Einrichtung können Sie ein Remote-Repository mit Dataform verbinden. Dieses Repository enthält den Code, der zum Einrichten des Datasets und zum Transformieren der Daten erforderlich ist.
Nachdem Sie die Umgebung eingerichtet haben, verwenden Sie BigQuery und den Lineage Explorer , um Datentransformationen und ihre Auswirkungen auf die Arbeitsabläufe zu verfolgen.
Datentransformationen mit dem Lineage Explorer analysieren
Nachdem Sie das Dataset vorbereitet haben, analysieren Sie die Auswirkungen der Datentransformation auf dem Tab Herkunft in BigQuery.
Datenintegrität prüfen
In diesem Beispiel untersuchen Sie die Spalte medicare_participation_indicator, die angibt, ob ein Arzt oder Lieferant bereit ist, Dienste für Medicare anzubieten. Das Herkunftsdiagramm zeigt, wie Datentransformationen zwischen den abgeleiteten Tabellen zu Änderungen des Datentyps der Spalte führen:
- Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
- Suchen Sie im Suchfeld nach der Tabelle
physicians_and_other_supplier_2012_original. - Klicken Sie auf den Tab Herkunft.
- Führen Sie im Bereich Lineage Explorer folgende Schritte aus:
- Wählen Sie im Abschnitt Herkunft auf Spaltenebene den Spaltennamen
medicare_participation_indicatoraus der Liste aus. - Wählen Sie im Abschnitt Richtung die Richtung Nachgelagert aus.
- Klicken Sie auf Übernehmen.
- Wählen Sie im Abschnitt Herkunft auf Spaltenebene den Spaltennamen
- Maximieren Sie den Herkunftspfad bis zu
vertex_ai_model_final_features. Analysieren Sie die Pfadänderungen zwischen der Tabelle
supplier_stg3und der Tabellesupplier_transform1:
Visualisierung der Herkunftsverfolgung für die Spalte medicare_participation_indicator- Die Pfadmarkierung Exakte Kopie gibt an, dass die Spalte unverändert weitergegeben wird.
- Die Pfadmarkierung Sonstiges gibt eine Transformation an. In diesem Pfad wird der Datentyp
StringwieBooleanbehandelt.
Der Pfad zeigt, dass sich die Datentypen der Spalten ändern, was möglicherweise Anpassungen in den Arbeitsabläufen erfordert, in denen diese Tabellen verwendet werden.
Redundante Spalten identifizieren
In diesem Beispiel wird die Spalte nppes_credentials untersucht, in der die National Provider Identifiers aufgeführt sind, die die Ärzte und Lieferanten im National Plan and Provider Enumeration System (NPPES) haben:
- Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
- Suchen Sie im Suchfeld nach der Tabelle
physicians_and_other_supplier_2012_original. - Klicken Sie auf den Tab Herkunft.
- Führen Sie im Bereich Lineage Explorer folgende Schritte aus:
- Wählen Sie im Abschnitt Herkunft auf Spaltenebene den Spaltennamen
nppes_credentialsaus der Liste aus. - Wählen Sie im Abschnitt Richtung die Richtung Nachgelagert aus.
- Klicken Sie auf Übernehmen.
- Wählen Sie im Abschnitt Herkunft auf Spaltenebene den Spaltennamen
- Maximieren Sie den Pfad, um zu prüfen, ob eine nachgelagerte Herkunft zu
vertex_ai_model_final_featuresführt.
Wenn keine Herkunft vorhanden ist, ist diese Spalte in diesem Arbeitsablauf möglicherweise nicht relevant und kann sogar gelöscht werden.
Weitere Informationen zum Visualisieren von Daten mit einem Herkunftsdiagramm finden Sie unter Herkunftsdiagramm ansehen.