Auswirkungen von Datenänderungen auf Arbeitsabläufe analysieren

In diesem Szenario verwalten Sie eine Datenbank, in der Datensätze zur Nutzung verschiedener Dienste eines Gesundheitsdienstleisters gespeichert sind. Um die Daten einfacher verwenden zu können, durchsuchen Sie die Tabellen nach potenziellen Änderungen. Bevor Sie die Änderungen implementieren, prüfen Sie, ob sich Verbesserungen auf vorhandene Arbeitsabläufe auswirken und ob zusätzliche Anpassungen erforderlich sind.

In dieser Anleitung verwenden Sie die Datenherkunft, um zu ermitteln, wie sich Datentransformationen auf nachgelagerte Ressourcen und die Arbeitsabläufe auswirken, zu denen die Ressourcen gehören.

Jetzt starten

Um den Anwendungsfall abzuschließen, richten Sie zuerst die Umgebung ein und führen Sie die Datentransformationen aus. Auf der Seite Voraussetzungen und Einrichtung können Sie ein Remote-Repository mit Dataform verbinden. Dieses Repository enthält den Code, der zum Einrichten des Datasets und zum Transformieren der Daten erforderlich ist.

Nachdem Sie die Umgebung eingerichtet haben, verwenden Sie BigQuery und den Lineage Explorer , um Datentransformationen und ihre Auswirkungen auf die Arbeitsabläufe zu verfolgen.

Datentransformationen mit dem Lineage Explorer analysieren

Nachdem Sie das Dataset vorbereitet haben, analysieren Sie die Auswirkungen der Datentransformation auf dem Tab Herkunft in BigQuery.

Datenintegrität prüfen

In diesem Beispiel untersuchen Sie die Spalte medicare_participation_indicator, die angibt, ob ein Arzt oder Lieferant bereit ist, Dienste für Medicare anzubieten. Das Herkunftsdiagramm zeigt, wie Datentransformationen zwischen den abgeleiteten Tabellen zu Änderungen des Datentyps der Spalte führen:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
  2. Suchen Sie im Suchfeld nach der Tabelle physicians_and_other_supplier_2012_original.
  3. Klicken Sie auf den Tab Herkunft.
  4. Führen Sie im Bereich Lineage Explorer folgende Schritte aus:
    1. Wählen Sie im Abschnitt Herkunft auf Spaltenebene den Spaltennamen medicare_participation_indicator aus der Liste aus.
    2. Wählen Sie im Abschnitt Richtung die Richtung Nachgelagert aus.
    3. Klicken Sie auf Übernehmen.
  5. Maximieren Sie den Herkunftspfad bis zu vertex_ai_model_final_features.
  6. Analysieren Sie die Pfadänderungen zwischen der Tabelle supplier_stg3 und der Tabelle supplier_transform1:

    Lineage-Tracking für die Spalte „medicare_participation_indicator“
    Visualisierung der Herkunftsverfolgung für die Spalte medicare_participation_indicator
    • Die Pfadmarkierung Exakte Kopie gibt an, dass die Spalte unverändert weitergegeben wird.
    • Die Pfadmarkierung Sonstiges gibt eine Transformation an. In diesem Pfad wird der Datentyp String wie Boolean behandelt.

Der Pfad zeigt, dass sich die Datentypen der Spalten ändern, was möglicherweise Anpassungen in den Arbeitsabläufen erfordert, in denen diese Tabellen verwendet werden.

Redundante Spalten identifizieren

In diesem Beispiel wird die Spalte nppes_credentials untersucht, in der die National Provider Identifiers aufgeführt sind, die die Ärzte und Lieferanten im National Plan and Provider Enumeration System (NPPES) haben:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
  2. Suchen Sie im Suchfeld nach der Tabelle physicians_and_other_supplier_2012_original.
  3. Klicken Sie auf den Tab Herkunft.
  4. Führen Sie im Bereich Lineage Explorer folgende Schritte aus:
    1. Wählen Sie im Abschnitt Herkunft auf Spaltenebene den Spaltennamen nppes_credentials aus der Liste aus.
    2. Wählen Sie im Abschnitt Richtung die Richtung Nachgelagert aus.
    3. Klicken Sie auf Übernehmen.
  5. Maximieren Sie den Pfad, um zu prüfen, ob eine nachgelagerte Herkunft zu vertex_ai_model_final_features führt.

Wenn keine Herkunft vorhanden ist, ist diese Spalte in diesem Arbeitsablauf möglicherweise nicht relevant und kann sogar gelöscht werden.

Weitere Informationen zum Visualisieren von Daten mit einem Herkunftsdiagramm finden Sie unter Herkunftsdiagramm ansehen.