Analizzare l'impatto delle modifiche ai dati sui workflow

In questo scenario, gestisci un database che memorizza i record relativi all'utilizzo di vari servizi forniti da un fornitore di servizi sanitari. Per semplificare l'utilizzo dei dati, puoi sfogliare le tabelle per identificare potenziali modifiche. Prima di implementare le modifiche, identifica se eventuali miglioramenti influiscono sui flussi di lavoro esistenti e se sono necessari ulteriori aggiustamenti.

In questo tutorial, utilizza la derivazione dei dati per identificare in che modo le trasformazioni dei dati influiscono sulle risorse downstream e sui workflow di cui fanno parte le risorse.

Inizia

Per completare il caso d'uso, configura prima l'ambiente ed esegui le trasformazioni dei dati. Utilizza la pagina Prerequisiti e configurazione per connettere un repository remoto a Dataform. Questo repository contiene il codice necessario per configurare il set di dati e trasformare i dati.

Dopo aver completato la configurazione dell'ambiente, utilizza BigQuery e Lineage Explorer per monitorare le trasformazioni dei dati e il loro effetto sui flussi di lavoro.

Analizzare le trasformazioni dei dati con Esplora lineage

Dopo aver preparato il set di dati, analizza l'impatto della trasformazione dei dati utilizzando la scheda Lignaggio di BigQuery.

Verificare l'integrità dei dati

In questo esempio, esamina la colonna medicare_participation_indicator che indica se un medico o un fornitore accetta di fornire servizi per Medicare. Il grafico della derivazione mostra in che modo le trasformazioni dei dati tra le tabelle derivate comportano modifiche al tipo di dati delle colonne:

  1. Nella console Google Cloud , vai alla pagina BigQuery.
  2. Utilizza il campo di ricerca per trovare la tabella physicians_and_other_supplier_2012_original.
  3. Fai clic sulla scheda Lignaggio.
  4. Nel riquadro Explorer della derivazione, segui questi passaggi:
    1. Nella sezione Derivazione a livello di colonna, seleziona il nome della colonna medicare_participation_indicator dall'elenco.
    2. Nella sezione Direzione, seleziona la direzione A valle.
    3. Fai clic su Applica.
  5. Espandi il percorso della derivazione fino a raggiungere vertex_ai_model_final_features.
  6. Analizza le modifiche del percorso tra la tabella supplier_stg3 e la tabella supplier_transform1:

    Monitoraggio della derivazione per la colonna medicare_participation_indicator
    Visualizzazione del monitoraggio della derivazione per la colonna medicare_participation_indicator
    • Il contrassegno del percorso Copia esatta indica che la colonna viene passata senza modifiche.
    • Il contrassegno del percorso Altro indica una trasformazione. In questo percorso, il tipo di dati String viene trattato come Boolean.

Il percorso mostra che i tipi di dati delle colonne cambiano, il che potrebbe richiedere modifiche nei flussi di lavoro che utilizzano queste tabelle.

Identificare le colonne ridondanti

Questo esempio esamina la colonna nppes_credentials che elenca gli identificatori nazionali dei fornitori detenuti dai professionisti nel National Plan and Provider Enumeration System (NPPES):

  1. Nella console Google Cloud , vai alla pagina BigQuery.
  2. Utilizza il campo di ricerca per trovare la tabella physicians_and_other_supplier_2012_original.
  3. Fai clic sulla scheda Lignaggio.
  4. Nel riquadro Explorer della derivazione, segui questi passaggi:
    1. Nella sezione Derivazione a livello di colonna, seleziona il nome della colonna nppes_credentials dall'elenco.
    2. Nella sezione Direzione, seleziona la direzione A valle.
    3. Fai clic su Applica.
  5. Espandi il percorso per verificare se esiste una derivazione a valle che porta a vertex_ai_model_final_features.

Nessuna derivazione significa che questa colonna potrebbe non essere pertinente in questo particolare flusso di lavoro e può anche essere eliminata.

Per ulteriori informazioni sulla visualizzazione dei dati con il grafico della derivazione dei dati, vedi Visualizzazione del grafico della derivazione.