In questo scenario, gestisci un database che memorizza i record relativi all'utilizzo di vari servizi forniti da un fornitore di servizi sanitari. Per semplificare l'utilizzo dei dati, puoi sfogliare le tabelle per identificare potenziali modifiche. Prima di implementare le modifiche, identifica se eventuali miglioramenti influiscono sui flussi di lavoro esistenti e se sono necessari ulteriori aggiustamenti.
In questo tutorial, utilizza la derivazione dei dati per identificare in che modo le trasformazioni dei dati influiscono sulle risorse downstream e sui workflow di cui fanno parte le risorse.
Inizia
Per completare il caso d'uso, configura prima l'ambiente ed esegui le trasformazioni dei dati. Utilizza la pagina Prerequisiti e configurazione per connettere un repository remoto a Dataform. Questo repository contiene il codice necessario per configurare il set di dati e trasformare i dati.
Dopo aver completato la configurazione dell'ambiente, utilizza BigQuery e Lineage Explorer per monitorare le trasformazioni dei dati e il loro effetto sui flussi di lavoro.
Analizzare le trasformazioni dei dati con Esplora lineage
Dopo aver preparato il set di dati, analizza l'impatto della trasformazione dei dati utilizzando la scheda Lignaggio di BigQuery.
Verificare l'integrità dei dati
In questo esempio, esamina la colonna medicare_participation_indicator che indica se un medico o un fornitore accetta di fornire servizi per Medicare. Il grafico della derivazione mostra in che modo le trasformazioni dei dati tra le tabelle derivate comportano modifiche al tipo di dati delle colonne:
- Nella console Google Cloud , vai alla pagina BigQuery.
- Utilizza il campo di ricerca per trovare la tabella
physicians_and_other_supplier_2012_original. - Fai clic sulla scheda Lignaggio.
- Nel riquadro Explorer della derivazione, segui questi passaggi:
- Nella sezione Derivazione a livello di colonna, seleziona il nome della colonna
medicare_participation_indicatordall'elenco. - Nella sezione Direzione, seleziona la direzione A valle.
- Fai clic su Applica.
- Nella sezione Derivazione a livello di colonna, seleziona il nome della colonna
- Espandi il percorso della derivazione fino a raggiungere
vertex_ai_model_final_features. Analizza le modifiche del percorso tra la tabella
supplier_stg3e la tabellasupplier_transform1:
Visualizzazione del monitoraggio della derivazione per la colonna medicare_participation_indicator- Il contrassegno del percorso Copia esatta indica che la colonna viene passata senza modifiche.
- Il contrassegno del percorso Altro indica una trasformazione. In questo percorso, il tipo di dati
Stringviene trattato comeBoolean.
Il percorso mostra che i tipi di dati delle colonne cambiano, il che potrebbe richiedere modifiche nei flussi di lavoro che utilizzano queste tabelle.
Identificare le colonne ridondanti
Questo esempio esamina la colonna nppes_credentials che elenca gli identificatori nazionali dei fornitori detenuti dai professionisti nel National Plan and Provider Enumeration System (NPPES):
- Nella console Google Cloud , vai alla pagina BigQuery.
- Utilizza il campo di ricerca per trovare la tabella
physicians_and_other_supplier_2012_original. - Fai clic sulla scheda Lignaggio.
- Nel riquadro Explorer della derivazione, segui questi passaggi:
- Nella sezione Derivazione a livello di colonna, seleziona il nome della colonna
nppes_credentialsdall'elenco. - Nella sezione Direzione, seleziona la direzione A valle.
- Fai clic su Applica.
- Nella sezione Derivazione a livello di colonna, seleziona il nome della colonna
- Espandi il percorso per verificare se esiste una derivazione a valle che porta a
vertex_ai_model_final_features.
Nessuna derivazione significa che questa colonna potrebbe non essere pertinente in questo particolare flusso di lavoro e può anche essere eliminata.
Per ulteriori informazioni sulla visualizzazione dei dati con il grafico della derivazione dei dati, vedi Visualizzazione del grafico della derivazione.