In questo scenario, gestisci un progetto BigQuery con set di dati derivati dal censimento trimestrale di occupazione e salari (QCEW). Il progetto contiene numerose tabelle e viste per varie dashboard e analisi, come il monitoraggio delle tendenze occupazionali o i confronti salariali. Di conseguenza, i costi di archiviazione aumentano. Per ridurre i costi, identifichi le tabelle o le viste che non vengono utilizzate attivamente come origini per job o asset in BigQuery, rendendole candidate all'eliminazione.
Utilizza la derivazione dei dati per identificare gli asset che non vengono utilizzati come origine da altri job BigQuery. Controllando ogni asset per i link downstream, contrassegna sistematicamente le risorse inutilizzate per l'eliminazione al fine di ridurre i costi di archiviazione.
Inizia
Per completare il caso d'uso, configura prima l'ambiente ed esegui le trasformazioni dei dati. Utilizza la pagina dei prerequisiti e della configurazione per collegare un repository remoto a Dataform. Questo repository contiene il codice necessario per configurare il set di dati e trasformare i dati.
Dopo aver completato la configurazione dell'ambiente, utilizza BigQuery e Lineage Explorer per identificare visivamente gli asset senza dipendenze downstream.
Identificare gli asset inutilizzati con Lineage Explorer
Dopo aver preparato il set di dati, identifica gli asset che non hanno dipendenze downstream. Anche se puoi farlo visivamente per le singole tabelle, puoi anche utilizzare un approccio programmatico per i set di dati più grandi.
In questo esempio, confronta gli asset attivi con gli asset autonomi per determinare quali possono essere rimossi in sicurezza:
- Nella Google Cloud console, vai alla pagina BigQuery.
- Utilizza il campo di ricerca per trovare una tabella autonoma (ad esempio, una vecchia tabella di analisi di un anno specifico).
- Fai clic sulla scheda Derivazione.
- Nel riquadro Lineage Explorer, segui questi passaggi:
- Nella sezione Direzione, seleziona la direzione Downstream.
- Fai clic su Applica.
Osserva il grafico. Se non sono presenti nodi downstream, l'asset non viene utilizzato come origine per altri job BigQuery monitorati. Per ulteriori informazioni sulla visualizzazione dei dati con il grafico di derivazione dei dati, consulta Visualizzazione del grafico di derivazione.