Introduzione al caricamento, alla trasformazione e all'esportazione dei dati
Questo documento descrive gli approcci di integrazione dei dati per caricare e trasformare i dati in BigQuery utilizzando i processi di estrazione, caricamento e trasformazione (ELT) o di estrazione, trasformazione e caricamento (ETL). Descrive anche l'esportazione dei dati da BigQuery per applicare gli insight in altri sistemi, nota come ETL inverso.
Scegliere tra ELT ed ETL
È normale trasformare i dati prima o dopo averli caricati in BigQuery. Una decisione fondamentale è se trasformare i dati prima di caricarli in BigQuery (approccio di estrazione, trasformazione e caricamento o ETL) o caricare i dati non elaborati in BigQuery ed eseguire le trasformazioni utilizzando BigQuery (approccio di estrazione, caricamento e trasformazione o ELT).
Il seguente grafico mostra le varie opzioni per l'integrazione dei dati in BigQuery, utilizzando ELT o ETL.
In generale, consigliamo l'approccio ELT alla maggior parte dei clienti. Il flusso di lavoro ELT suddivide l'integrazione dei dati complessa in due parti gestibili: estrazione e caricamento, quindi trasformazione. Gli utenti possono scegliere tra una varietà di metodi di caricamento dei dati adatti alle loro esigenze. Una volta caricati i dati in BigQuery, gli utenti che conoscono SQL possono sviluppare pipeline di trasformazione con strumenti come Dataform.
Le sezioni seguenti descrivono in dettaglio ogni flusso di lavoro.
Caricamento e trasformazione dei dati
È normale trasformare i dati prima o dopo averli caricati in BigQuery. Le due strategie comuni per l'integrazione dei dati, ETL ed ELT, sono descritte nelle sezioni seguenti.
Approccio di integrazione dei dati ELT
Con l'approccio di estrazione, caricamento e trasformazione (ELT), esegui l'integrazione dei dati in due passaggi distinti:
- Estrai e carica i dati
- Trasforma i dati
Ad esempio, puoi estrarre e caricare i dati da un'origine file JSON in una tabella BigQuery. Poi, puoi utilizzare le pipeline per estrarre e trasformare i campi nelle tabelle di destinazione.
L'approccio ELT può semplificare il flusso di lavoro di integrazione dei dati nei seguenti modi:
- Elimina la necessità di altri strumenti di elaborazione dei dati
- Suddivide il processo di integrazione dei dati, spesso complesso, in due parti gestibili
- Utilizza appieno le funzionalità di BigQuery per preparare, trasformare e ottimizzare i dati su larga scala
Estrarre e caricare i dati
Nell'approccio di integrazione dei dati ELT, estrai i dati da un'origine dati e li carichi in BigQuery utilizzando uno dei metodi supportati per caricare o accedere ai dati esterni.
Trasformare i dati in BigQuery
Dopo aver caricato i dati in BigQuery, puoi prepararli e trasformarli con i seguenti strumenti:
- Per creare, testare, documentare e pianificare in modo collaborativo pipeline di trasformazione dei dati SQL avanzate , utilizza Dataform.
- Per flussi di lavoro di trasformazione dei dati più piccoli che eseguono codice SQL, notebook Python o preparazioni dei dati in base a una pianificazione, utilizza le pipeline BigQuery.
- Per pulire i dati per l'analisi, utilizza la preparazione dei dati con AI-augmented .
Ognuno di questi strumenti è basato sull' API Dataform.
Per ulteriori informazioni, consulta la sezione Introduzione alle trasformazioni.
Approccio di integrazione dei dati ETL
Nell'approccio di estrazione, trasformazione e caricamento (ETL), estrai e trasformi i dati prima che raggiungano BigQuery. Questo approccio è utile se hai già un processo di trasformazione dei dati o se vuoi ridurre l'utilizzo delle risorse in BigQuery.
Cloud Data Fusion può aiutarti a semplificare il processo ETL. BigQuery funziona anche con partner di terze parti che trasformano e caricano i dati in BigQuery.
Esportare i dati
Dopo aver elaborato e analizzato i dati in BigQuery, puoi esportare i risultati per applicarli in altri sistemi. BigQuery supporta le seguenti esportazioni:
- Esportazione dei risultati delle query in un file locale, Google Drive, Fogli Google
- Esportazione di tabelle o risultati di query in Cloud Storage, Bigtable, Spanner, AlloyDB per PostgreSQL e Pub/Sub
Questo processo è noto come ETL inverso.
Per ulteriori informazioni, consulta la sezione Introduzione all'esportazione dei dati in BigQuery.
Passaggi successivi
- Scopri di più sul caricamento dei dati in BigQuery.
- Scopri di più sulla trasformazione dei dati in BigQuery.
- Scopri di più sull'esportazione dei dati in BigQuery.