Introduzione al caricamento dei dati
Questo documento spiega come caricare i dati in BigQuery. I due approcci comuni all'integrazione dei dati sono l'estrazione, il caricamento e la trasformazione (ELT) o l'estrazione, la trasformazione e il caricamento (ETL) dei dati.
Per una panoramica degli approcci ELT ed ETL, consulta Introduzione al caricamento, alla trasformazione e all'esportazione dei dati.
Metodi di caricamento o accesso a dati esterni
Nella pagina BigQuery, nella finestra di dialogo Aggiungi dati, puoi visualizzare tutti i metodi disponibili per caricare i dati in BigQuery o accedere ai dati da BigQuery. Scegli una delle seguenti opzioni in base al tuo caso d'uso e alle origini dati:
| Metodo di caricamento | Descrizione |
|---|---|
| Caricamento batch | Questo metodo è adatto per il caricamento batch di grandi volumi di dati da una
varietà di origini. Per il caricamento batch o incrementale dei dati da Cloud Storage e da altre origini dati supportate, ti consigliamo di utilizzare il BigQuery Data Transfer Service. Con BigQuery Data Transfer Service, per automatizzare le pipeline di caricamento dei dati in BigQuery, puoi pianificare i job di caricamento. Puoi pianificare trasferimenti di dati una tantum o batch a intervalli regolari (ad esempio giornalieri o mensili). Per assicurarti che i dati di BigQuery siano sempre aggiornati, puoi monitorare e registrare i trasferimenti. Per un elenco delle origini dati supportate da BigQuery Data Transfer Service, consulta Origini dati supportate. |
| Caricamento in streaming | Questo metodo consente di caricare i dati quasi in tempo reale dai sistemi di messaggistica
sistemi. Per inserire flussi di dati in BigQuery, puoi utilizzare una sottoscrizione BigQuery in Pub/Sub. Pub/Sub è in grado di gestire un throughput elevato di caricamento dei dati in BigQuery. Supporta lo streaming di dati in tempo reale, caricando i dati man mano che vengono generati. Per saperne di più, consulta Sottoscrizioni BigQuery. |
| Change Data Capture (CDC) | Questo metodo consente di replicare i dati dai database a
BigQuery quasi in tempo reale. Datastream può trasmettere dati dai database ai dati di BigQuery con una replica quasi in tempo reale. Datastream sfrutta le funzionalità CDC per monitorare e replicare le modifiche a livello di riga dalle origini dati. Per un elenco delle origini dati supportate da Datastream, consulta Origini. |
| Federazione a origini dati esterne | Questo metodo consente di accedere ai dati esterni senza caricarli
in BigQuery. BigQuery supporta l'accesso a origini dati esterne selezionate tramite Cloud Storage e query federate. Il vantaggio di questo metodo è che non devi caricare i dati prima di trasformarli per un utilizzo successivo. Puoi eseguire la trasformazione eseguendo SELECT istruzioni sui dati esterni. |
Puoi anche utilizzare i seguenti metodi programmatici per caricare i dati:
| Metodo di caricamento | Descrizione |
|---|---|
| Caricamento batch | Puoi caricare i dati da Cloud Storage o
da un file locale creando un job di caricamento. Se i dati di origine cambiano di rado o non hai bisogno di risultati aggiornati continuamente, i job di caricamento possono essere un modo meno costoso e meno intensivo di risorse per caricare i dati in BigQuery. I dati caricati possono essere in formato Avro, CSV, JSON, ORC o Parquet. Per creare il job di caricamento, puoi anche utilizzare l' LOAD DATA SQL
statement.Anche i sistemi open source più diffusi, come Spark e vari partner ETL, supportano il caricamento batch dei dati in BigQuery. Per ottimizzare il caricamento batch nelle tabelle ed evitare di raggiungere il limite di caricamento giornaliero, consulta Ottimizzare i job di caricamento. |
| Caricamento in streaming | Se devi supportare origini dati di streaming personalizzate o pre-elaborare
i dati prima di inserirli in streaming con una velocità effettiva elevata in
BigQuery, utilizza Dataflow. Per saperne di più sul caricamento da Dataflow a BigQuery, consulta Scrivere da Dataflow a BigQuery. Puoi anche utilizzare direttamente l'API BigQuery Storage Write. Per ottimizzare lo streaming nelle tabelle ed evitare di raggiungere il limite di caricamento giornaliero, consulta Ottimizzare i job di caricamento. |
Cloud Data Fusion può aiutarti a semplificare il processo ETL. BigQuery funziona anche con partner di terze parti che trasformano e caricano i dati in BigQuery.
BigQuery consente di creare connessioni esterne per eseguire query sui dati archiviati al di fuori di BigQuery in servizi come Cloud Storage o Spanner o in origini di terze parti come Amazon Web Services (AWS) o Microsoft Azure. Google Cloud Queste connessioni esterne utilizzano l'API BigQuery Connection. Per saperne di più, consulta Introduzione alle connessioni.
Altri modi per acquisire dati
Puoi eseguire query sui dati senza caricarli in BigQuery. Le sezioni seguenti descrivono alcune alternative.
L'elenco seguente descrive alcune delle alternative:
Eseguire query su dati pubblici
I set di dati pubblici sono set di dati archiviati in BigQuery e condivisi con il pubblico. Per saperne di più, consulta Set di dati pubblici di BigQuery.
Eseguire query su dati condivisi
Per eseguire query su un set di dati BigQuery che qualcuno ha condiviso con te, consulta Introduzione a BigQuery sharing (in precedenza Analytics Hub). La condivisione è una piattaforma di scambio di dati che consente la condivisione dei dati.
Eseguire query con i dati di log
Puoi eseguire query sui log senza creare job di caricamento aggiuntivi:
Cloud Logging consente di instradare i log a una destinazione BigQuery.
Observability Analytics consente di eseguire query che analizzano i dati di log.
Passaggi successivi
- Scopri come preparare i dati con Gemini in BigQuery.
- Scopri di più sulla trasformazione dei dati con Dataform.
- Scopri di più sul monitoraggio dei job di caricamento nell' explorer dei job e nelle metriche di BigQuery.