Introduzione al caricamento dei dati
Questo documento spiega come caricare i dati in BigQuery. I due approcci comuni all'integrazione dei dati sono l'estrazione, il caricamento e la trasformazione (ELT) o l'estrazione, la trasformazione e il caricamento (ETL) dei dati.
Per una panoramica degli approcci ELT ed ETL, vedi Introduzione al caricamento, alla trasformazione e all'esportazione dei dati.
Metodi di caricamento o accesso ai dati esterni
Nella pagina BigQuery, nella finestra di dialogo Aggiungi dati, puoi visualizzare tutti i metodi disponibili per caricare i dati in BigQuery o accedere ai dati da BigQuery. Scegli una delle seguenti opzioni in base al caso d'uso e alle origini dati:
| Metodo di caricamento | Descrizione |
|---|---|
| Caricamento in batch | Questo metodo è adatto per il caricamento batch di grandi volumi di dati da
una varietà di origini. Per il caricamento collettivo o incrementale dei dati da Cloud Storage e altre origini dati supportate, ti consigliamo di utilizzare BigQuery Data Transfer Service. Con BigQuery Data Transfer Service, per automatizzare le pipeline di caricamento dei dati in BigQuery, puoi pianificare i job di caricamento. Puoi pianificare trasferimenti di dati una tantum o batch a intervalli regolari (ad esempio, giornalieri o mensili). Per assicurarti che i dati BigQuery siano sempre aggiornati, puoi monitorare e registrare i trasferimenti. Per un elenco delle origini dati supportate da BigQuery Data Transfer Service, vedi Origini dati supportate. |
| Carico di streaming | Questo metodo consente di caricare i dati quasi in tempo reale dai sistemi di messaggistica. Per trasmettere dati in streaming a BigQuery, puoi utilizzare una sottoscrizione BigQuery in Pub/Sub. Pub/Sub può gestire un elevato throughput di caricamenti di dati in BigQuery. Supporta lo streaming di dati in tempo reale, caricando i dati man mano che vengono generati. Per ulteriori informazioni, vedi Sottoscrizioni BigQuery. |
| Change Data Capture (CDC) | Questo metodo consente di replicare i dati dai database a
BigQuery quasi in tempo reale. Datastream può trasmettere dati dai database a BigQuery con una replica quasi in tempo reale. Datastream sfrutta le funzionalità CDC per monitorare e replicare le modifiche a livello di riga dalle origini dati. Per un elenco delle origini dati supportate da Datastream, consulta Origini. |
| Federazione a origini dati esterne | Questo metodo consente l'accesso a dati esterni senza caricarli
in BigQuery. BigQuery supporta l'accesso a determinate origini dati esterne tramite Cloud Storage e query federate. Il vantaggio di questo metodo è che non devi caricare i dati prima di trasformarli per un utilizzo successivo. Puoi eseguire la trasformazione eseguendo istruzioni SELECT sui dati esterni. |
Puoi anche utilizzare i seguenti metodi programmatici per caricare i dati:
| Metodo di caricamento | Descrizione |
|---|---|
| Caricamento in batch | Puoi caricare i dati da Cloud Storage o da un file locale creando un job di caricamento. Se i dati di origine cambiano di rado o non hai bisogno di risultati aggiornati di continuo, i job di caricamento possono essere un modo meno costoso e meno intensivo di risorse per caricare i dati in BigQuery. I dati caricati possono essere in formato Avro, CSV, JSON, ORC o Parquet. Per creare il job di caricamento, puoi anche utilizzare l'istruzione SQL LOAD DATA.Anche i sistemi open source più diffusi, come Spark e vari partner ETL, supportano il caricamento batch dei dati in BigQuery. Per ottimizzare il caricamento batch nelle tabelle ed evitare di raggiungere il limite di caricamento giornaliero, consulta Ottimizzare i job di caricamento. |
| Carico di streaming | Se devi supportare origini di dati di streaming personalizzate o preelaborare
i dati prima di trasmetterli in streaming con un throughput elevato in
BigQuery, utilizza Dataflow. Per ulteriori informazioni sul caricamento da Dataflow a BigQuery, consulta Scrittura da Dataflow a BigQuery. Puoi anche utilizzare direttamente l'API BigQuery Storage Write. Per ottimizzare lo streaming nelle tabelle ed evitare di raggiungere il limite di caricamento giornaliero, consulta Ottimizzare i job di caricamento. |
Cloud Data Fusion può aiutarti a semplificare il processo ETL. BigQuery funziona anche con partner di terze parti che trasformano e caricano i dati in BigQuery.
BigQuery consente di creare connessioni esterne per eseguire query sui dati archiviati al di fuori di BigQuery in servizi come Cloud Storage o Spanner o in origini di terze parti come Amazon Web Services (AWS) o Microsoft Azure. Google Cloud Queste connessioni esterne utilizzano l'API BigQuery Connection. Per saperne di più, vedi Introduzione alle connessioni.
Altri modi per acquisire dati
Puoi eseguire query sui dati senza caricarli personalmente in BigQuery. Nelle sezioni seguenti vengono descritte alcune alternative.
L'elenco seguente descrive alcune delle alternative:
Eseguire query sui dati pubblici
I set di dati pubblici sono set di dati archiviati in BigQuery e condivisi con il pubblico. Per ulteriori informazioni, vedi Set di dati pubblici di BigQuery.
Eseguire query sui dati condivisi
Per eseguire query su un set di dati BigQuery che qualcuno ha condiviso con te, vedi Introduzione a BigQuery sharing (in precedenza Analytics Hub). Sharing è una piattaforma di scambio di dati che consente la condivisione dei dati.
Esegui query con i dati di log
Puoi eseguire query sui log senza creare ulteriori job di caricamento:
Cloud Logging ti consente di instradare i log a una destinazione BigQuery.
Analisi dei log consente di eseguire query che analizzano i dati di log.
Passaggi successivi
- Scopri come preparare i dati con Gemini in BigQuery.
- Scopri di più sulla trasformazione dei dati con Dataform.
- Scopri di più sul monitoraggio dei job di caricamento nell'explorer dei job amministrativi e nelle metriche BigQuery.