Panoramica dell'analisi di BigQuery
Questo documento descrive in che modo BigQuery elabora le query e fornisce una panoramica di diverse funzionalità utili per comprendere e analizzare i dati.
BigQuery è ottimizzato per eseguire query analitiche su set di dati di grandi dimensioni, inclusi terabyte di dati in pochi secondi e petabyte in pochi minuti. Comprendere le sue funzionalità e il modo in cui elabora le query può aiutarti a massimizzare i tuoi investimenti nell'analisi dei dati.
Workflow analitici
BigQuery supporta diversi workflow di analisi dei dati:
Analisi ad hoc. BigQuery utilizza GoogleSQL, il dialetto SQL in BigQuery, per supportare l'analisi ad hoc. Puoi eseguire query nella Google Cloud console o tramite strumenti di terze parti che si integrano con BigQuery.
Analisi geospaziale. BigQuery utilizza i tipi di dati geografici e le funzioni geografiche GoogleSQL per consentirti di analizzare e visualizzare i dati geospaziali. Per informazioni su questi tipi di dati e funzioni, consulta Introduzione all'analisi geospaziale.
Analisi dei grafici. BigQuery Graph ti consente di modellare i dati come un grafico con nodi e bordi. Puoi utilizzare Graph Query Language (GQL) per trovare relazioni complesse e nascoste tra i punti dati che sarebbero difficili da trovare utilizzando SQL.
Cerca dati. Puoi indicizzare i dati per eseguire ricerche flessibili e ottimizzate su testo non strutturato o dati JSON semistrutturati.
Cerca Google Cloud risorse. Utilizza la ricerca in linguaggio naturale (anteprima) per scoprire Google Cloud le risorse all'interno di BigQuery.
Machine learning. BigQuery ML utilizza le query GoogleSQL per consentirti di creare ed eseguire modelli di machine learning (ML) in BigQuery.
Business intelligence. BigQuery BI Engine è un servizio di analisi in-memory rapido che ti consente di creare dashboard e report avanzati interattivi senza compromettere prestazioni, scalabilità, sicurezza o aggiornamento dei dati.
Assistenza AI. Puoi utilizzare Gemini in BigQuery per preparare ed esplorare i dati, generare query SQL e codice Python e visualizzare i risultati.
Esplorazione dei dati
BigQuery può aiutarti a comprendere i dati prima di iniziare a scrivere query SQL. Utilizza le seguenti funzionalità se vuoi trovare dati, non hai familiarità con i dati, non sai quali domande porre o hai bisogno di aiuto per scrivere codice SQL:
Knowledge Catalog. Trova Google Cloud risorse all'interno di BigQuery, come set di dati e tabelle.
Esplora tabelle. Esplora visivamente l'intervallo e la frequenza dei valori nella tabella e crea query in modo interattivo.
Insight sui dati. Genera domande in linguaggio naturale sui dati, insieme alle query SQL per rispondere a queste domande.
Scansione di profilazione dei dati. Visualizza le caratteristiche statistiche dei dati, inclusi valori medi, univoci, massimi e minimi.
Data canvas. Esegui query sui dati utilizzando il linguaggio naturale, visualizza i risultati con i grafici e poni domande di follow-up.
Query
Il modo principale per analizzare i dati in BigQuery è eseguire una query SQL. Il dialetto GoogleSQL supporta SQL:2011 e include estensioni che supportano l'analisi geospaziale e il machine learning.
Origini dati
BigQuery consente di eseguire query sui seguenti tipi di origini dati:
Dati archiviati in BigQuery. Puoi caricare i dati in BigQuery, modificare i dati esistenti utilizzando le istruzioni del linguaggio di manipolazione dei dati (DML), o scrivere i risultati delle query in una tabella. Puoi eseguire query sui dati storici da un punto nel tempo all'interno della finestra di time travel.
Puoi eseguire query sui dati archiviati in località a singola regione o multi-regione. Una query che accede ai dati archiviati in più di una località può essere trattata come una query globale (anteprima). Le query che fanno riferimento ai dati in più località vengono sempre trattate come query globali, anche se una regione è una località a singola regione e l'altra è una località multi-regione che contiene la località a singola regione.
Dati esterni. Puoi eseguire query su varie origini dati esterne, come Cloud Storage o servizi di database come Spanner o Cloud SQL. Per informazioni su come configurare le connessioni a origini esterne, consulta Introduzione alle origini dati esterne
Dati multi-cloud. Puoi eseguire query sui dati archiviati in altri cloud pubblici, come AWS o Azure. Per informazioni su come configurare le connessioni a Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage, consulta Introduzione a BigQuery Omni.
Set di dati pubblici. Puoi analizzare uno qualsiasi de i set di dati disponibili ne l marketplace dei set di dati pubblici.
BigQuery sharing (in precedenza Analytics Hub). Puoi pubblicare e sottoscrivere set di dati BigQuery e argomenti Pub/Sub per condividere i dati oltre i confini organizzativi. Per ulteriori informazioni, consulta Introduzione a BigQuery sharing.
Tipi di query
Puoi eseguire query sui dati BigQuery utilizzando uno dei seguenti tipi di job di query:
Job di query interattivi. Per impostazione predefinita, BigQuery esegue le query come job di query interattivi, che hanno lo scopo di iniziare l'esecuzione il più rapidamente possibile.
Job di query batch. Le query batch hanno una priorità inferiore rispetto alle query interattive. Quando un progetto o una prenotazione utilizza tutte le risorse di calcolo disponibili, è più probabile che le query batch vengano messe in coda e rimangano in coda. Dopo l'avvio di una query batch, questa viene eseguita come una query interattiva. Per ulteriori informazioni, consulta le code di query.
Job di query continue. Con questi job, la query viene eseguita continuamente, consentendoti di analizzare i dati in entrata in BigQuery in tempo reale e quindi di scrivere i risultati in una tabella BigQuery o di esportarli in Bigtable o Pub/Sub. Puoi utilizzare questa funzionalità per eseguire attività sensibili al tempo, come creare e agire immediatamente sugli insight, applicare l'inferenza di machine learning (ML) in tempo reale e creare pipeline di dati basate su eventi.
Puoi eseguire job di query utilizzando i seguenti metodi:
- Componi ed esegui una query nella Google Cloud console.
- Esegui il comando
bq querynello strumento a riga di comando bq. - Chiama in modo programmatico il
jobs.queryo iljobs.insertmetodo nell'API REST BigQuery. - Utilizza le librerie client di BigQuery .
Query con più istruzioni
Puoi eseguire più istruzioni in sequenza, con stato condiviso, utilizzando query con più istruzioni. Le query con più istruzioni vengono spesso utilizzate nelle stored procedure e supportano le istruzioni del linguaggio procedurale, che consentono di definire le variabili e implementare il flusso di controllo.
Query salvate e condivise
BigQuery consente di salvare le query e condividerle con altri utenti.
Quando salvi una query, può essere privata (visibile solo a te), condivisa a livello di progetto (visibile a principal specifici) o pubblica (chiunque può visualizzarla). Per ulteriori informazioni, consulta Utilizzare le query salvate.
In che modo BigQuery elabora le query
Quando BigQuery esegue una query, si verificano diversi processi:
Albero di esecuzione. Quando esegui una query, BigQuery genera un albero di esecuzione che suddivide la query in fasi. Queste fasi contengono passaggi che possono essere eseguiti in parallelo.
Livello di riproduzione casuale. Le fasi comunicano tra loro utilizzando un livello di riproduzione casuale distribuito e veloce che archivia i dati intermedi prodotti dai worker di una fase. Quando possibile, il livello di riproduzione casuale sfrutta tecnologie come una rete petabit e la RAM per spostare rapidamente i dati ai nodi worker.
Piano di query. Quando BigQuery dispone di tutte le informazioni necessarie per eseguire una query, genera un piano di query. Puoi visualizzare il piano di query nella console Google Cloud e utilizzarlo per risolvere i problemi o ottimizzare le prestazioni delle query.
Grafico di esecuzione delle query. Puoi esaminare le informazioni del piano di query in formato grafico per qualsiasi query, in esecuzione o completata, e visualizzare gli insight sulle prestazioni per aiutarti a ottimizzare le query.
Monitoraggio delle query e pianificazione dinamica. Oltre ai worker che eseguono il lavoro del piano di query stesso, altri worker monitorano e dirigono l'avanzamento complessivo del lavoro in tutto il sistema. Man mano che la query procede, BigQuery potrebbe modificare dinamicamente il piano di query per adattarlo ai risultati delle varie fasi.
Risultati delle query. Al termine di una query, BigQuery scrive i risultati nell'archiviazione permanente e li restituisce all'utente. Questo design consente a BigQuery di erogare i risultati memorizzati nella cache la volta successiva che viene eseguita la query.
Concorrenza e prestazioni delle query
Le prestazioni delle query eseguite ripetutamente sugli stessi dati possono variare a causa della natura condivisa dell'ambiente BigQuery, dell'utilizzo dei risultati delle query memorizzati nella cache o perché BigQuery modifica dinamicamente il piano di query durante l'esecuzione della query. Per un sistema tipicamente occupato in cui vengono eseguite molte query contemporaneamente, BigQuery utilizza diversi processi per attenuare le variazioni nelle prestazioni delle query:
BigQuery esegue molte query in parallelo e può mettere in coda le query da eseguire quando le risorse sono disponibili.
Quando le query iniziano e terminano, BigQuery ridistribuisce le risorse in modo equo tra le query nuove e quelle in esecuzione. Questo processo garantisce che le prestazioni delle query non dipendano dall'ordine in cui vengono inviate, ma dal numero di query eseguite in un determinato momento.
Ottimizzazione delle query
Quando esegui una query, puoi
visualizzare il piano di query
nella Google Cloud console. Puoi anche richiedere i dettagli di esecuzione utilizzando
le
INFORMATION_SCHEMA.JOBS* viste
o il
jobs.get metodo dell'API REST.
Il piano di query include dettagli sulle fasi e sui passaggi della query. Questi dettagli possono aiutarti a identificare i modi per migliorare le prestazioni delle query. Ad esempio, se noti una fase che scrive molti più output rispetto ad altre fasi, potrebbe significare che devi filtrare prima nella query.
Per ulteriori informazioni sul piano di query e sull'ottimizzazione delle query, consulta le seguenti risorse:
- Per scoprire di più sul piano di query e vedere esempi di come le informazioni del piano possono aiutarti a migliorare le prestazioni delle query, consulta Piano di query e sequenza temporale.
- Per ulteriori informazioni sull'ottimizzazione delle query in generale, consulta Introduzione all'ottimizzazione delle prestazioni delle query.
Monitoraggio delle query
Il monitoraggio e la registrazione sono fondamentali per eseguire applicazioni affidabili nel cloud. I carichi di lavoro BigQuery non fanno eccezione, soprattutto se il carico di lavoro ha volumi elevati o è mission critical. BigQuery fornisce varie metriche, log e viste di metadati per aiutarti a monitorare l'utilizzo di BigQuery.
Per ulteriori informazioni, consulta le seguenti risorse:
- Per scoprire di più sulle opzioni di monitoraggio in BigQuery, consulta Introduzione al monitoraggio di BigQuery.
- Per scoprire di più sui log di audit e su come analizzare il comportamento delle query, consulta Log di audit di BigQuery.
Prezzi delle query
BigQuery offre due modelli di prezzo per l'analisi:
- Prezzi on demand. Paghi per i dati scansionati dalle query. Hai una capacità di elaborazione delle query fissa per ogni progetto e il costo si basa sul numero di byte elaborati.
- Prezzi basati sulla capacità. Acquisti una capacità di elaborazione delle query dedicata.
Per informazioni sui due modelli di prezzo e per scoprire di più sulla creazione di prenotazioni per i prezzi basati sulla capacità, consulta Introduzione alle prenotazioni.
Quote e controlli dei costi delle query
BigQuery applica quote a livello di progetto per l'esecuzione delle query. Per informazioni sulle quote delle query, consulta Quote e limiti.
Per controllare i costi delle query, BigQuery offre diverse opzioni, tra cui quote personalizzate e avvisi di fatturazione. Per ulteriori informazioni, consulta Creare controlli dei costi personalizzati.
Funzionalità di analisi dei dati
BigQuery supporta l'analisi descrittiva e predittiva e ti aiuta a esplorare i dati con strumenti basati sull'AI, SQL, machine learning, notebook e altre integrazioni di terze parti.
BigQuery Studio
BigQuery Studio ti aiuta a scoprire, analizzare ed eseguire l'inferenza sui dati in BigQuery con le seguenti funzionalità:
- Un editor SQL robusto che fornisce il completamento e la generazione del codice , la convalida delle query e la stima dei byte elaborati.
- Notebook Python incorporati creati utilizzando Colab Enterprise. Notebooks forniscono runtime di esecuzione di Python con un clic e supporto integrato per BigQuery DataFrames.
- Un editor PySpark che consente di creare stored procedure Python per Apache Spark.
- Gestione degli asset e cronologia delle versioni per gli asset di codice come notebook e query salvate, basati su Dataform.
- Sviluppo di codice assistito nell'editor SQL e nei notebook, basato su AI generativa di Gemini (anteprima).
- Funzionalità di Knowledge Catalog per l'individuazione dei dati, e scansioni di profilazione e qualità dei dati.
- Possibilità di visualizzare la cronologia dei job in base al singolo utente o al progetto.
- Possibilità di analizzare i risultati delle query salvate collegandosi ad altri strumenti come Looker e Fogli Google e di esportare i risultati delle query salvate per utilizzarli in altre applicazioni.
BigQuery ML
BigQuery ML consente di utilizzare SQL in BigQuery per eseguire machine learning (ML) e analisi predittiva. Per ulteriori informazioni, consulta Introduzione a BigQuery ML.
L'agente di analisi conversazionale ti consente di interagire con i dati utilizzando il linguaggio conversazionale. Questo agente è costituito da una o più origini dati e da un insieme di istruzioni specifiche per il caso d'uso per l'elaborazione di questi dati. L'analisi conversazionale supporta l'utilizzo di alcune funzioni di BigQuery ML.
Integrazione degli strumenti di analisi
Oltre a eseguire query in BigQuery, puoi analizzare i dati con vari strumenti di analisi e business intelligence che si integrano con BigQuery, ad esempio:
Looker. Looker è una piattaforma aziendale per business intelligence, applicazioni di dati e analisi incorporate. La piattaforma Looker funziona con molti datastore, tra cui BigQuery. Per informazioni su come connettere Looker a BigQuery, consulta Utilizzare Looker.
Looker Studio. Dopo aver eseguito una query, puoi avviare Looker Studio direttamente da BigQuery nella Google Cloud console. Poi, in Looker Studio puoi creare visualizzazioni ed esplorare i dati restituiti dalla query. Per informazioni su Looker Studio, consulta Panoramica di Looker Studio.
Fogli connessi. Puoi anche avviare Fogli connessi direttamente da BigQuery nella console. Fogli connessi esegue le query BigQuery per tuo conto su tua richiesta o in base a una pianificazione definita. I risultati di queste query vengono salvati nel foglio di lavoro per l'analisi e la condivisione. Per informazioni su Fogli connessi, consulta Utilizzare Fogli connessi.
Tableau. Puoi connetterti a un set di dati da Tableau. Utilizza BigQuery per alimentare grafici, dashboard e altre visualizzazioni di dati.
Integrazione di strumenti di terze parti
Diversi strumenti di analisi di terze parti funzionano con BigQuery. Ad esempio, puoi connettere Tableau ai dati BigQuery e utilizzare i suoi strumenti di visualizzazione per analizzare e condividere l'analisi. Per ulteriori informazioni sulle considerazioni da fare quando utilizzi strumenti di terze parti, consulta Integrazione di strumenti di terze parti.
Sono disponibili driver ODBC e JDBC che possono essere utilizzati per integrare l'applicazione con BigQuery. Lo scopo di questi driver è aiutare gli utenti a sfruttare la potenza di BigQuery con gli strumenti e l'infrastruttura esistenti. Per informazioni sull'ultima release e sui problemi noti, consulta Driver ODBC e JDBC per BigQuery.
Le librerie pandas come pandas-gbq consentono di interagire con i dati BigQuery nei notebook Jupyter. Per informazioni su questa
libreria e sul suo confronto con l'utilizzo della libreria client Python di BigQuery,
consulta
Confronto con pandas-gbq.
Puoi anche utilizzare BigQuery con altri notebook e strumenti di analisi. Per ulteriori informazioni, consulta Strumenti di analisi programmatici.
Per un elenco completo dei partner di dati e analisi di BigQuery e dei partner tecnologici, consulta l' elenco dei partner nella pagina del prodotto BigQuery.
Passaggi successivi
- Per un'introduzione e una panoramica delle istruzioni SQL supportate, consulta Introduzione a SQL in BigQuery.
- Per scoprire di più sulla sintassi GoogleSQL utilizzata per eseguire query sui dati in BigQuery, consulta Sintassi delle query in GoogleSQL.
- Scopri come eseguire una query in BigQuery.
- Scopri di più sull'ottimizzazione delle prestazioni delle query.
- Scopri come iniziare a utilizzare i notebook.
- Scopri come pianificare una query ricorrente.