Panoramica di BigQuery
BigQuery è una piattaforma di dati completamente gestita e pronta per l'AI che ti aiuta a gestire e analizzare i dati con funzionalità integrate come machine learning, ricerca, analisi geospaziale e business intelligence. L'architettura serverless di BigQuery ti consente di utilizzare linguaggi come SQL e Python per rispondere alle principali domande della tua organizzazione senza il bisogno di gestire alcuna infrastruttura.
BigQuery fornisce un modo uniforme per lavorare con dati strutturati e non strutturati e supporta formati di tabelle aperti come Apache Iceberg, Delta e Apache Hudi. Lo streaming di BigQuery supporta l'importazione continua dei dati e l'analisi, mentre il motore di analisi scalabile e distribuito di BigQuery ti consente di eseguire query su terabyte in pochi secondi e su petabyte in pochi minuti.
BigQuery offre funzionalità di governance integrate che ti consentono di scoprire e curare i dati, nonché di gestire i metadati e la qualità dei dati. Grazie a funzionalità come la ricerca semantica e la derivazione dei dati, puoi trovare e convalidare i dati pertinenti per l'analisi. Puoi condividere dati e asset AI nella tua organizzazione con i vantaggi del controllo dell'accesso. Queste funzionalità sono basate su Dataplex Universal Catalog, una soluzione di governance unificata e intelligente per i dati e gli asset AI in Google Cloud.L'architettura di BigQuery è composta da due parti: un livello di archiviazione che importa, archivia e ottimizza i dati e un livello di calcolo che fornisce funzionalità di analisi. Questi livelli di calcolo e archiviazione operano in modo efficiente e indipendente l'uno dall'altro grazie alla rete di petabit di Google che consente la comunicazione necessaria tra loro.
I database legacy di solito devono condividere le risorse tra le operazioni di lettura e scrittura e le operazioni analitiche. Ciò può comportare conflitti di risorse e rallentare le query durante la scrittura o la lettura dei dati dallo spazio di archiviazione. I pool di risorse condivise possono essere ulteriormente messi a dura prova quando sono necessarie risorse per le attività di gestione di database, come l'assegnazione o la revoca delle autorizzazioni. La separazione dei livelli di calcolo e archiviazione di BigQuery consente a ogni livello di allocare dinamicamente le risorse senza influire sulle prestazioni o sulla disponibilità dell'altro.
Questo principio di separazione consente a BigQuery di innovare più rapidamente, perché i miglioramenti dello spazio di archiviazione e del calcolo possono essere implementati in modo indipendente, senza tempi di inattività o impatti negativi sulle prestazioni del sistema. È inoltre essenziale per offrire un data warehouse serverless completamente gestito in cui il team di ingegneri di BigQuery gestisce gli aggiornamenti e la manutenzione. Di conseguenza, non devi eseguire il provisioning o scalare manualmente le risorse, ma puoi concentrarti sulla fornitura di valore anziché sulle attività di gestione dei database tradizionali.
Le interfacce di BigQuery includono Google Cloud console interfaccia e lo strumento a riga di comando di BigQuery. Sviluppatori e data scientist possono utilizzare le librerie client con linguaggi di programmazione familiari, tra cui Python, Java, JavaScript e Go, nonché l'API REST e l'API RPC di BigQuery per trasformare e gestire i dati. I driver ODBC e JDBC forniscono l'interazione con le applicazioni esistenti, inclusi strumenti e utilità di terze parti.
In qualità di analista di dati, data engineer, amministratore di data warehouse o data scientist, BigQuery ti aiuta a caricare, elaborare e analizzare i dati per prendere decisioni aziendali fondamentali.
Inizia a utilizzare BigQuery
Puoi iniziare a esplorare BigQuery in pochi minuti. Sfrutta il livello di utilizzo senza costi di BigQuery o la sandbox senza costi aggiuntivi per iniziare a caricare ed eseguire query sui dati.
- Sandbox di BigQuery: inizia a utilizzare la sandbox di BigQuery senza rischi e senza costi aggiuntivi.
- Set di dati pubblici: scopri le prestazioni di BigQuery esplorando i dati reali di grandi dimensioni del programma per i set di dati pubblici.
- Google Cloud console guida rapida: familiarizza con la potenza di BigQuery Studio.
Esplora BigQuery
L'infrastruttura serverless di BigQuery ti consente di concentrarti sui dati anziché sulla gestione delle risorse. BigQuery combina un data warehouse basato su cloud e potenti strumenti di analisi.
Spazio di archiviazione BigQuery
BigQuery archivia i dati utilizzando un formato di archiviazione a colonne ottimizzato per le query analitiche. BigQuery presenta i dati in tabelle, righe e colonne e fornisce il supporto completo per la semantica delle transazioni di database (ACID). Lo spazio di archiviazione di BigQuery viene replicato automaticamente in più località per fornire una disponibilità elevata.
- Scopri i pattern comuni per organizzare le risorse BigQuery nel data warehouse e nei data mart.
- Scopri di più sui set di dati, il container di primo livello di tabelle e viste di BigQuery.
- BigQuery Data Transfer Service automatizza importazione dati.
- Carica i dati in BigQuery utilizzando:
- Esegui lo streaming dei dati con l' API Storage Write.
- Carica in batch i dati da file locali o Cloud Storage utilizzando formati che includono: Avro, Parquet, ORC, CSV, JSON, Datastore, e Firestore formati.
Per ulteriori informazioni, vedi Panoramica dello spazio di archiviazione di BigQuery.
Analisi di BigQuery
Gli utilizzi dell'analisi descrittiva e prescrittiva includono business intelligence, analisi ad hoc, analisi geospaziale e machine learning. Puoi eseguire query sui dati archiviati in BigQuery o eseguire query sui dati nella posizione in cui si trovano utilizzando tabelle esterne o query federate, inclusi Cloud Storage, Bigtable, Spanner o Fogli Google archiviati in Google Drive.
- Query SQL standard ANSI (supporto ISO/IEC 9075) incluso il supporto per join, campi nidificati e ripetuti, funzioni di analisi e aggregazione, query con più istruzioni e una varietà di funzioni spaziali con analisi geospaziale - Sistemi informativi geografici.
- Crea viste per condividere le tue analisi.
- Supporto per gli strumenti di business intelligence, tra cui BI Engine con Looker Studio, Looker, Fogli Google, e strumenti di terze parti come Tableau e Power BI.
- BigQuery ML fornisce machine learning e analisi predittiva.
- BigQuery Studio offre funzionalità come i blocchi note Python e il controllo della versione sia per i blocchi note sia per le query salvate. Queste funzionalità semplificano il completamento dei flussi di lavoro di analisi dei dati e machine learning (ML) in BigQuery.
- Esegui query sui dati al di fuori di BigQuery con query federate e tabelle esterne.
Per ulteriori informazioni, vedi Panoramica dell'analisi di BigQuery.
Amministrazione di BigQuery
BigQuery fornisce la gestione centralizzata dei dati e delle risorse di calcolo mentre Identity and Access Management (IAM) ti aiuta a proteggere queste risorse con il modello di accesso utilizzato in tutto il sistema Google Cloud. Google Cloud Le best practice di sicurezza forniscono un approccio solido ma flessibile che può includere la sicurezza perimetrale o un approccio di difesa in profondità più complesso e granulare.
- Introduzione alla sicurezza e alla governance dei dati ti aiuta a comprendere la governance dei dati e i controlli di cui potresti aver bisogno per proteggere le risorse BigQuery.
- I job sono azioni che BigQuery esegue per tuo conto per caricare, esportare, eseguire query o copiare i dati.
- Le prenotazioni ti consentono di passare dai prezzi on demand ai prezzi basati sulla capacità.
Per ulteriori informazioni, vedi Introduzione all'amministrazione di BigQuery.
Risorse di BigQuery
Esplora le risorse di BigQuery:
- Le note di rilascio forniscono i log delle modifiche di funzionalità, modifiche e ritiri.
- Prezzi per l'analisi e lo spazio di archiviazione. Vedi anche: prezzi di BigQuery ML, BI Engine e Data Transfer Service.
- Le località definiscono dove creare e archiviare i set di dati (località regionali e multiregionali).
- Stack Overflow ospita una community attiva di sviluppatori e analisti che lavorano con BigQuery.
- L'assistenza BigQuery fornisce assistenza per BigQuery.
- Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale di Valliappa Lakshmanan e Jordan Tigani spiega come funziona BigQuery e fornisce una procedura dettagliata end-to-end su come utilizzare il servizio.
API, strumenti e riferimenti
Materiali di riferimento per sviluppatori e analisti di BigQuery:
- Le API BigQuery e le librerie client forniscono panoramiche delle funzionalità di BigQuery e del loro utilizzo.
- Sintassi delle query SQL per informazioni dettagliate sull'utilizzo di GoogleSQL.
- Gli esempi di codice di BigQuery forniscono centinaia di snippet per le librerie client in C#, Go, Java, Node.js, Python, Ruby. In alternativa, visualizza il browser di esempi.
- DML, DDL, DDL, e delle funzioni definite dall'utente (UDF) consente di gestire e trasformare i dati di BigQuery.
- Il riferimento per lo strumento a riga di comando bq
documenta la sintassi, i comandi, i flag e gli argomenti per l'interfaccia a riga di comando
bq. - L'integrazione ODBC / JDBC connette BigQuery agli strumenti e all'infrastruttura esistenti.
Funzionalità di Gemini in BigQuery
Gemini in BigQuery fa parte della suite di prodotti Gemini for Google Cloud che fornisce assistenza basata sull'AI per aiutarti a utilizzare i dati.
Gemini in BigQuery fornisce assistenza AI per aiutarti a:
- Esplorare e comprendere i dati con gli insight sui dati. Gli insight sui dati offrono un modo automatico, intuitivo per scoprire pattern ed eseguire analisi statistiche utilizzando query informative generate dai metadati delle tabelle. Questa funzionalità è particolarmente utile per risolvere le sfide di avvio a freddo dell'esplorazione iniziale dei dati. Per ulteriori informazioni, vedi Generare insight sui dati in BigQuery.
- Scoprire, trasformare, eseguire query e visualizzare i dati con data canvas BigQuery. Puoi utilizzare il linguaggio naturale con Gemini in BigQuery per trovare, unire ed eseguire query sugli asset delle tabelle, visualizzare i risultati e collaborare senza problemi con altri utenti durante l' intero processo. Per ulteriori informazioni, vedi Analizzare con il data canvas.
- Ricevere assistenza per l'analisi dei dati SQL e Python. Puoi utilizzare Gemini in
BigQuery per generare o suggerire codice in SQL o Python e per spiegare
una query SQL esistente. Puoi anche utilizzare query in linguaggio naturale per iniziare l'analisi dei dati. Per
scoprire come generare, completare e riepilogare il codice, consulta la seguente documentazione:
- Assistenza per il codice SQL
- Assistenza per il codice Python
- Preparare i dati per l'analisi. La preparazione dei dati in BigQuery fornisce consigli di trasformazione generati dall'AI e sensibili al contesto per pulire i dati per l'analisi. Per ulteriori informazioni, vedi Preparare i dati con Gemini.
- Personalizzare le traduzioni SQL con le regole di traduzione. (Anteprima) Crea regole di traduzione ottimizzate con Gemini per personalizzare le traduzioni SQL quando utilizzi il traduttore SQL interattivo. Puoi descrivere le modifiche all'output della traduzione SQL utilizzando prompt in linguaggio naturale o specificare pattern SQL da trovare e sostituire. Per ulteriori informazioni, vedi Creare una regola di traduzione.
Per scoprire come configurare Gemini in BigQuery, vedi Configurare Gemini in BigQuery.
Ruoli e risorse di BigQuery
BigQuery soddisfa le esigenze dei professionisti dei dati nei seguenti ruoli e responsabilità.
Analista di dati
Indicazioni per le attività per aiutarti se devi:
- Eseguire query sui dati di BigQuery utilizzando query interattive o batch utilizzando la sintassi delle query SQL
- Fare riferimento a funzioni, operatori ed espressioni condizionali SQL per eseguire query sui dati
- Utilizzare gli strumenti per analizzare e visualizzare i dati di BigQuery tra cui: Looker, Looker Studio, e Fogli Google.
Utilizzare l'analisi geospaziale per analizzare e visualizzare i dati geospaziali con i sistemi informativi geografici di BigQuery
Ottimizzare le prestazioni delle query utilizzando:
- Tabelle partizionate: elimina le tabelle di grandi dimensioni in base a intervalli di tempo o di numeri interi.
- Viste materializzate: Definisci le viste memorizzate nella cache per ottimizzare le query o fornire risultati persistenti risultati.
- BI Engine: il servizio di analisi in memoria rapido di BigQuery.
Amministratore dei dati
Indicazioni per le attività per aiutarti se devi:
- Gestire i costi con le prenotazioni per bilanciare i prezzi on demand e basati sulla capacità.
- Comprendere la sicurezza e la governance dei dati per proteggere i dati per set di dati, tabella, colonna, riga, o vista
- Eseguire il backup dei dati con gli snapshot delle tabelle per conservare i contenuti di una tabella in un momento specifico.
- Visualizzare INFORMATION_SCHEMA di BigQuery per comprendere i metadati di set di dati, job, controllo dell'accesso, prenotazioni, tabelle e altro ancora.
- Utilizzare i job per fare in modo che BigQuery carichi, esporti, esegua query o copi i dati per tuo conto.
- Monitorare i log e le risorse per comprendere BigQuery e i carichi di lavoro.
Per ulteriori informazioni, vedi Introduzione all'amministrazione di BigQuery.
Per iniziare un tour delle funzionalità di amministrazione dei dati di BigQuery direttamente nella Google Cloud consolle, fai clic su Inizia la presentazione.
Data scientist
Indicazioni per le attività per aiutarti se devi utilizzare il machine learning di BigQuery ML's per:
- Comprendere il percorso utente end-to-end per i modelli di machine learning
- Gestire il controllo dell'accesso per BigQuery ML
- Creare e addestrare modelli BigQuery ML
tra cui:
- Previsione della regressione lineare
- Classificazioni di regressione logistica binaria e logistica multiclasse
- Clustering K-means per la segmentazione dei dati
- Previsione di serie temporali con modelli ARIMA+
Sviluppatore di dati
Indicazioni per le attività per aiutarti se devi:
- Caricare i dati in BigQuery
con:
- Caricare in batch i dati per Avro, Parquet, ORC, CSV, JSON , Datastore , e Firestore
- BigQuery Data Transfer Service
- API BigQuery Storage Write
Utilizzare esempio di codice codice, tra cui:
Google Cloud Browser di esempi (con ambito BigQuery)
Passaggi successivi
- Per una panoramica dello spazio di archiviazione di BigQuery, vedi Panoramica dello spazio di archiviazione di BigQuery.
- Per una panoramica delle query di BigQuery, vedi Panoramica dell'analisi di BigQuery.
- Per una panoramica dell'amministrazione di BigQuery, vedi Introduzione all'amministrazione di BigQuery.
- Per una panoramica della sicurezza di BigQuery, vedi Panoramica della sicurezza e della governance dei dati.