Introduzione a ML in BigQuery
BigQuery ML consente di creare ed eseguire modelli di machine learning (ML) utilizzando query GoogleSQL o la Google Cloud console. I modelli BigQuery ML vengono archiviati nei set di dati BigQuery, in modo simile a tabelle e viste. BigQuery ML consente anche di accedere ai modelli di Gemini Enterprise Agent Platform e alle API Cloud AI per eseguire attività di intelligenza artificiale (AI) come la generazione di testo o la traduzione automatica. Gemini in BigQuery fornisce anche assistenza basata sull'AI per le attività di BigQuery. Google Cloud Per visualizzare un elenco delle funzionalità basate sull'AI in BigQuery, consulta Panoramica di Gemini in BigQuery.
In genere, l'esecuzione di ML o AI su set di dati di grandi dimensioni richiede una programmazione approfondita e la conoscenza dei framework ML. Questi requisiti limitano lo sviluppo di soluzioni a un insieme molto ristretto di persone all'interno di ogni azienda ed escludono gli analisti di dati che comprendono i dati, ma hanno una conoscenza limitata di ML e competenze di programmazione. Tuttavia, con BigQuery ML, i professionisti SQL possono utilizzare gli strumenti e le competenze SQL esistenti per creare e valutare modelli e per generare risultati da LLM e API Cloud AI.
Puoi utilizzare le funzionalità di BigQuery ML nei seguenti modi:
- L' Google Cloud interfaccia utente della console, per lavorare con i modelli utilizzando un'interfaccia utente. (Anteprima)
- L'editor di query della console, per lavorare con i modelli utilizzando query SQL. Google Cloud
- Lo strumento a riga di comando bq
- L'API REST di BigQuery
- Blocchi note Colab Enterprise integrati in BigQuery
- Strumenti esterni come un blocco note Jupyter o una piattaforma di business intelligence
Vantaggi di BigQuery ML
BigQuery ML offre diversi vantaggi rispetto ad altri approcci all'utilizzo di ML o AI con un data warehouse basato sul cloud:
- BigQuery ML democratizza l'utilizzo di ML e AI consentendo ai data analyst, gli utenti principali del data warehouse, di creare ed eseguire modelli utilizzando fogli di lavoro e strumenti di business intelligence esistenti. L'analisi predittiva può guidare il processo decisionale aziendale in tutta l'organizzazione.
- Non è necessario programmare una soluzione ML o AI utilizzando Python o Java. Puoi addestrare i modelli e accedere alle risorse AI utilizzando SQL, un linguaggio che i data analyst conoscono bene.
BigQuery ML aumenta la velocità di sviluppo e innovazione dei modelli eliminando la necessità di spostare i dati dal data warehouse. BigQuery ML porta invece ML ai dati, il che offre i seguenti vantaggi:
- Riduzione della complessità perché sono necessari meno strumenti.
- Maggiore velocità di produzione perché non è necessario spostare e formattare grandi quantità di dati per i framework ML basati su Python per addestrare un modello in BigQuery.
Per ulteriori informazioni, guarda il video Come accelerare lo sviluppo del machine learning con BigQuery ML.
Conoscenze consigliate
Utilizzando le impostazioni predefinite nelle istruzioni CREATE MODEL e nelle funzioni di inferenza, puoi creare e utilizzare i modelli BigQuery ML anche senza una conoscenza approfondita di ML. Tuttavia, avere una conoscenza di base del ciclo di vita dello sviluppo di ML, come il feature engineering e l'addestramento dei modelli, ti aiuta a ottimizzare sia i dati sia il modello per ottenere risultati migliori. Ti consigliamo di utilizzare le seguenti risorse per acquisire familiarità con le tecniche e i processi di ML:
- Machine Learning Crash Course
- Introduzione al machine learning
- Pulizia dei dati
- Feature Engineering
- Machine learning intermedio
Lavorare con le serie temporali
Puoi utilizzare i modelli TimesFM, ARIMA_PLUS e ARIMA_PLUS_XREG per eseguire
la previsione e
il rilevamento di anomalie
sui dati delle serie temporali.
Eseguire l'analisi del contributo
Puoi creare un modello di analisi del contributo per generare approfondimenti sulle modifiche alle metriche chiave nei dati multidimensionali. Ad esempio, puoi scoprire quali dati hanno contribuito a una variazione delle entrate.
Modelli supportati
Un modello in BigQuery ML rappresenta ciò che un sistema ML ha appreso dai dati di addestramento. Le sezioni seguenti descrivono i tipi di modelli supportati da BigQuery ML. Per ulteriori informazioni sulla creazione di assegnazioni di prenotazione per i diversi tipi di modelli, consulta Assegnare slot ai carichi di lavoro BigQuery ML.
Modelli addestrati internamente
I seguenti modelli sono integrati in BigQuery ML:
- L'analisi del contributo serve a determinare l'effetto di una o più dimensioni sul valore di una determinata metrica. Ad esempio, vedere l'effetto della località del negozio e della data di vendita sulle entrate del negozio. Per ulteriori informazioni, consulta Panoramica dell'analisi del contributo.
- La regressione lineare serve a prevedere il valore di una metrica numerica per i nuovi dati utilizzando un modello addestrato su dati remoti simili. Le etichette sono a valori reali, il che significa che non possono essere infinito positivo o infinito negativo o un valore NaN (Not a Number).
- La regressione logistica
serve per la classificazione di due o più valori possibili, ad esempio se un
input è
low-value,medium-valueohigh-value. Le etichette possono avere fino a 50 valori univoci. - Il clustering K-means serve per la segmentazione dei dati. Ad esempio, questo modello identifica i segmenti di clienti. K-means è una tecnica di apprendimento non supervisionato, quindi l'addestramento del modello non richiede etichette o dati suddivisi per l'addestramento o la valutazione.
- La fattorizzazione matriciale serve per creare sistemi di suggerimenti sui prodotti. Puoi creare suggerimenti sui prodotti utilizzando il comportamento storico dei clienti, le transazioni e le valutazioni dei prodotti, quindi utilizzare questi suggerimenti per esperienze cliente personalizzate.
- L'analisi delle componenti principali (PCA) è il processo di calcolo delle componenti principali e del loro utilizzo per eseguire una modifica della base dei dati. Viene di uso comune utilizzata per la riduzione della dimensionalità proiettando ogni punto dati solo sulle prime componenti principali per ottenere dati a dimensionalità inferiore, preservando al contempo la maggior parte della variazione dei dati possibile.
Le serie temporali servono per eseguire previsioni di serie temporali e rilevare anomalie. I modelli di serie temporali
ARIMA_PLUSeARIMA_PLUS_XREGoffrono più opzioni di tuning e gestiscono automaticamente anomalie, stagionalità e festività.Se non vuoi gestire il tuo modello di previsione delle serie temporali, puoi utilizzare la
AI.FORECASTfunzione con il modello di serie temporali TimesFM integrato di BigQuery ML (anteprima) per eseguire la previsione.
Puoi eseguire un'esecuzione di prova sulle
CREATE MODEL istruzioni per i modelli addestrati internamente per ottenere una stima della
quantità di dati che verranno elaborati se le esegui.
Modelli addestrati esternamente
I seguenti modelli sono esterni a BigQuery ML e vengono addestrati in Agent Platform:
- La rete neurale profonda (DNN) serve per creare reti neurali profonde basate su TensorFlow per i modelli di classificazione e regressione.
- Wide & Deep è utile per problemi generici di regressione e classificazione su larga scala con input sparsi (caratteristiche categoriche con un elevato numero di possibili valori per caratteristica), come motori per suggerimenti, ricerca e problemi di classificazione.
- L'autoencoder serve per creare modelli basati su TensorFlow con il supporto di rappresentazioni di dati sparse. Puoi utilizzare i modelli in BigQuery ML per attività come il rilevamento di anomalie non supervisionato e la riduzione della dimensionalità non lineare.
- Gli alberi potenziati servono per creare modelli di classificazione e regressione basati su XGBoost.
- La foresta casuale serve per costruire più alberi decisionali del metodo di apprendimento per la classificazione, la regressione e altre attività durante l'addestramento.
- AutoML è un servizio ML supervisionato che crea ed esegue il deployment di modelli di classificazione e regressione su dati tabulari ad alta velocità e su larga scala.
Non puoi eseguire un'esecuzione di prova sulle
CREATE MODEL istruzioni per i modelli addestrati esternamente per ottenere una stima della
quantità di dati che verranno elaborati se le esegui.
Modelli remoti
Puoi creare
modelli remoti
in BigQuery che utilizzano i modelli di cui è stato eseguito il deployment in Vertex AI.
Fai riferimento al modello di cui è stato eseguito il deployment specificando l'endpoint
HTTPS
del modello nell'istruzione CREATE MODEL del modello remoto.
Le istruzioni CREATE MODEL per i modelli remoti non elaborano alcun byte e non comportano addebiti di BigQuery.
Modelli importati
BigQuery ML consente di importare modelli personalizzati addestrati al di fuori di BigQuery e quindi di eseguire la previsione in BigQuery. Puoi importare i seguenti modelli in BigQuery da Cloud Storage:
- Open Neural Network Exchange (ONNX) è un formato standard aperto per la rappresentazione di modelli ML. Utilizzando ONNX, puoi rendere disponibili in BigQuery ML i modelli addestrati con framework ML comuni come PyTorch e scikit-learn.
- TensorFlow è una libreria software senza costi e open source per ML e intelligenza artificiale. Puoi utilizzare TensorFlow per una serie di attività, ma si concentra in particolare sull'addestramento e sull'inferenza delle reti neurali profonde. Puoi caricare i modelli TensorFlow addestrati in precedenza in BigQuery come modelli BigQuery ML e quindi eseguire la previsione in BigQuery ML.
- TensorFlow Lite è una versione leggera di TensorFlow per il deployment su dispositivi mobili dispositivi, microcontrollori e altri dispositivi edge. TensorFlow ottimizza i modelli TensorFlow esistenti per ridurre le dimensioni del modello e velocizzare l'inferenza.
- XGBoost è una libreria di gradient boosting distribuita e ottimizzata, progettata per essere altamente efficiente, flessibile e portatile. Implementa algoritmi ML nel framework di gradient boosting.
Le istruzioni CREATE MODEL per i modelli importati non elaborano alcun byte e non comportano addebiti di BigQuery.
In BigQuery ML, puoi utilizzare un modello con dati provenienti da più set di dati BigQuery per l'addestramento e la previsione.
Guida alla selezione dei modelli
Scarica l'albero decisionale per la selezione dei modelli.
BigQuery ML e Agent Platform
BigQuery ML si integra con Agent Platform, la piattaforma end-to-end per AI e ML in Google Cloud. Puoi registrare i tuoi modelli BigQuery ML in Model Registry per eseguirne il deployment negli endpoint per la previsione online. Per ulteriori informazioni, consulta:
- Per saperne di più sull'utilizzo dei modelli BigQuery ML con Agent Platform, consulta Gestire i modelli BigQuery ML con Agent Platform.
- Se non hai familiarità con Agent Platform e vuoi saperne di più sulla sua integrazione con BigQuery ML, consulta Agent Platform per gli utenti di BigQuery.
- Guarda il video Come semplificare i modelli AI con Agent Platform e BigQuery ML.
BigQuery ML e Colab Enterprise
Ora puoi utilizzare i blocchi note Colab Enterprise per eseguire flussi di lavoro ML in BigQuery. Notebooks ti consentono di utilizzare SQL, Python e altre librerie e linguaggi comuni per eseguire le attività ML. Per ulteriori informazioni, consulta Creare blocchi note.
Aree geografiche supportate
BigQuery ML è supportato nelle stesse regioni di BigQuery. Per ulteriori informazioni, consulta Località di BigQuery ML.
Prezzi
Ti vengono addebitati i costi delle risorse di calcolo utilizzate per addestrare i modelli e per eseguire query sui modelli. Il tipo di modello che crei influisce sulla posizione in cui viene addestrato il modello e sui prezzi applicati all'operazione. Le query sui modelli vengono sempre eseguite in BigQuery e utilizzano i prezzi di calcolo di BigQuery. Poiché i modelli remoti effettuano chiamate ai modelli di Agent Platform, le query sui modelli remoti comportano anche addebiti da Agent Platform.
Ti viene addebitato il costo dello spazio di archiviazione utilizzato dai modelli addestrati, utilizzando i prezzi di archiviazione di BigQuery.
Per ulteriori informazioni, vedi Prezzi di BigQuery ML.
Quote
Oltre ai
limiti specifici di BigQuery ML,
le query che utilizzano le funzioni BigQuery ML e le istruzioni CREATE MODEL
sono soggette alle quote e ai limiti dei job di query BigQuery
.
Limitazioni
- BigQuery ML non è disponibile nella versione Standard.
Passaggi successivi
- Per iniziare a utilizzare BigQuery ML, consulta Creare modelli di machine learning in BigQuery ML.
- Per saperne di più sul machine learning e su BigQuery ML, consulta le seguenti risorse:
- Programma di formazione per l'analisi intelligente e la gestione dei dati
- Machine Learning Crash Course
- Glossario di machine learning
- Per saperne di più su MLOps con Model Registry, consulta Gestire i modelli BigQuery ML in Agent Platform.
Per ulteriori informazioni sulle istruzioni e sulle funzioni SQL supportate per i diversi tipi di modelli, consulta i seguenti documenti: