Questo tutorial mostra come creare un modello di machine learning (ML) utilizzando prompt in linguaggio naturale con Data Science Agent per Colab Enterprise.
Nel tutorial, creerai un modello ML per prevedere le vendite di alcolici utilizzando il set di dati pubblico sulle vendite al dettaglio di alcolici in Iowa. L'agente basato sull'AI ti consente di utilizzare prompt in linguaggio naturale per scrivere, spiegare ed eseguire il debug del codice direttamente all'interno di un notebook per accelerare i workflow di data science.
Questo tutorial è rivolto ai professionisti dei dati.
Obiettivi
In questo tutorial imparerai a utilizzare Data Science Agent per eseguire le seguenti attività:
- Eseguire l'analisi esplorativa dei dati (EDA) del set di dati pubblico sulle vendite al dettaglio di alcolici in Iowa per comprendere le distribuzioni dei dati, verificare la presenza di valori mancanti e verificare la qualità complessiva dei dati.
- Trovare i negozi che hanno venduto più galloni di alcolici in tutti i prodotti.
- Creare, addestrare e valutare un modello che prevede le vendite di alcolici utilizzando BigQuery ML.
- Generare e riepilogare gli insight chiave e il rendimento del modello.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il calcolatore prezzi.
Al termine delle attività descritte in questo documento, puoi evitare l'addebito di ulteriori costi eliminando le risorse che hai creato. Per saperne di più, consulta Esegui la pulizia.
Prima di iniziare
- Accedi al tuo Google Cloud account. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Abilita le API BigQuery, Gemini for Google Cloud, Dataform e Compute Engine.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo servizi (
roles/serviceusage.serviceUsageAdmin), che contiene l'autorizzazioneserviceusage.services.enable. Scopri come concedere i ruoli.Per i nuovi progetti, l'API BigQuery viene abilitata automaticamente.
Ruoli obbligatori
Se hai creato un nuovo progetto, disponi di tutte le autorizzazioni necessarie per completare questo tutorial. Se utilizzi un progetto esistente, chiedi all'amministratore di concederti i seguenti ruoli.
Autorizzazioni per creare ed eseguire notebook
Per ottenere le autorizzazioni necessarie per creare ed eseguire notebook, chiedi all'amministratore di concederti il ruolo IAM Utente BigQuery Studio (roles/bigquery.studioUser) per il progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per visualizzare le autorizzazioni necessarie per creare ed eseguire notebook, consulta i passaggi di configurazione nella pagina Crea notebook.
Per saperne di più su Identity and Access Management (IAM) di BigQuery, consulta Controllo dell'accesso con IAM.
Creare un notebook di Colab Enterprise e connettersi a un runtime
I notebook di Colab Enterprise sono asset di codice di BigQuery Studio basati su Dataform. Puoi utilizzare i notebook per completare i workflow di analisi e ML utilizzando SQL, Python e altri pacchetti e API comuni.
Per creare un nuovo notebook e connetterlo al runtime predefinito:
Vai alla pagina BigQuery.
Nel riquadro a sinistra, espandi il progetto e fai clic su Notebook.
Fai clic su Nuovo notebook > Notebook vuoto.
Fai clic su Salva.
Per visualizzare il nuovo notebook, fai clic sulla scheda Notebook. Potrebbe essere necessario fare clic su aggiorna Aggiorna .
Per il notebook senza titolo, fai clic su more_vert Apri azioni e poi scegli Rinomina.
In Nome notebook, inserisci
predict_liquor_salese fai clic su Rinomina.Fai clic sulla scheda
predict_liquor_sales.Nella barra degli strumenti del notebook, fai clic su Connetti per connettere il notebook all'ambiente di runtime predefinito.
Utilizzare Data Science Agent per analizzare i dati
Data Science Agent è un assistente basato su Gemini che può scrivere, spiegare ed eseguire il debug del codice direttamente all'interno del notebook. Può aiutarti con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni e previsioni di machine learning, tra cui:
- Generazione di piani. Crea un piano passo passo per risolvere un problema di data science.
- Esplorazione e pulizia dei dati. Identifica i valori mancanti, gli outlier e visualizza le distribuzioni.
- Feature engineering. Converti le caratteristiche categoriche e creane di nuove.
- Addestramento e valutazione del modello. Addestra modelli come la regressione lineare o la foresta casuale e confrontane le prestazioni.
In questo tutorial, utilizzerai Data Science Agent per analizzare i dati nel set di dati pubblico sulle vendite al dettaglio di alcolici in Iowa, e per creare un modello che prevede le vendite di alcolici.
Per utilizzare Data Science Agent per analizzare i dati:
Nel tuo notebook
predict_liquor_sales, se la finestra della chat con Gemini non è aperta, fai clic su spark Attiva/disattiva Gemini in Colab per aprire la finestra di dialogo della chat.Nell'interfaccia della chat, inserisci il seguente prompt:
Analyze the liquor sales data from bigquery-public-data.iowa_liquor_sales.sales by performing exploratory data analysis. Find the stores that sold the most gallons of alcohol across all products. Then, create a model that predicts liquor sales by store by using BigQuery ML. Visualize the results, evaluate the model, summarize the model's performance, and provide any key insights.Verifica che il modello sia impostato su Gemini 3.0 Flash.
Fai clic su Invia.
Esamina il piano generato dall'agente. Il piano è simile al seguente.
"Ho analizzato la richiesta di dati sulle vendite di alcolici in Iowa e ho creato un piano strategico. Poiché i dati sono archiviati in BigQuery e hai specificato di utilizzare BigQuery ML, inizieremo con l'esplorazione dei dati, identificheremo i negozi con il rendimento migliore e poi creeremo un modello di regressione per prevedere le vendite. Ecco il piano passo passo:
- Esplorazione e profilazione dei dati: esegui un'esplorazione iniziale della tabella "bigquery-public-data.iowa_liquor_sales.sales" per comprendere la distribuzione dei dati, verificare la presenza di valori mancanti e verificare la qualità dei dati per le colonne chiave come le informazioni sul negozio, il volume venduto e i dollari di vendita.
- Identifica i negozi principali per volume: aggrega i galloni totali di alcolici venduti da ogni negozio in tutti i prodotti e identifica i negozi con il rendimento migliore.
- Preparazione dei dati: prepara i dati di addestramento aggregando le vendite di alcolici per negozio e selezionando le caratteristiche pertinenti per il modello di previsione.
- Sviluppo del modello: addestra un modello di regressione utilizzando BigQuery ML per prevedere le vendite di alcolici per ogni negozio.
- Valutazione del modello: valuta il rendimento del modello addestrato utilizzando le metriche di regressione standard.
- Previsione del modello: genera previsioni per le vendite di alcolici utilizzando il modello addestrato.
- Visualizzazione: crea un grafico a dispersione che confronta le vendite di alcolici previste con i valori effettivi per valutare visivamente l'accuratezza del modello.
- Completa l'attività: riepiloga il rendimento del modello, fornisci insight chiave sulle vendite dei negozi e concludi l'analisi."
Dopo aver esaminato il piano, fai clic su Accetta ed esegui. L'agente genera la prima sottoattività: esplorare e profilare i dati. L'agente si mette in pausa finché non esamini e accetti il codice. Se l'agente è in attesa dell'input utente, le celle generate vengono visualizzate con uno sfondo verde.
Esamina la cella di codice generata e il ragionamento fornito dall'agente.
Fai clic su Accetta ed esegui. Se l'agente riscontra problemi con il suo approccio, fornisce un ragionamento su come correggere il problema e ti chiede di accettare il codice modificato.
Esamina l'output nella cella di codice.
Sotto i risultati, l'agente crea una nuova cella per completare l'attività secondaria successiva: trovare i negozi con le vendite di alcolici più elevate.
Esamina il codice SQL generato che esegue una query sui dati per i negozi principali in base ai galloni di alcolici venduti. Puoi esaminare il ragionamento dell'agente visualizzando la cella di testo Ragionamento sopra il codice. Se ritieni che il codice sia corretto, fai clic su Accetta ed esegui.
Esamina i risultati della query nell'output della cella. I risultati sono simili ai seguenti:
Esamina il codice e il ragionamento generati dall'agente per la sottoattività successiva: preparare i dati per l'addestramento del modello.
Dopo aver verificato che il codice SQL sia corretto, fai clic su Accetta ed esegui.
Esamina l'output nella cella di codice. Viene visualizzato un messaggio simile a
JOB ID 123456 successfully executed.Esamina il codice e il ragionamento generati dall'agente per la sottoattività successiva: addestrare il modello di regressione.
Dopo aver visualizzato il codice e il ragionamento, fai clic su Accetta ed esegui.
Esamina l'output nella cella di codice. Viene visualizzato un messaggio simile a
JOB ID 123456 successfully executed.Esamina il codice e il ragionamento generati dall'agente per la sottoattività successiva: valutazione del modello.
Dopo aver visualizzato il codice e il ragionamento, fai clic su Accetta ed esegui.
Esamina l'output nella cella di codice.
Esamina il codice e il ragionamento generati dall'agente per la sottoattività successiva: generazione di previsioni.
Dopo aver visualizzato il codice e il ragionamento, fai clic su Accetta ed esegui.
Esamina l'output nella cella di codice. Viene visualizzato un messaggio simile a
JOB ID 123456 successfully executed.Dopo l'esecuzione della query, l'agente crea una cella di codice per la sottoattività successiva: visualizzare i dati.
Dopo aver visualizzato il codice e il ragionamento, fai clic su Accetta ed esegui.
Esamina l'output nella cella di codice. Viene visualizzato un grafico che traccia le vendite di alcolici effettive rispetto a quelle previste. Il grafico è simile al seguente:
Dopo aver generato il grafico, l'agente genera un riepilogo dei risultati con risultati e insight chiave.
Dopo aver esaminato il riepilogo, fai clic su Accetta per completare il piano.
Libera spazio
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Per evitare che al tuo Google Cloud account vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, puoi eliminare il notebook che hai creato. Per eliminare il notebook:Vai alla pagina BigQuery.
Nel riquadro a sinistra, espandi il progetto e fai clic su Notebook.
Per il notebook
predict_liquor_sales, fai clic su more_vert Apri azioni e poi scegli Elimina.Fai clic su Elimina per rimuovere il notebook.
Passaggi successivi
- Scopri le funzionalità di Data Science Agent.
- Scopri di più sui notebook di Colab Enterprise in BigQuery.
- Leggi la documentazione su Gemini in BigQuery.