Utilizzare Data Science Agent per Colab Enterprise con BigQuery

Data Science Agent (DSA) per Colab Enterprise e BigQuery ti consente di automatizzare l'analisi esplorativa dei dati, eseguire attività di machine learning e fornire insight, tutto all'interno di un notebook Colab Enterprise.

Prima di iniziare

  1. Accedi al tuo Google Cloud account. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Abilita le API BigQuery, Gemini for Google Cloud, Dataform e Compute Engine.

    Ruoli richiesti per abilitare le API

    Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo servizi (roles/serviceusage.serviceUsageAdmin), che contiene l'autorizzazione serviceusage.services.enable. Scopri come concedere i ruoli.

    Abilita le API

    Per i nuovi progetti, l'API BigQuery viene abilitata automaticamente.

Se non hai mai utilizzato Colab Enterprise in BigQuery, consulta i passaggi di configurazione nella pagina Crea notebook.

Limitazioni

  • Data Science Agent è disponibile solo nell'ambiente Colab Enterprise.
  • Data Science Agent supporta le seguenti origini dati:
    • File CSV
    • Tabelle BigQuery
  • Il codice prodotto da Data Science Agent viene eseguito solo nel runtime del notebook.
  • La ricerca di tabelle BigQuery utilizzando la funzione @mention è limitata al progetto corrente. Utilizza il selettore di tabelle per cercare tra i progetti.
  • La funzione @mention cerca solo le tabelle BigQuery. Per cercare i file di dati che puoi caricare, utilizza il simbolo +.
  • PySpark in Data Science Agent genera solo codice Managed Service for Apache Spark 4.0. DSA può aiutarti ad eseguire l'upgrade a Managed Service for Apache Spark 4.0, ma gli utenti che richiedono versioni precedenti non devono utilizzare Data Science Agent.
  • Le chiavi di crittografia gestite dal cliente (CMEK) non sono supportate.

Quando utilizzare Data Science Agent

Data Science Agent ti aiuta con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni e previsioni di machine learning. Puoi utilizzare DSA per:

  • Elaborazione dei dati su larga scala: utilizza BigQuery ML, BigQuery DataFrames o Managed Service for Apache Spark per eseguire l'elaborazione distribuita dei dati su set di dati di grandi dimensioni. In questo modo, puoi pulire, trasformare e analizzare in modo efficiente i dati troppo grandi per essere contenuti nella memoria di una singola macchina.
  • Generazione di un piano: genera e modifica un piano per completare una determinata attività utilizzando strumenti comuni come Python, SQL, Managed Service for Apache Spark e BigQuery DataFrames.
  • Esplorazione dei dati: esplora un set di dati per comprenderne la struttura, identifica potenziali problemi come valori mancanti e outlier ed esamina la distribuzione delle variabili chiave utilizzando Python o SQL.
  • Pulizia dei dati: pulisci i dati. Ad esempio, rimuovi i punti dati che sono outlier.
  • Data wrangling: converti le caratteristiche categoriche in rappresentazioni numeriche utilizzando tecniche come la codifica one-hot o la codifica delle etichette oppure utilizzando gli strumenti di trasformazione delle caratteristiche di BigQuery ML. Crea nuove caratteristiche per l'analisi.
  • Analisi dei dati: analizza le relazioni tra le diverse variabili. Calcola le correlazioni tra le caratteristiche numeriche ed esplora le distribuzioni delle caratteristiche categoriche. Cerca pattern e tendenze nei dati.
  • Visualizzazione dei dati: crea visualizzazioni come istogrammi, box plot, grafici a dispersione e grafici a barre che rappresentano le distribuzioni delle singole variabili e le relazioni tra loro. Puoi anche creare visualizzazioni in Python per le tabelle archiviate in BigQuery.
  • Feature engineering: crea nuove caratteristiche da un set di dati pulito.
  • Suddivisione dei dati: dividi un set di dati creato in set di dati di addestramento, convalida, e test.
  • Addestramento del modello: addestra un modello utilizzando i dati di addestramento in un DataFrame pandas (X_train, y_train), BigQuery DataFrames, un DataFrame PySpark o utilizzando l'istruzione CREATE MODEL di BigQuery ML con le tabelle BigQuery.
  • Ottimizzazione del modello: ottimizza un modello utilizzando il set di validazione. Esplora modelli alternativi come DecisionTreeRegressor e RandomForestRegressor e confronta le loro prestazioni.
  • Valutazione del modello: valuta le prestazioni del modello su un set di dati di test utilizzando un DataFrame pandas, BigQuery DataFrames o un DataFrame PySpark. Puoi anche valutare la qualità del modello e confrontare i modelli utilizzando le funzioni di valutazione del modello BigQuery ML per i modelli addestrati utilizzando BigQuery ML.
  • Inferenza del modello: esegui l'inferenza con i modelli addestrati di BigQuery ML, i modelli importati e i modelli remoti utilizzando le funzioni di inferenza di BigQuery ML. Puoi anche utilizzare il metodo model.predict() di BigFrames o i trasformatori PySpark per fare previsioni.

Utilizzare Data Science Agent in BigQuery

I passaggi seguenti mostrano come utilizzare Data Science Agent in BigQuery.

  1. Crea o apri un notebook Colab Enterprise.

  2. (Facoltativo) Fai riferimento ai dati in uno dei seguenti modi:

    • Carica un file CSV o utilizza il simbolo + nel prompt per cercare i file disponibili.
    • Scegli una o più tabelle BigQuery nel selettore di tabelle del progetto corrente o di altri progetti a cui hai accesso.
    • Fai riferimento a un nome di tabella BigQuery nel prompt in questo formato: project_id:dataset.table.
    • Digita il simbolo @ per cercare un nome di tabella BigQuery utilizzando la funzione @mention.
  3. Inserisci un prompt che descriva l'analisi dei dati che vuoi eseguire o il prototipo che vuoi creare. Il comportamento predefinito di Data Science Agent è generare codice Python utilizzando librerie open source come sklearn per eseguire attività di machine learning complesse. Per utilizzare uno strumento specifico, includi le seguenti parole chiave nel prompt:

    • Se vuoi utilizzare BigQuery ML, includi la parola chiave "SQL".
    • Se vuoi utilizzare "BigQuery DataFrames", specifica le parole chiave "BigFrames" o "BigQuery DataFrames".
    • Se vuoi utilizzare PySpark, includi le parole chiave "Apache Spark" o "PySpark".

    Per ricevere assistenza, consulta i prompt di esempio.

  4. Scegli il tuo modello. Il modello predefinito è Gemini 3.0 Flash.

  5. Invia il prompt ed esamina i risultati.

Analizzare un file CSV

Per analizzare un file CSV utilizzando Data Science Agent in BigQuery, segui questi passaggi.

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, espandi il progetto e fai clic su Notebook.

  3. Fai clic su Nuovo notebook > Notebook vuoto.

    In alternativa, nella barra delle schede, fai clic sulla freccia giù accanto all'icona add_box Aggiungi e poi su Notebook > Notebook vuoto.

  4. Fai clic sul pulsante spark Attiva/disattiva Gemini in Colab per aprire la finestra di dialogo della chat.

  5. Carica il file CSV.

    1. Nella finestra di dialogo della chat, fai clic su Aggiungi a Gemini > Carica.

    2. Se necessario, autorizza il tuo Account Google.

    3. Individua la posizione del file CSV e fai clic su Apri.

  6. In alternativa, digita il simbolo + nel prompt per cercare i file disponibili da caricare.

  7. Inserisci il prompt nella finestra della chat. Ad esempio: Identify trends and anomalies in this file.

  8. Scegli il tuo modello. Il modello predefinito è Gemini 3.0 Flash.

  9. Fai clic su Invia. I risultati vengono visualizzati nella finestra della chat.

  10. Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Durante l'esecuzione del piano, nel notebook vengono visualizzati il codice e il testo generati. Fai clic su Annulla per interrompere.

Analizzare le tabelle BigQuery

Per analizzare una tabella BigQuery, scegli una o più tabelle nel selettore di tabelle, fornisci un riferimento alla tabella nel prompt o cerca una tabella utilizzando il simbolo @.

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, espandi il progetto e fai clic su Notebook.

  3. Fai clic su Nuovo notebook > Notebook vuoto.

    In alternativa, nella barra delle schede, fai clic sulla freccia giù accanto all'icona add_box Aggiungi e poi su Notebook > Notebook vuoto.

  4. Fai clic sul pulsante spark Attiva/disattiva Gemini in Colab per aprire la finestra di dialogo della chat.

  5. Inserisci il prompt nella finestra della chat.

  6. Fai riferimento ai dati in uno dei seguenti modi:

    1. Scegli una o più tabelle utilizzando il selettore di tabelle:

      1. Fai clic su Aggiungi a Gemini > Tabelle BigQuery.

      2. Nella finestra Tabelle BigQuery, seleziona una o più tabelle nel progetto. Puoi cercare le tabelle tra i progetti e filtrarle utilizzando la barra di ricerca.

    2. Includi un nome di tabella BigQuery direttamente nel prompt. Ad esempio: "Help me perform exploratory data analysis and get insights about the data in this table: project_id:dataset.table."

      Sostituisci quanto segue:

      • project_id: il tuo ID progetto
      • dataset: il nome del set di dati che contiene la tabella che stai analizzando
      • table: il nome della tabella che stai analizzando
    3. Digita @ per cercare una tabella BigQuery nel progetto corrente.

  7. Scegli il tuo modello. Il modello predefinito è Gemini 3.0 Flash.

  8. Fai clic su Invia.

    I risultati vengono visualizzati nella finestra della chat.

  9. Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Durante l'esecuzione del piano, nel notebook vengono visualizzati il codice e il testo generati. Per i passaggi aggiuntivi del piano, potrebbe essere necessario fare di nuovo clic su Accetta ed esegui. Fai clic su Annulla per interrompere.

Prompt di esempio

Indipendentemente dalla complessità del prompt utilizzato, Data Science Agent genera un piano che puoi perfezionare in base alle tue esigenze.

I seguenti esempi mostrano i tipi di prompt che puoi utilizzare con DSA.

Prompt Python

Il codice Python viene generato per impostazione predefinita, a meno che non utilizzi una parola chiave specifica nel prompt, ad esempio "BigQuery ML" o "SQL".

  • "Investigate and fill missing values by using the k-Nearest Neighbors (KNN) machine learning algorithm."
  • "Create a plot of salary by experience level. Use the experience_level column to group the salaries, and create a box plot for each group showing the values from the salary_in_usd column."
  • "Use the XGBoost algorithm to make a model for determining the class variable of a particular fruit. Split the data into training and testing datasets to generate a model and to determine the model's accuracy. Create a confusion matrix to show the predictions amongst each class, including all predictions that are correct and incorrect."
  • "Forecast target_variable from filename.csv for the next six months."

Prompt SQL e BigQuery ML

  • "Create and evaluate a classification model on bigquery-public-data.ml_datasets.census_adult_income using BigQuery SQL."
  • "Using SQL, forecast the future traffic of my website for the next month based on bigquery-public-data.google_analytics_sample.ga_sessions_*. Then, plot the historical and forecasted values."
  • "Group similar customers together to create targeting market campaigns using a KMeans model and BigQuery ML SQL functions. Use three features for clustering. Then visualize the results by creating a series of 2D scatter plots. Use the table bigquery-public-data.ml_datasets.census_adult_income."
  • "Generate text embeddings in BigQuery ML using the review content in bigquery-public-data.imdb.reviews."

Per un elenco dei modelli e delle attività di machine learning supportati, consulta la documentazione di BigQuery ML.

Prompt DataFrame

  • "Create a pandas DataFrame for the data in project_id:dataset.table. Analyze the data for null values, and then graph the distribution of each column using the graph type. Use violin plots for measured values and bar plots for categories."
  • "Read filename.csv and construct a DataFrame. Run analysis on the DataFrame to determine what needs to be done with values. For example, are there missing values that need to be replaced or removed, or are there duplicate rows that need to be addressed. Use the data file to determine the distribution of the money invested in USD per city location. Graph the top 20 results using a bar graph that shows the results in descending order as Location versus Avg Amount Invested (USD)."
  • "Create and evaluate a classification model on project_id:dataset.table using BigQuery DataFrames."
  • "Create a time series forecasting model on project_id:dataset.table using BigQuery DataFrames, and visualize the model evaluations."
  • "Visualize the sales figures in the past year in BigQuery table project_id:dataset.table using BigQuery DataFrames."
  • "Find the features that can best predict the penguin species from the table bigquery-public_data.ml_datasets.penguins using BigQuery DataFrames."

Prompt PySpark

  • "Create and evaluate a classification model on project_id:dataset.table using Managed Service for Apache Spark."
  • "Group similar customers together to create targeting market campaigns, but first do dimensionality reduction using a PCA model. Use PySpark to do this on table project_id:dataset.table."

Disattivare Gemini in BigQuery

Per disattivare Gemini in BigQuery per un Google Cloud progetto, un amministratore deve disattivare l' API Gemini for Google Cloud. Vedi Disabilitare i servizi.

Per disattivare Gemini in BigQuery per un utente specifico, un amministratore deve revocare il ruolo Gemini for Google Cloud User (roles/cloudaicompanion.user) per quell'utente. Vedi Revoca un singolo ruolo IAM.

Prezzi

I prezzi di Data Science Agent si basano sui dati di input e output. Per ulteriori informazioni, vedi Prezzi degli agenti in Come funzionano i prezzi di BigQuery.

Aree geografiche supportate

Per visualizzare le regioni supportate per Data Science Agent di Colab Enterprise, vedi Località.