Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Utilizzare Data Science Agent

Questa guida descrive come utilizzare Data Science Agent in Colab Enterprise per svolgere attività di data science nei notebook.

Scopri come e quando Gemini per Google Cloud utilizza i tuoi dati.

Questo documento è destinato ad analisti di dati, data scientist e sviluppatori di dati che lavorano con Colab Enterprise. Si presuppone che tu sappia come scrivere codice in un ambiente notebook.

Funzionalità di Data Science Agent

Data Science Agent può aiutarti con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni e previsioni di machine learning. Puoi utilizzare Data Science Agent per:

Elaborazione dei dati su larga scala: utilizza BigQuery ML, BigQuery DataFrames o Managed Service for Apache Spark per eseguire l'elaborazione distribuita dei dati su set di dati di grandi dimensioni. In questo modo, puoi pulire, trasformare e analizzare in modo efficiente i dati troppo grandi per essere contenuti nella memoria di una singola macchina.
Generazione di piani: genera e modifica un piano per completare una determinata attività utilizzando strumenti comuni come Python, SQL, Apache Spark e BigQuery DataFrames.
Esplorazione dei dati: esplora un set di dati per comprenderne la struttura, identificare potenziali problemi come valori mancanti e outlier ed esaminare la distribuzione delle variabili chiave.
Pulizia dei dati: pulisci i dati. Ad esempio, rimuovi i punti dati che sono outlier.
Data wrangling: converti le caratteristiche categoriche in rappresentazioni numeriche utilizzando tecniche come la codifica one-hot o la codifica delle etichette. Crea nuove caratteristiche per l'analisi.
Analisi dei dati: analizza le relazioni tra diverse variabili. Calcola le correlazioni tra le caratteristiche numeriche ed esplora le distribuzioni delle caratteristiche categoriche. Cerca pattern e tendenze nei dati.
Visualizzazione dei dati: crea visualizzazioni come istogrammi, box plot, grafici a dispersione e grafici a barre che rappresentano le distribuzioni delle singole variabili e le relazioni tra loro.
Feature engineering: crea nuove caratteristiche da un set di dati pulito.
Suddivisione dei dati: dividi un set di dati di cui hai creato le caratteristiche in set di dati di addestramento, convalida, e test.
Addestramento del modello: addestra un modello utilizzando i dati di addestramento in un DataFrame pandas, un BigQuery DataFrames, un DataFrame PySpark, o utilizzando l'istruzione CREATE MODEL di BigQuery ML con le tabelle BigQuery.
Ottimizzazione del modello: ottimizza un modello utilizzando il set di validazione. Esplora modelli alternativi come DecisionTreeRegressor e RandomForestRegressor e confronta le loro prestazioni.
Valutazione del modello: valuta le prestazioni del modello su un set di dati di test utilizzando un DataFrame pandas, BigQuery DataFrames o un DataFrame PySpark. Puoi anche valutare la qualità del modello e confrontare i modelli utilizzando BigQuery ML le funzioni di valutazione del modello per i modelli addestrati utilizzando BigQuery ML.
Inferenza del modello: esegui l'inferenza con i modelli addestrati BigQuery ML, i modelli importati e i modelli remoti utilizzando le funzioni di inferenza BigQuery ML. Puoi anche utilizzare il metodo model.predict() di BigQuery DataFrames o i trasformatori PySpark per fare previsioni.

Limitazioni

Data Science Agent supporta le seguenti origini dati:
- File CSV
- Tabelle BigQuery
Il codice prodotto da Data Science Agent viene eseguito solo nel runtime del notebook.
Il notebook deve trovarsi in una regione supportata da Data Science Agent. Vedi Sedi.
La prima volta che esegui Data Science Agent, potresti riscontrare una latenza di circa 5-10 minuti. Questo si verifica una sola volta per progetto durante la configurazione iniziale.
La ricerca di tabelle BigQuery utilizzando la funzione @mention è limitata al progetto corrente. Utilizza il selettore di tabelle per cercare tra i progetti.
La funzione @mention cerca solo le tabelle BigQuery. Per cercare i file di dati che puoi caricare, utilizza il simbolo +.
PySpark in Data Science Agent genera solo codice Apache Spark 4.0. Data Science Agent può aiutarti ad eseguire l'upgrade ad Apache Spark 4.0, ma gli utenti che richiedono versioni precedenti di Apache Spark non devono utilizzare Data Science Agent.

Prima di iniziare

Accedi al tuo Google Cloud account. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei carichi di lavoro.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per utilizzare Data Science Agent in Colab Enterprise, chiedi all'amministratore di concederti il ruolo IAM Utente Colab Enterprise (roles/aiplatform.colabEnterpriseUser) nel progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Uno o più dei ruoli richiesti includono l'dataform.repositories.list autorizzazione. Gli utenti a cui è stata concessa l'autorizzazione dataform.repositories.list o il ruolo Creatore di codice (roles/dataform.codeCreator) in un progetto possono elencare i nomi degli asset di codice in quel progetto utilizzando l'API Dataform o l' interfaccia a riga di comando (CLI) di Dataform. Gli utenti non amministratori che utilizzano BigQuery Studio possono visualizzare solo gli asset di codice che hanno creato o che sono stati condivisi con loro.

Fare riferimento ai dati

Per consentire a Data Science Agent di Colab Enterprise di accedere ai tuoi dati e utilizzarli, puoi caricare un file CSV o fare riferimento a una tabella BigQuery.

File CSV

Nella Google Cloud console, vai a alla pagina I miei notebook di Colab Enterprise.

Vai a I miei notebook
Nel menu Regione, seleziona la regione che contiene il notebook.
Fai clic sul notebook che vuoi aprire.
Fai clic sul pulsante Attiva/disattiva Gemini in Colab per aprire la finestra di dialogo della chat.

Nota: puoi spostare la finestra di dialogo della chat in un riquadro separato all'esterno del notebook facendo clic sul Sposta nel riquadro pulsante.
Nella finestra di dialogo della chat, fai clic su Aggiungi file > Carica.
Se necessario, autorizza il tuo Account Google.

Attendi qualche istante che Colab Enterprise avvii un runtime e attivi l'esplorazione dei file.
Vai alla posizione del file e fai clic su Apri.
Fai clic su OK per confermare che i file di questo runtime verranno eliminati quando il runtime verrà eliminato.

Il file viene caricato nel riquadro File e viene visualizzato nella finestra della chat.

Tabella BigQuery

Nella Google Cloud console, vai a alla pagina I miei notebook di Colab Enterprise.

Vai a I miei notebook
Nel menu Regione, seleziona la regione che contiene il notebook.
Fai clic sul notebook che vuoi aprire.
Fai clic sul pulsante Attiva/disattiva Gemini in Colab per aprire la finestra di dialogo della chat.

Nota: puoi spostare la finestra di dialogo della chat in un riquadro separato all'esterno del notebook facendo clic sul Sposta nel riquadro pulsante.
Per fare riferimento ai dati, esegui una delle seguenti operazioni:
- Scegli una o più tabelle utilizzando il selettore di tabelle:
  1. Fai clic Aggiungi a Gemini > Tabelle BigQuery.
  2. Nella finestra Tabelle BigQuery, seleziona una o più tabelle nel tuo progetto. Puoi cercare tabelle tra i progetti e filtrare le tabelle utilizzando la barra di ricerca.
- Includi il nome di una tabella BigQuery direttamente nel prompt. Ad esempio: "Aiutami a eseguire l'analisi esploratoria dei dati e a ottenere insight sui dati in questa tabella: PROJECT_ID:DATASET.TABLE."
  
  Sostituisci quanto segue:
  - PROJECT_ID: il tuo ID progetto.
  - DATASET: il nome del set di dati che contiene la tabella che stai analizzando.
  - TABLE: il nome della tabella che stai analizzando.
- Digita @ per cercare una tabella BigQuery nel progetto corrente.
- Nel prompt, utilizza il linguaggio naturale per descrivere la tabella che vuoi utilizzare e Data Science Agent fa riferimento alla tabella che corrisponde meglio alla tua descrizione.

Utilizzare Data Science Agent

Per iniziare a utilizzare Data Science Agent di Colab Enterprise:

Nella finestra di dialogo della chat Gemini, inserisci un prompt e fai clic su Invia. Per trovare idee per i prompt, esamina le funzionalità di Data Science Agent e consulta Prompt di esempio.

Ad esempio, puoi inserire "Fornisci un'analisi dei dati che ho caricato".

Se non hai ancora autorizzato Data Science Agent, viene visualizzata una breve finestra di dialogo mentre Colab Enterprise autentica il tuo Account Google in Data Science Agent.
Gemini risponde al tuo prompt. La risposta può includere snippet di codice da eseguire, consigli generali per il tuo progetto, passaggi successivi per raggiungere i tuoi obiettivi o informazioni su problemi specifici nei dati o nel codice.

Dopo aver valutato la risposta, puoi:
- Se Gemini fornisce codice nella sua risposta, puoi fare clic su:
  - Accetta per aggiungere il codice al notebook.
  - Accetta ed esegui per aggiungere il codice al notebook ed eseguirlo.
  - Annulla per eliminare il codice suggerito.
- Fai domande aggiuntive e continua la discussione secondo necessità.
Per chiudere la finestra di dialogo Gemini, fai clic su Chiudi.

Disattivare Gemini in Colab Enterprise

Per disattivare Gemini in Colab Enterprise per un Google Cloud progetto, un amministratore deve disattivare l' API Gemini for Google Cloud. Vedi Disabilitare i servizi.

Per disattivare Gemini in Colab Enterprise per un utente specifico, un amministratore deve revocare il ruolo Utente Gemini for Google Cloud (roles/cloudaicompanion.user) per quell'utente. Vedi Revoca un singolo ruolo IAM.

Prompt di esempio

Le sezioni seguenti mostrano esempi dei tipi di prompt che puoi utilizzare con Data Science Agent.

Prompt Python

Il codice Python viene generato per impostazione predefinita, a meno che tu non utilizzi una parola chiave specifica nel prompt, ad esempio "BigQuery ML" o "SQL".

Esamina e compila i valori mancanti utilizzando l'algoritmo di machine learning K-Nearest Neighbor (KNN).
Crea un grafico dello stipendio in base al livello di esperienza. Utilizza la colonna experience_level per raggruppare gli stipendi e crea un box plot per ogni gruppo che mostri i valori della colonna salary_in_usd.
Utilizza l'algoritmo XGBoost per creare un modello per determinare la variabile class di un determinato frutto. Dividi i dati in set di dati di addestramento e test per generare un modello e determinarne l'accuratezza. Crea una matrice di confusione per mostrare le previsioni tra ogni classe, incluse tutte le previsioni corrette e non corrette.
Prevedi target_variable da filename.csv per i prossimi sei mesi.

Prompt SQL e BigQuery ML

Crea e valuta un modello di classificazione su bigquery-public-data.ml_datasets.census_adult_income utilizzando BigQuery SQL.
Utilizzando SQL, prevedi il traffico futuro del mio sito web per il prossimo mese in base a bigquery-public-data.google_analytics_sample.ga_sessions_*. Poi, traccia i valori storici e previsti.
Raggruppa i clienti simili per creare campagne di targeting di mercato utilizzando un modello KMeans e le funzioni SQL di BigQuery ML. Utilizza tre caratteristiche per il clustering. Poi visualizza i risultati creando una serie di grafici a dispersione 2D. Utilizza la tabella bigquery-public-data.ml_datasets.census_adult_income.
Genera incorporamenti di testo in BigQuery ML utilizzando i contenuti delle recensioni in bigquery-public-data.imdb.reviews.

Per un elenco dei modelli e delle attività di machine learning supportati, consulta la documentazione di BigQuery ML.

Prompt DataFrame

Crea un DataFrame pandas per i dati in project_id:dataset.table. Analizza i dati per i valori nulli e poi rappresenta graficamente la distribuzione di ogni colonna utilizzando il tipo di grafico. Utilizza i violin plot per i valori misurati e i grafici a barre per le categorie.
Leggi filename.csv e crea un DataFrame. Esegui l'analisi sul DataFrame per determinare cosa fare con i valori. Ad esempio, ci sono valori mancanti da sostituire o rimuovere o righe duplicate da risolvere? Utilizza il file di dati per determinare la distribuzione del denaro investito in dollari USA per località. Rappresenta graficamente i primi 20 risultati utilizzando un grafico a barre che mostra i risultati in ordine decrescente come Località rispetto a Importo medio investito (USD).
Crea e valuta un modello di classificazione su project_id:dataset.table utilizzando BigQuery DataFrames.
Crea un modello di previsione delle serie temporali su project_id:dataset.table utilizzando BigQuery DataFrames e visualizza le valutazioni del modello.
Visualizza le cifre di vendita dell'anno scorso nella tabella BigQuery project_id:dataset.table utilizzando BigQuery DataFrames.
Trova le caratteristiche che possono prevedere meglio le specie di pinguini dalla tabella bigquery-public_data.ml_datasets.penguins utilizzando BigQuery DataFrames.

Prompt PySpark

Crea e valuta un modello di classificazione su project_id:dataset.table utilizzando Managed Service for Apache Spark.
Raggruppa i clienti simili per creare campagne di targeting di mercato, ma prima esegui la riduzione della dimensionalità utilizzando un modello PCA. Utilizza PySpark per eseguire questa operazione sulla tabella project_id:dataset.table.

Aree geografiche supportate

Per visualizzare le regioni supportate per Data Science Agent di Colab Enterprise, consulta Sedi.

Fatturazione

I prezzi di Data Science Agent si basano sui dati di input e output. Per ulteriori informazioni, consulta Prezzi degli agenti nella pagina dei prezzi di BigQuery.

Controlli di servizio VPC

Data Science Agent supporta i Controlli di servizio VPC. Se vuoi utilizzare il Data Science Agent in un perimetro di servizio, consulta Utilizzare i Controlli di servizio VPC con Colab Enterprise.

Passaggi successivi

Per ulteriori informazioni su come utilizzare Data Science Agent con BigQuery, consulta Utilizzare Data Science Agent di Colab Enterprise con BigQuery.
Leggi la panoramica di Gemini per Google Cloud.

Per altri modi per scrivere e modificare il codice con l'assistenza di Gemini, consulta:

Chattare con Gemini sul notebook

Utilizzare il completamento e la generazione del codice

Spiegare le celle di codice

Spiegare gli errori
Scopri in che modo Gemini per Google Cloud utilizza i tuoi dati.