Utilizzare Data Science Agent
Questa guida descrive come puoi utilizzare Data Science Agent in Colab Enterprise per svolgere attività di data science nei tuoi notebook.
Scopri come e quando Gemini for Google Cloud utilizza i tuoi dati.
Questo documento è destinato ad analisti di dati, data scientist e sviluppatori di dati che lavorano con Colab Enterprise. Si presuppone che tu sappia come scrivere codice in un ambiente notebook.
Funzionalità di Data Science Agent
Data Science Agent può aiutarti con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni e previsioni di machine learning. Puoi utilizzare Data Science Agent per:
- Elaborazione dei dati su larga scala: utilizza BigQuery ML, BigQuery DataFrames o Managed Service for Apache Spark per eseguire l'elaborazione distribuita dei dati su set di dati di grandi dimensioni. In questo modo puoi pulire, trasformare e analizzare in modo efficiente i dati troppo grandi per essere contenuti nella memoria di una singola macchina.
- Generazione di piani: genera e modifica un piano per completare una determinata attività utilizzando strumenti comuni come Python, SQL, Apache Spark e BigQuery DataFrames.
- Esplorazione dei dati: esplora un set di dati per comprenderne la struttura, identificare potenziali problemi come valori mancanti e outlier ed esaminare la distribuzione delle variabili chiave.
- Pulizia dei dati: pulisci i dati. Ad esempio, rimuovi i punti dati che sono outlier.
- Data wrangling: converti le caratteristiche categoriche in rappresentazioni numeriche utilizzando tecniche come la codifica one-hot o la codifica delle etichette. Crea nuove caratteristiche per l'analisi.
- Analisi dei dati: analizza le relazioni tra diverse variabili. Calcola le correlazioni tra le caratteristiche numeriche ed esplora le distribuzioni delle caratteristiche categoriche. Cerca pattern e tendenze nei dati.
- Visualizzazione dei dati: crea visualizzazioni come istogrammi, box plot, grafici a dispersione e grafici a barre che rappresentano le distribuzioni delle singole variabili e le relazioni tra loro.
- Feature engineering: crea nuove caratteristiche da un set di dati pulito.
- Suddivisione dei dati: suddivide un set di dati di ingegneria in set di dati di addestramento, convalida, e test.
- Addestramento del modello: addestra un modello utilizzando i dati di addestramento in un DataFrame pandas, un
BigQuery DataFrames,
un DataFrame PySpark,
o utilizzando l'istruzione
CREATE MODELdi BigQuery ML con le tabelle BigQuery. - Ottimizzazione del modello: ottimizza un modello utilizzando il set di validazione.
Esplora modelli alternativi come
DecisionTreeRegressoreRandomForestRegressore confronta le loro prestazioni. - Valutazione del modello: valuta le prestazioni del modello su un set di dati di test utilizzando un DataFrame pandas, BigQuery DataFrames o un DataFrame PySpark. Puoi anche valutare la qualità del modello e confrontare i modelli utilizzando BigQuery ML le funzioni di valutazione del modello per i modelli addestrati utilizzando BigQuery ML.
- Inferenza del modello: esegui l'inferenza con i modelli addestrati BigQuery ML, i modelli importati e i modelli remoti utilizzando le funzioni di inferenza BigQuery ML. Puoi anche utilizzare
il metodo
model.predict()di BigQuery DataFrames o i trasformatori PySpark per fare previsioni.
Limitazioni
- Data Science Agent supporta le seguenti origini dati:
- File CSV
- Tabelle BigQuery
- Il codice prodotto da Data Science Agent viene eseguito solo nel runtime del notebook.
- Il notebook deve trovarsi in una regione supportata da Data Science Agent. Consulta Sedi.
- La prima volta che esegui Data Science Agent, potresti riscontrare una latenza di circa 5-10 minuti. Questo si verifica una sola volta per progetto durante la configurazione iniziale.
- La ricerca di tabelle BigQuery utilizzando la funzione
@mentionè limitata al progetto corrente. Utilizza il selettore di tabelle per cercare tra i progetti. - La funzione
@mentioncerca solo le tabelle BigQuery. Per cercare i file di dati che puoi caricare, utilizza il simbolo+. - PySpark in Data Science Agent genera solo codice Apache Spark 4.0. DSA può aiutarti ad eseguire l'upgrade ad Apache Spark 4.0, ma gli utenti che richiedono versioni precedenti di Apache Spark non devono utilizzare Data Science Agent.
Prima di iniziare
- Accedi al tuo Google Cloud account. Se non hai mai utilizzato Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per utilizzare Data Science Agent in Colab Enterprise,
chiedi all'amministratore di concederti il
ruolo IAM Utente Colab Enterprise (roles/aiplatform.colabEnterpriseUser) nel progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Fare riferimento ai dati
Per consentire a Data Science Agent di Colab Enterprise di accedere ai tuoi dati e utilizzarli, puoi caricare un file CSV o fare riferimento a una tabella BigQuery.
File CSV
-
Nella Google Cloud console, vai a alla pagina I miei notebook di Colab Enterprise.
-
Nel menu Regione, seleziona la regione che contiene il notebook.
-
Fai clic sul notebook che vuoi aprire.
-
Fai clic sul pulsante Attiva/disattiva Gemini in Colab per aprire la finestra di dialogo della chat.
- Nella finestra di dialogo della chat, fai clic su Aggiungi file > Carica.
-
Se necessario, autorizza il tuo Account Google.
Attendi qualche istante che Colab Enterprise avvii un runtime e attivi l'esplorazione dei file.
- Vai alla posizione del file e fai clic su Apri.
-
Fai clic su OK per confermare che i file di questo runtime verranno eliminati quando il runtime verrà eliminato.
Il file viene caricato nel riquadro File e viene visualizzato nella finestra della chat.
Tabella BigQuery
-
Nella Google Cloud console, vai a alla pagina I miei notebook di Colab Enterprise.
-
Nel menu Regione, seleziona la regione che contiene il notebook.
-
Fai clic sul notebook che vuoi aprire.
-
Fai clic sul pulsante Attiva/disattiva Gemini in Colab per aprire la finestra di dialogo della chat.
-
Per fare riferimento ai tuoi dati, esegui una delle seguenti operazioni:
-
Scegli una o più tabelle utilizzando il selettore di tabelle:
- Fai clic Aggiungi a Gemini > Tabelle BigQuery.
- Nella finestra Tabelle BigQuery, seleziona una o più tabelle nel tuo progetto. Puoi cercare le tabelle tra i progetti e filtrarle utilizzando la barra di ricerca.
-
Includi il nome di una tabella BigQuery direttamente nel prompt. Ad esempio: "Aiutami a eseguire l'analisi esploratoria dei dati e a ottenere insight sui dati in questa tabella:
PROJECT_ID:DATASET.TABLE."Sostituisci quanto segue:
PROJECT_ID: il tuo ID progetto.DATASET: il nome del set di dati che contiene la tabella che stai analizzando.TABLE: il nome della tabella che stai analizzando.
-
Digita
@per cercare una tabella BigQuery nel progetto corrente.
-
Utilizzare Data Science Agent
Per iniziare a utilizzare Data Science Agent di Colab Enterprise:
-
Nella finestra di dialogo della chat Gemini, inserisci un prompt e fai clic su Invia. Per trovare idee per i prompt, esamina le funzionalità di Data Science Agent e consulta Prompt di esempio.
Ad esempio, puoi inserire "Fornisci un'analisi dei dati che ho caricato".
Se non hai ancora autorizzato Data Science Agent, viene visualizzata una breve finestra di dialogo mentre Colab Enterprise autentica il tuo Account Google in Data Science Agent.
-
Gemini risponde al tuo prompt. La risposta può includere snippet di codice da eseguire, consigli generali per il tuo progetto, passaggi successivi per raggiungere i tuoi obiettivi o informazioni su problemi specifici nei dati o nel codice.
Dopo aver valutato la risposta, puoi:
- Se Gemini fornisce codice nella sua risposta, puoi fare clic su:
- Accetta per aggiungere il codice al notebook.
- Accetta ed esegui per aggiungere il codice al notebook ed eseguirlo.
- Annulla per eliminare il codice suggerito.
- Poni domande di follow-up e continua la discussione, se necessario.
- Se Gemini fornisce codice nella sua risposta, puoi fare clic su:
-
Per chiudere la finestra di dialogo Gemini, fai clic su Chiudi.
Disattivare Gemini in Colab Enterprise
Per disattivare Gemini in Colab Enterprise per un Google Cloud progetto, un amministratore deve disattivare l' API Gemini for Google Cloud. Consulta Disattivare i servizi.
Per disattivare Gemini in Colab Enterprise per un utente specifico, un
amministratore deve revocare il
ruolo Gemini for
Google Cloud User (roles/cloudaicompanion.user) per quell'utente. Consulta
Revoca
un singolo ruolo IAM.
Prompt di esempio
Le sezioni seguenti mostrano esempi dei tipi di prompt che puoi utilizzare con Data Science Agent.
Prompt Python
Il codice Python viene generato per impostazione predefinita, a meno che tu non utilizzi una parola chiave specifica nel prompt, ad esempio "BigQuery ML" o "SQL".
- Esamina e compila i valori mancanti utilizzando l'algoritmo di machine learning K-Nearest Neighbor (KNN).
- Crea un grafico dello stipendio in base al livello di esperienza. Utilizza la colonna
experience_levelper raggruppare gli stipendi e crea un box plot per ogni gruppo che mostri i valori della colonnasalary_in_usd. - Utilizza l'algoritmo XGBoost per creare un modello per determinare la variabile
classdi un determinato frutto. Suddividi i dati in set di dati di addestramento e test per generare un modello e determinarne l'accuratezza. Crea una matrice di confusione per mostrare le previsioni tra ogni classe, incluse tutte le previsioni corrette e non corrette. - Prevedi
target_variabledafilename.csvper i prossimi sei mesi.
Prompt SQL e BigQuery ML
- Crea e valuta un modello di classificazione su
bigquery-public-data.ml_datasets.census_adult_incomeutilizzando BigQuery SQL. - Utilizzando SQL, prevedi il traffico futuro del mio sito web per il prossimo mese in base a
bigquery-public-data.google_analytics_sample.ga_sessions_*. Poi, traccia i valori storici e previsti. - Raggruppa i clienti simili per creare campagne di marketing di targeting utilizzando un modello KMeans e le funzioni SQL di BigQuery ML. Utilizza tre caratteristiche per il clustering. Quindi visualizza i risultati creando una serie di grafici a dispersione 2D. Utilizza la tabella
bigquery-public-data.ml_datasets.census_adult_income. - Genera incorporamenti di testo in BigQuery ML utilizzando i contenuti delle recensioni in
bigquery-public-data.imdb.reviews.
Per un elenco dei modelli e delle attività di machine learning supportati, consulta la documentazione di BigQuery ML.
Prompt DataFrame
- Crea un DataFrame pandas per i dati in
project_id:dataset.table. Analizza i dati per i valori nulli e poi rappresenta graficamente la distribuzione di ogni colonna utilizzando il tipo di grafico. Utilizza i grafici a violino per i valori misurati e i grafici a barre per le categorie. - Leggi
filename.csve crea un DataFrame. Esegui l'analisi sul DataFrame per determinare cosa deve essere fatto con i valori. Ad esempio, ci sono valori mancanti che devono essere sostituiti o rimossi oppure ci sono righe duplicate che devono essere gestite? Utilizza il file di dati per determinare la distribuzione del denaro investito in dollari USA per località. Rappresenta graficamente i primi 20 risultati utilizzando un grafico a barre che mostra i risultati in ordine decrescente come Località rispetto a Importo medio investito (USD). - Crea e valuta un modello di classificazione su
project_id:dataset.tableutilizzando BigQuery DataFrames. - Crea un modello di previsione delle serie temporali su
project_id:dataset.tableutilizzando BigQuery DataFrames e visualizza le valutazioni del modello. - Visualizza le cifre di vendita dell'anno scorso nella tabella BigQuery
project_id:dataset.tableutilizzando BigQuery DataFrames. - Trova le caratteristiche che possono prevedere meglio la specie di pinguino dalla tabella
bigquery-public_data.ml_datasets.penguinsutilizzando BigQuery DataFrames.
Prompt PySpark
- Crea e valuta un modello di classificazione su
project_id:dataset.tableutilizzando Managed Service for Apache Spark. - Raggruppa i clienti simili per creare campagne di marketing di targeting, ma prima esegui la riduzione della dimensionalità utilizzando un modello PCA. Utilizza PySpark per eseguire questa operazione
sulla tabella
project_id:dataset.table.
Aree geografiche supportate
Per visualizzare le regioni supportate per Data Science Agent di Colab Enterprise, consulta Sedi.
Fatturazione
Durante l'anteprima, ti viene addebitato solo il costo dell'esecuzione del codice nel runtime del notebook. Per ulteriori informazioni, consulta i prezzi di Colab Enterprise.
Controlli di servizio VPC
Data Science Agent supporta i Controlli di servizio VPC. Se vuoi utilizzare il Data Science Agent in un perimetro di servizio, consulta Utilizzare i Controlli di servizio VPC con Colab Enterprise.
Passaggi successivi
Per ulteriori informazioni su come utilizzare Data Science Agent con BigQuery, consulta Utilizzare Data Science Agent di Colab Enterprise con BigQuery.
Leggi la panoramica di Gemini for Google Cloud.
Per altri modi per scrivere e modificare il codice con l'assistenza di Gemini, consulta: