Utilizzare Data Science Agent
Questa guida descrive come utilizzare Data Science Agent in Colab Enterprise per aiutarti a svolgere attività di data science nei tuoi notebook.
Scopri come e quando Gemini per Google Cloud utilizza i tuoi dati.
Questo documento è destinato ad analisti di dati, data scientist e sviluppatori di dati che lavorano con Colab Enterprise. Presuppone che tu sappia come scrivere codice in un ambiente notebook.
Funzionalità di Data Science Agent
Data Science Agent può aiutarti con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni e proiezioni di machine learning. Puoi utilizzare Data Science Agent per:
- Elaborazione dei dati su larga scala: utilizza BigQuery ML, BigQuery DataFrames o Serverless per Apache Spark per eseguire l'elaborazione distribuita dei dati su grandi set di dati. In questo modo puoi pulire, trasformare e analizzare in modo efficiente i dati troppo grandi per essere memorizzati nella memoria di una singola macchina.
- Generazione di piani: genera e modifica un piano per completare una determinata attività utilizzando strumenti comuni come Python, SQL, Apache Spark e BigQuery DataFrames.
- Esplorazione dei dati: esplora un set di dati per comprenderne la struttura, identificare potenziali problemi come valori mancanti e outlier ed esaminare la distribuzione delle variabili chiave.
- Pulizia dei dati: pulisci i dati. Ad esempio, rimuovi i punti dati che sono valori anomali.
- Data wrangling: converti le caratteristiche categoriche in rappresentazioni numeriche utilizzando tecniche come la codifica one-hot o la codifica delle etichette. Crea nuove funzionalità per l'analisi.
- Analisi dei dati: analizza le relazioni tra diverse variabili. Calcola le correlazioni tra le caratteristiche numeriche ed esplora le distribuzioni delle caratteristiche categoriche. Cerca pattern e tendenze nei dati.
- Visualizzazione dei dati: crea visualizzazioni come istogrammi, box plot, grafici a dispersione e grafici a barre che rappresentano le distribuzioni delle singole variabili e le relazioni tra loro.
- Feature engineering: crea nuove funzionalità da un set di dati pulito.
- Suddivisione dei dati: dividi un set di dati creato in set di dati di addestramento, convalida e test.
- Addestramento del modello: addestra un modello utilizzando i dati di addestramento in un pandas DataFrame, un BigQuery DataFrames, un PySpark DataFrame o utilizzando l'istruzione
CREATE MODELBigQuery ML con le tabelle BigQuery. - Ottimizzazione del modello: ottimizza un modello utilizzando il set di convalida.
Esplora modelli alternativi come
DecisionTreeRegressoreRandomForestRegressore confrontane il rendimento. - Valutazione del modello: valuta le prestazioni del modello su un set di dati di test utilizzando un DataFrame pandas, BigQuery DataFrames o un DataFrame PySpark. Puoi anche valutare la qualità del modello e confrontare i modelli utilizzando le funzioni di valutazione dei modelli di BigQuery ML per i modelli addestrati utilizzando BigQuery ML.
- Inferenza del modello: esegui l'inferenza con modelli addestrati, modelli importati e modelli remoti di BigQuery ML utilizzando le funzioni di inferenza di BigQuery ML. Puoi anche utilizzare
il metodo
model.predict()BigQuery DataFrames o i trasformatori PySpark per fare previsioni.
Limitazioni
- Data Science Agent supporta le seguenti origini dati:
- File CSV
- Tabelle BigQuery
- Il codice prodotto da Data Science Agent viene eseguito solo nel runtime del notebook.
- Il notebook deve trovarsi in una regione supportata da Data Science Agent. Consulta la sezione Località.
- Data Science Agent non è supportato nei progetti in cui sono stati attivati i Controlli di servizio VPC.
- La prima volta che esegui Data Science Agent, potresti riscontrare una latenza di circa 5-10 minuti. Questo avviene solo una volta per progetto durante la configurazione iniziale.
- La ricerca di tabelle BigQuery utilizzando la funzione
@mentionè limitata al progetto corrente. Utilizza il selettore di tabelle per eseguire ricerche nei progetti. - La funzione
@mentionesegue ricerche solo nelle tabelle BigQuery. Per cercare i file di dati che puoi caricare, utilizza il simbolo+. - PySpark in Data Science Agent genera solo codice Apache Spark 4.0. Il DSA può aiutarti a eseguire l'upgrade ad Apache Spark 4.0, ma gli utenti che richiedono versioni precedenti di Apache Spark non devono utilizzare Data Science Agent.
Prima di iniziare
- Accedi al tuo account Google Cloud . Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per utilizzare l'agente Data Science in Colab Enterprise, chiedi all'amministratore di concederti il ruolo IAM Utente Colab Enterprise (roles/aiplatform.colabEnterpriseUser) nel progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Fare riferimento ai dati
Per consentire a Data Science Agent di Colab Enterprise di accedere ai tuoi dati e utilizzarli, puoi caricare un file CSV o fare riferimento a una tabella BigQuery.
File CSV
-
Nella console Google Cloud , vai alla pagina I miei notebook di Colab Enterprise.
-
Nel menu Regione, seleziona la regione che contiene il notebook.
-
Fai clic sul notebook che vuoi aprire.
-
Fai clic sul pulsante Attiva/disattiva Gemini in Colab per aprire la finestra di dialogo della chat.
- Nella finestra di dialogo della chat, fai clic su Aggiungi file > Carica.
-
Se necessario, autorizza il tuo Account Google.
Attendi qualche istante l'avvio di un runtime da parte di Colab Enterprise e l'attivazione della navigazione dei file.
- Individua la posizione del file e fai clic su Apri.
-
Fai clic su Ok per confermare che i file di questo runtime verranno eliminati quando il runtime verrà eliminato.
Il file viene caricato nel riquadro File e viene visualizzato nella finestra della chat.
Tabella BigQuery
-
Nella console Google Cloud , vai alla pagina I miei notebook di Colab Enterprise.
-
Nel menu Regione, seleziona la regione che contiene il notebook.
-
Fai clic sul notebook che vuoi aprire.
-
Fai clic sul pulsante Attiva/disattiva Gemini in Colab per aprire la finestra di dialogo della chat.
-
Per fare riferimento ai tuoi dati, esegui una delle seguenti operazioni:
-
Scegli una o più tabelle utilizzando il selettore di tabelle:
- Fai clic su Aggiungi a Gemini > Tabelle BigQuery.
- Nella finestra Tabelle BigQuery, seleziona una o più tabelle nel tuo progetto. Puoi cercare tabelle tra i progetti e filtrarle utilizzando la barra di ricerca.
-
Includi il nome di una tabella BigQuery direttamente nel prompt. Ad esempio: "Aiutami a eseguire un'analisi esplorativa dei dati e a ottenere approfondimenti sui dati in questa tabella:
PROJECT_ID:DATASET.TABLE".Sostituisci quanto segue:
PROJECT_ID: il tuo ID progetto.DATASET: il nome del set di dati che contiene la tabella che stai analizzando.TABLE: il nome della tabella che stai analizzando.
-
Digita
@per cercare una tabella BigQuery nel progetto corrente.
-
Utilizzare Data Science Agent
Per iniziare a utilizzare Data Science Agent di Colab Enterprise, svolgi le seguenti operazioni:
-
Nella finestra di dialogo della chat di Gemini, inserisci un prompt e fai clic su Invia. Per trovare idee per i prompt, consulta le funzionalità di Data Science Agent e guarda gli esempi di prompt.
Ad esempio, potresti inserire "Fornisci un'analisi dei dati che ho caricato".
Se non hai ancora autorizzato Data Science Agent, viene visualizzata una breve finestra di dialogo mentre Colab Enterprise autentica il tuo Account Google per Data Science Agent.
-
Gemini risponde al tuo prompt. La risposta può includere snippet di codice da eseguire, consigli generali per il tuo progetto, passaggi successivi per raggiungere i tuoi obiettivi o informazioni su problemi specifici nei tuoi dati o nel tuo codice.
Dopo aver valutato la risposta, puoi:
- Se Gemini fornisce codice nella sua risposta, puoi fare clic su:
- Fai clic su Accetta per aggiungere il codice al notebook.
- Accetta ed esegui per aggiungere il codice al notebook ed eseguirlo.
- Annulla per eliminare il codice suggerito.
- Fai domande aggiuntive e continua la discussione in base alle esigenze.
- Se Gemini fornisce codice nella sua risposta, puoi fare clic su:
-
Per chiudere la finestra di dialogo Gemini, fai clic su Chiudi.
Disattiva Gemini in Colab Enterprise
Per disattivare Gemini in Colab Enterprise per un progetto Google Cloud , un amministratore deve disattivare l'API Gemini for Google Cloud. Vedi Disabilitare i servizi.
Per disattivare Gemini in Colab Enterprise per un utente specifico, un
amministratore deve revocare il ruolo
Gemini for
Google Cloud User (roles/cloudaicompanion.user) per quell'utente. Vedi
Revoca
di un singolo ruolo IAM.
Prompt di esempio
Le sezioni seguenti mostrano esempi dei tipi di prompt che puoi utilizzare con l'agente Data Science.
Prompt Python
Il codice Python viene generato per impostazione predefinita, a meno che tu non utilizzi una parola chiave specifica nel prompt, ad esempio "BigQuery ML" o "SQL".
- Esamina e compila i valori mancanti utilizzando l'algoritmo di machine learning k-Nearest Neighbors (KNN).
- Crea un grafico dello stipendio in base al livello di esperienza. Utilizza la colonna
experience_levelper raggruppare gli stipendi e crea un box plot per ogni gruppo che mostri i valori della colonnasalary_in_usd. - Utilizza l'algoritmo XGBoost per creare un modello per determinare la variabile
classdi un determinato frutto. Dividi i dati in set di dati di addestramento e test per generare un modello e determinare la sua accuratezza. Crea una matrice di confusione per mostrare le previsioni per ogni classe, incluse tutte le previsioni corrette e non corrette. - Previsione
target_variabledifilename.csvper i sei mesi successivi.
Prompt SQL e BigQuery ML
- Crea e valuta un modello di classificazione su
bigquery-public-data.ml_datasets.census_adult_incomeutilizzando BigQuery SQL. - Utilizzando SQL, prevedi il traffico futuro del mio sito web per il prossimo mese
in base a
bigquery-public-data.google_analytics_sample.ga_sessions_*. Poi traccia i valori storici e previsti. - Raggruppa clienti simili per creare campagne di marketing di targeting utilizzando un modello KMeans e le funzioni SQL di BigQuery ML. Utilizza tre funzionalità per
il clustering. Quindi visualizza i risultati creando una serie di grafici a dispersione 2D. Utilizza la tabella
bigquery-public-data.ml_datasets.census_adult_income. - Genera incorporamenti di testo in BigQuery ML utilizzando i contenuti delle recensioni in
bigquery-public-data.imdb.reviews.
Per un elenco di modelli e attività di machine learning supportati, consulta la documentazione di BigQuery ML.
Prompt DataFrame
- Crea un DataFrame Pandas per i dati in
project_id:dataset.table. Analizza i dati per i valori nulli e poi traccia un grafico della distribuzione di ogni colonna utilizzando il tipo di grafico. Utilizza i grafici a violino per i valori misurati e i grafici a barre per le categorie. - Leggi
filename.csve crea un DataFrame. Esegui l'analisi del DataFrame per determinare cosa fare con i valori. Ad esempio, ci sono valori mancanti che devono essere sostituiti o rimossi o righe duplicate che devono essere gestite. Utilizza il file di dati per determinare la distribuzione del denaro investito in dollari per località cittadina. Rappresenta graficamente i primi 20 risultati utilizzando un grafico a barre che mostri i risultati in ordine decrescente come Località rispetto all'importo medio investito (USD). - Crea e valuta un modello di classificazione su
project_id:dataset.tableutilizzando BigQuery DataFrames. - Crea un modello di previsione delle serie temporali su
project_id:dataset.tableutilizzando BigQuery DataFrames e visualizza le valutazioni del modello. - Visualizza le cifre di vendita dell'ultimo anno nella tabella BigQuery
project_id:dataset.tableutilizzando BigQuery DataFrames. - Trova le funzionalità che possono prevedere meglio la specie di pinguino dalla
tabella
bigquery-public_data.ml_datasets.penguinsutilizzando BigQuery DataFrames.
Prompt PySpark
- Crea e valuta un modello di classificazione su
project_id:dataset.tableutilizzando Serverless per Apache Spark. - Raggruppa clienti simili per creare campagne di targeting sul mercato, ma
prima esegui la riduzione della dimensionalità utilizzando un modello PCA. Utilizza PySpark per farlo
nella tabella
project_id:dataset.table.
Aree geografiche supportate
Per visualizzare le regioni supportate per Data Science Agent di Colab Enterprise, consulta Località.
Fatturazione
Durante l'anteprima, ti vengono addebitati i costi solo per l'esecuzione del codice nel runtime del notebook. Per ulteriori informazioni, consulta la pagina Prezzi di Colab Enterprise.
Passaggi successivi
Per ulteriori informazioni su come utilizzare Data Science Agent con BigQuery, consulta Utilizzare Data Science Agent per Colab Enterprise con BigQuery.
Leggi la panoramica di Gemini per Google Cloud.
Per altri modi per scrivere e modificare il codice con l'aiuto di Gemini, consulta quanto segue:
Scopri in che modo Gemini per Google Cloud utilizza i tuoi dati.