Crea un set di dati tabulare della piattaforma agentica Gemini Enterprise

Il modello che creerai più avanti in questo tutorial richiede un set di dati per l'addestramento. I dati utilizzati in questo tutorial sono un set di dati disponibile pubblicamente che contiene dettagli su tre specie di pinguini. I seguenti dati vengono utilizzati per prevedere a quale delle tre specie appartiene un pinguino.

  • island : l'isola in cui si trova una specie di pinguini.
  • culmen_length_mm : la lunghezza della cresta lungo la parte superiore del becco di un pinguino.
  • culmen_depth_mm : l'altezza del becco di un pinguino.
  • flipper_length_mm : la lunghezza dell'ala a forma di pinna di un pinguino.
  • body_mass_g : la massa del corpo di un pinguino.
  • sex : il sesso del pinguino.

Scaricare, pre-elaborare e suddividere i dati

In questa sezione, scaricherai il set di dati BigQuery disponibile pubblicamente e preparerai i relativi dati. Per preparare i dati:

  • Converti le caratteristiche categoriche (caratteristiche descritte con una stringa anziché un numero) in dati numerici. Ad esempio, converti i nomi dei tre tipi di pinguini nei valori numerici 0, 1 e 2.

  • Rimuovi le colonne del set di dati che non vengono utilizzate.

  • Rimuovi le righe che non possono essere utilizzate.

  • Suddividi i dati in due set di dati distinti. Ogni set di dati è archiviato in un oggetto DataFrame pandas.

    • DataFrame df_train contiene i dati utilizzati per addestrare il modello.

    • DataFrame df_for_prediction contiene i dati utilizzati per generare le previsioni.

Dopo l'elaborazione dei dati, il codice mappa i valori numerici delle tre colonne categoriche ai relativi valori stringa, quindi li stampa in modo che tu possa vedere l'aspetto dei dati.

Per scaricare ed elaborare i dati, esegui il seguente codice nel notebook:

import numpy as np
import pandas as pd

LABEL_COLUMN = "species"

# Define the BigQuery source dataset
BQ_SOURCE = "bigquery-public-data.ml_datasets.penguins"

# Define NA values
NA_VALUES = ["NA", "."]

# Download a table
table = bq_client.get_table(BQ_SOURCE)
df = bq_client.list_rows(table).to_dataframe()

# Drop unusable rows
df = df.replace(to_replace=NA_VALUES, value=np.NaN).dropna()

# Convert categorical columns to numeric
df["island"], island_values = pd.factorize(df["island"])
df["species"], species_values = pd.factorize(df["species"])
df["sex"], sex_values = pd.factorize(df["sex"])

# Split into a training and holdout dataset
df_train = df.sample(frac=0.8, random_state=100)
df_for_prediction = df[~df.index.isin(df_train.index)]

# Map numeric values to string values
index_to_island = dict(enumerate(island_values))
index_to_species = dict(enumerate(species_values))
index_to_sex = dict(enumerate(sex_values))

# View the mapped island, species, and sex data
print(index_to_island)
print(index_to_species)
print(index_to_sex)

Di seguito sono riportati i valori mappati stampati per le caratteristiche non numeriche:

{0: 'Dream', 1: 'Biscoe', 2: 'Torgersen'}
{0: 'Adelie Penguin (Pygoscelis adeliae)', 1: 'Chinstrap penguin (Pygoscelis antarctica)', 2: 'Gentoo penguin (Pygoscelis papua)'}
{0: 'FEMALE', 1: 'MALE'}

I primi tre valori sono le isole in cui potrebbe vivere un pinguino. I secondi tre valori sono importanti perché vengono mappati alle previsioni che riceverai alla fine di questo tutorial. La terza riga mostra che la caratteristica di sesso FEMALE viene mappata a 0 e la caratteristica di sesso MALE viene mappata a 1.

Creare un set di dati tabulari per l'addestramento del modello

Nel passaggio precedente hai scaricato ed elaborato i dati. In questo passaggio, caricherai i dati archiviati in DataFrame df_train in un set di dati BigQuery. Poi, utilizzerai il set di dati BigQuery per creare un set di dati tabulari della piattaforma agentica Gemini Enterprise. Questo set di dati tabulari viene utilizzato per addestrare il modello. Per maggiori informazioni, consulta Utilizzare i set di dati gestiti.

Creare un set di dati BigQuery

Per creare il set di dati BigQuery utilizzato per creare un set di dati della piattaforma agentica Gemini Enterprise, esegui il seguente codice. Il create_dataset comando restituisce un nuovo DataSet BigQuery.

# Create a BigQuery dataset
bq_dataset_id = f"{project_id}.dataset_id_unique"
bq_dataset = bigquery.Dataset(bq_dataset_id)
bq_client.create_dataset(bq_dataset, exists_ok=True)

Creare un set di dati tabulari della piattaforma agentica Gemini Enterprise

Per convertire il set di dati BigQuery in un set di dati tabulari della piattaforma agentica Gemini Enterprise, esegui il seguente codice. Puoi ignorare l'avviso relativo al numero di righe richieste per l'addestramento utilizzando i dati tabulari. Poiché lo scopo di questo tutorial è mostrarti rapidamente come ottenere le previsioni, viene utilizzato un set di dati relativamente piccolo per mostrarti come generare le previsioni. In uno scenario reale, ti consigliamo di avere almeno 1000 righe in un set di dati tabulari. Il create_from_dataframe comando restituisce una piattaforma agentica Gemini Enterprise TabularDataset.

# Create a Agent Platform tabular dataset
dataset = aiplatform.TabularDataset.create_from_dataframe(
    df_source=df_train,
    staging_path=f"bq://{bq_dataset_id}.table-unique",
    display_name="sample-penguins",
)

Ora hai il set di dati tabulari della piattaforma agentica Gemini Enterprise utilizzato per addestrare il modello.

(Facoltativo) Visualizzare il set di dati pubblico in BigQuery

Se vuoi visualizzare i dati pubblici utilizzati in questo tutorial, puoi aprirli in BigQuery.

  1. In Cerca in the Google Cloud, inserisci BigQuery, quindi premi Invio.

  2. Nei risultati di ricerca, fai clic su BigQuery.

  3. Nella finestra Spazio di esplorazione, espandi bigquery-public-data.

  4. In bigquery-public-data, espandi ml_datasets, quindi fai clic su penguins.

  5. Fai clic su uno dei nomi in Nome campo per visualizzare i dati del campo.

Visualizza il set di dati pubblico sui pinguini.