Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Preparare i dati di addestramento

Questa pagina descrive come preparare i dati tabulari per l'addestramento dei modelli di previsione.

Questa pagina tratta i seguenti argomenti:

Requisiti della struttura dei dati
Prepara l'origine dell'importazione
Aggiungi pesi ai dati di addestramento

Per impostazione predefinita, Agent Platform utilizza un algoritmo di suddivisione cronologica per separare i dati di previsione in tre suddivisioni di dati. In alternativa, puoi utilizzare una suddivisione manuale, ma in questo caso devi preparare una colonna di suddivisione dei dati. Scopri di più sulle suddivisioni dei dati.

Requisiti della struttura dei dati

Per i modelli di previsione, i dati di addestramento devono soddisfare i seguenti requisiti di base:

Tipo di requisito	Requisito
Dimensioni	Il set di dati deve avere una dimensione massima di 100 GB.
Numero di colonne	Il set di dati deve avere almeno 3 e non più di 100 colonne. Ognuna delle osservazioni nel set di dati deve avere una destinazione e un'ora, entrambe fungono da caratteristiche. Inoltre, ogni osservazione deve avere un ID serie temporale, che identifica la serie temporale di cui fa parte l'osservazione. Idealmente, i dati di addestramento hanno molte più di 3 colonne. Il numero massimo di colonne include sia le colonne delle caratteristiche sia le colonne non delle caratteristiche.
Colonna di destinazione	Specifica una colonna di destinazione. La colonna di destinazione consente a Gemini Enterprise Agent Platform di associare i dati di addestramento al risultato desiderato. Non deve contenere valori nulli e deve essere numerica.
Colonna Data/Ora	Devi specificare una colonna Data/Ora e deve avere un valore per ogni riga. La colonna Data/Ora indica l'ora in cui è stata effettuata una determinata osservazione.
Colonna identificatore serie temporale	Devi specificare una colonna identificatore serie temporale e deve avere un valore per ogni riga. I dati di addestramento per la previsione in genere includono più serie temporali e l'identificatore indica ad Agent Platform la serie temporale di cui fa parte una determinata osservazione nei dati di addestramento. Tutte le righe di una determinata serie temporale hanno lo stesso valore nella colonna identificatore serie temporale. Alcuni identificatori di serie temporali comuni potrebbero essere l'ID prodotto, l'ID negozio o una regione. È possibile addestrare un modello di previsione su una singola serie temporale, con un valore identico per tutte le righe nella colonna identificatore serie temporale. Tuttavia, Agent Platform è più adatta ai dati di addestramento che contengono due o più serie temporali. Per risultati ottimali, utilizza almeno 10 serie temporali per ogni colonna utilizzata per addestrare il modello.
Formato del nome della colonna	Il nome della colonna può includere qualsiasi carattere alfanumerico o un trattino basso (`_`). Il nome della colonna non può iniziare con un trattino basso.
Numero di righe	Il set di dati deve avere almeno 1000 e non più di 100.000.000 di righe. Se ci sono più di 100.000.000 di righe, valuta la possibilità di eseguire il downsampling. Per ulteriori informazioni, consulta Strategie a finestra mobile. A seconda del numero di caratteristiche del set di dati, 1000 righe potrebbero non essere sufficienti per addestrare un modello ad alto rendimento. Scopri di più.
Formato dei dati	Utilizza il formato dei dati stretto (a volte chiamato lungo) data format. Nel formato stretto, ogni riga rappresenta l'elemento specificato dall'identificatore della serie temporale per un punto specifico nel tempo, insieme a tutti i dati per quell'elemento in quel punto nel tempo. Scopri come scegliere il formato dei dati.
Intervallo tra le righe	L'intervallo tra le righe di addestramento deve essere coerente. Questa è la granularità dei dati; influisce sulla modalità di addestramento del modello e sulla frequenza dei risultati di inferenza. Scopri come scegliere la granularità dei dati.
Lunghezza della serie temporale	La lunghezza di una serie temporale non deve superare i 3000 passaggi temporali.

Prepara l'origine dell'importazione

Puoi fornire i dati di addestramento del modello a Gemini Enterprise Agent Platform in due formati:

Tabelle BigQuery
Valori separati da virgola (CSV)

L'origine che utilizzi dipende dalla modalità di archiviazione dei dati, nonché dalle dimensioni e dalla complessità dei dati. Se il set di dati è piccolo e non hai bisogno di tipi di dati più complessi, il formato CSV potrebbe essere più semplice. Per i set di dati più grandi che includono array e struct, utilizza BigQuery.

BigQuery

La tabella o la visualizzazione BigQuery deve essere conforme ai requisiti di località di BigQuery.

Se la tabella o la visualizzazione BigQuery si trova in un progetto diverso da quello in cui stai creando il set di dati di Agent Platform oppure se la tabella o la visualizzazione BigQuery è supportata da un'origine dati esterna, aggiungi uno o più ruoli all'agente di servizio di Agent Platform. Consulta i requisiti per l'aggiunta di ruoli per BigQuery.

Non è necessario specificare uno schema per la tabella BigQuery. Agent Platform deduce automaticamente lo schema della tabella quando importi i dati.

L'URI BigQuery (che specifica la località dei dati di addestramento) deve essere conforme al seguente formato:

bq://<project_id>.<dataset_id>.<table_id>

L'URI non può contenere altri caratteri speciali.

Per informazioni sui tipi di dati BigQuery e su come vengono mappati in Agent Platform, consulta Tabelle BigQuery. Per ulteriori informazioni sull'utilizzo delle origini dati esterne di BigQuery, consulta Introduzione alle origini dati esterne.

CSV

I file CSV possono essere in Cloud Storage o sul computer locale. Devono soddisfare i seguenti requisiti:

La prima riga del primo file deve essere un'intestazione contenente i nomi delle colonne. Se la prima riga di un file successivo è uguale all'intestazione, viene a sua volta trattata come un'intestazione, in caso contrario viene trattata come dati.
I nomi delle colonne possono includere qualsiasi carattere alfanumerico o un trattino basso (_). Il nome della colonna non può iniziare con un trattino basso.
Ogni file non deve superare i 10 GB.

Puoi includere più file, fino a una dimensione massima di 100 GB.
Il delimitatore deve essere una virgola (",").

Non è necessario specificare uno schema per i dati CSV. Agent Platform deduce automaticamente lo schema della tabella quando importi i dati e utilizza la riga di intestazione per i nomi delle colonne.

Per ulteriori informazioni sul formato dei file CSV e sui tipi di dati, consulta File CSV.

Se importi i dati da Cloud Storage, devono trovarsi in un bucket che soddisfa i seguenti requisiti:

È conforme ai requisiti dei bucket di Agent Platform.
Se il bucket non si trova nello stesso progetto di Agent Platform, aggiungi uno o più ruoli all'agente di servizio di Agent Platform. Consulta i requisiti per l'aggiunta di ruoli per Cloud Storage.

Se importi i dati dal computer locale, devi avere un bucket Cloud Storage che soddisfi i seguenti requisiti:

È conforme ai requisiti dei bucket di Agent Platform.
Se il bucket non si trova nello stesso progetto di Agent Platform, aggiungi uno o più ruoli all'agente di servizio di Agent Platform. Consulta i requisiti per l'aggiunta di ruoli per Cloud Storage.

Agent Platform utilizza questo bucket come area di gestione temporanea prima di importare i dati.

Aggiungi pesi ai dati di addestramento

Per impostazione predefinita, Agent Platform pesa ogni riga dei dati di addestramento in modo uguale. Ai fini dell'addestramento, nessuna riga è considerata più importante di un'altra.

A volte, potresti voler dare più importanza ad alcune righe per l'addestramento. Ad esempio, se utilizzi i dati di spesa, potresti voler che i dati associati a chi spende di più abbiano un impatto maggiore sul modello. Se vuoi in particolare evitare di perdere un risultato specifico, dai un peso maggiore alle righe con quel risultato.

Aggiungi una colonna di peso al set di dati per assegnare alle righe un peso relativo. La colonna di peso deve essere una colonna numerica. Il valore del peso può essere compreso tra 0 e 10.000. I valori più alti indicano che la riga è più importante durante l'addestramento del modello. Un peso pari a 0 fa sì che la riga venga ignorata. Se includi una colonna di peso, deve contenere un valore per ogni riga.

In un secondo momento, quando addestri il modello, specifica questa colonna come colonna Weight.

Gli schemi di ponderazione personalizzati vengono utilizzati solo per l'addestramento del modello; non influiscono sul test set utilizzato per la valutazione del modello.

Passaggi successivi

Crea il set di dati.
Scopri di più sulle best practice per la creazione di dati di addestramento tabulari.
Scopri come funziona Agent Platform con i diversi tipi di dati tabulari.

Preparare i dati di addestramento Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.