Informazioni sull'ottimizzazione fine supervisionata per i modelli Gemini

Il fine-tuning supervisionato è una validissima opzione se hai un'attività ben definita con dati etichettati disponibili. È particolarmente efficace per le applicazioni specifiche di un settore, dove il linguaggio o i contenuti si discostano notevolmente dai dati su cui il modello più grande è stato originariamente addestrato. Puoi ottimizzare i tipi di dati di testo, immagine, audio, video e documento. Puoi anche creare applicazioni e agenti basati su Gemini in grado di interagire con informazioni e servizi in tempo reale come database, sistemi di gestione delle relazioni con i clienti e repository di documenti.

Il fine-tuning supervisionato adatta il comportamento del modello con un set di dati etichettato. Questo processo regola i pesi del modello per ridurre al minimo la discrepanza tra le sue previsioni e le etichette reali. Ad esempio, può migliorare il rendimento del modello per i seguenti tipi di attività:

  • Classificazione
  • Riassunto
  • Question answering estrattivo
  • Chat

Per una discussione sui principali casi d'uso dell'ottimizzazione, consulta il post del blog Hundreds of organizations are fine-tuning Gemini models. Ecco i loro casi d'uso preferiti use cases.

Per saperne di più, consulta Quando utilizzare il fine-tuning supervisionato per Gemini.

Modelli supportati

I seguenti modelli Gemini supportano il fine-tuning supervisionato:

Per i modelli che supportano il pensiero, imposta il budget di pensiero (per i modelli Gemini 2.5 e versioni precedenti) o il livello di pensiero (per Gemini 3 e versioni successive) sul valore minimo consentito per l'impostazione. In questo modo puoi migliorare il rendimento e ridurre i costi per le attività ottimizzate. Durante il fine-tuning supervisionato, il modello apprende dai dati di addestramento e omette il processo di pensiero. Di conseguenza, il modello ottimizzato risultante può eseguire le attività ottimizzate in modo efficace senza un budget di pensiero.

Limitazioni

Il fine-tuning supervisionato non è un servizio coperto ed è escluso dallo SLO di qualsiasi contratto di livello di servizio.

La tabella seguente mostra le limitazioni relative ai set di dati di fine-tuning supervisionato:

Gemini 3.1 Flash-Lite

Specifica Valore
Token di input e output massimi per esempio di addestramento 131.072
Token di pubblicazione di input e output massimi Uguali al modello Gemini di base
Numero massimo di esempi in un set di dati di convalida 5000 esempi o il 30% del numero di esempi di addestramento se sono presenti più di 1000 esempi di convalida
Dimensione massima del file del set di dati di addestramento 1 GB per JSONL
Dimensione massima del set di dati di addestramento 10 milioni di esempi solo di testo o 300.000 esempi multimodali
Dimensioni adattatore I valori supportati sono 1, 2, 4, 8 e 16
Endpoint supportati per l'ottimizzazione del modello us-central1 e europe-west4
Endpoint supportato per l'erogazione del modello ottimizzato Endpoint multiregionali us e eu solo
Supporto CMEK Non supportata

Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

Specifica Valore
Token di input e output massimi per esempio di addestramento 131.072
Token di pubblicazione di input e output massimi Uguali al modello Gemini di base
Numero massimo di esempi in un set di dati di convalida 5000 esempi o il 30% del numero di esempi di addestramento se sono presenti più di 1000 esempi di convalida
Dimensione massima del file del set di dati di addestramento 1 GB per JSONL
Dimensione massima del set di dati di addestramento 10 milioni di esempi solo di testo o 300.000 esempi multimodali
Dimensioni adattatore I valori supportati sono 1, 2, 4, 8 e 16

Gemini 2.5 Pro

Specifica Valore
Token di addestramento di input e output massimi 131.072
Token di pubblicazione di input e output massimi Uguali al modello Gemini di base
Dimensione massima del set di dati di convalida 5000 esempi o il 30% del numero di esempi di addestramento se sono presenti più di 1000 esempi di convalida
Dimensione massima del file del set di dati di addestramento 1 GB per JSONL
Dimensione massima del set di dati di addestramento 10 milioni di esempi solo di testo o 300.000 esempi multimodali
Dimensioni adattatore I valori supportati sono 1, 2, 4 e 8

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Specifica Valore
Token di addestramento di input e output massimi 131.072
Token di pubblicazione di input e output massimi Uguali al modello Gemini di base
Dimensione massima del set di dati di convalida 5000 esempi o il 30% del numero di esempi di addestramento se sono presenti più di 1000 esempi di convalida
Dimensione massima del file del set di dati di addestramento 1 GB per JSONL
Dimensione massima del set di dati di addestramento 10 milioni di esempi solo di testo o 300.000 esempi multimodali
Dimensioni adattatore I valori supportati sono 1, 2, 4 e 8

Problemi noti

  • L'applicazione della generazione controllata durante l'invio di richieste di inferenza ai modelli Gemini ottimizzati può comportare una riduzione della qualità del modello a causa del disallineamento dei dati durante l'ottimizzazione e il tempo di inferenza. Durante l'ottimizzazione, la generazione controllata non viene applicata, quindi il modello ottimizzato non è in grado di gestire bene la generazione controllata al momento dell'inferenza. Il fine-tuning supervisionato personalizza efficacemente il modello per generare output strutturati. Pertanto, non è necessario applicare la generazione controllata quando si effettuano richieste di inferenza sui modelli ottimizzati.

Casi d'uso per l'utilizzo del fine-tuning supervisionato

I modelli di base funzionano bene quando l'output o l'attività prevista possono essere definiti in modo chiaro e conciso in un prompt e il prompt produce costantemente l'output previsto. Se vuoi che un modello apprenda qualcosa di poco noto o specifico che si discosta dai pattern generali, potresti prendere in considerazione l'ottimizzazione del modello. Ad esempio, puoi utilizzare l'ottimizzazione del modello per insegnare al modello quanto segue:

  • Strutture o formati specifici per la generazione dell'output.
  • Comportamenti specifici, ad esempio quando fornire un output conciso o dettagliato.
  • Output personalizzati specifici per tipi di input specifici.

I seguenti esempi sono casi d'uso difficili da acquisire solo con le istruzioni del prompt:

  • Classificazione: la risposta prevista è una parola o una frase specifica.

    L'ottimizzazione del modello può impedire al modello di generare risposte dettagliate.

  • Riassunto: il riassunto segue un formato specifico. Ad esempio, potresti dover rimuovere le informazioni che consentono l'identificazione personale (PII) in un riassunto della chat.

    Questo formato di sostituzione dei nomi degli oratori con #Person1 e #Person2 è difficile da descrivere e il modello di base potrebbe non produrre naturalmente una risposta di questo tipo.

  • Question answering estrattivo: la domanda riguarda un contesto e la risposta è una sottostringa del contesto.

    La risposta "Last Glacial Maximum" è una frase specifica del contesto.

  • Chat: devi personalizzare la risposta del modello in base a una persona, un ruolo, o un personaggio.

Puoi anche ottimizzare un modello nelle seguenti situazioni:

  • I prompt non producono i risultati previsti in modo sufficientemente coerente.
  • L'attività è troppo complicata da definire in un prompt. Ad esempio, vuoi che il modello esegua la clonazione del comportamento per un comportamento difficile da esprimere in un prompt.
  • Hai intuizioni complesse su un'attività che sono difficili da formalizzare in un prompt.
  • Vuoi ridurre la finestra contestuale rimuovendo gli esempi few-shot.

Configurare una regione di job di ottimizzazione

I dati utente, come il set di dati trasformato e il modello ottimizzato, vengono archiviati nella regione del job di ottimizzazione. Durante l'ottimizzazione, il calcolo potrebbe essere scaricato in altre regioni US o EU per gli acceleratori disponibili. Il download è trasparente per gli utenti.

  • Se utilizzi l'SDK Vertex AI, puoi specificare la regione durante l'inizializzazione. Ad esempio:

    import vertexai
    vertexai.init(project='myproject', location='us-central1')
    
  • Se crei un job di fine-tuning supervisionato inviando una richiesta POST utilizzando il tuningJobs.create metodo, utilizza l'URL per specificare la regione in cui viene eseguito il job di ottimizzazione. Ad esempio, nell'URL seguente, specifica una regione sostituendo entrambe le istanze di TUNING_JOB_REGION con la regione in cui viene eseguito il job.

     https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
    
  • Se utilizzi la Google Cloud console, puoi selezionare il nome della regione nel campo a discesa Regione nella pagina Dettagli modello. Questa è la stessa pagina in cui selezioni il modello di base e il nome di un modello ottimizzato.

Valutare i modelli ottimizzati

Puoi valutare i modelli ottimizzati nei seguenti modi:

  • Metriche di ottimizzazione e convalida: valuta il modello ottimizzato utilizzando le metriche di ottimizzazione e convalida al termine del job di ottimizzazione.

  • Valutazione integrata con Gen AI evaluation service (anteprima): configura i job di ottimizzazione per eseguire automaticamente le valutazioni utilizzando Gen AI evaluation service durante l'ottimizzazione. Le seguenti interfacce, modelli e regioni sono supportati per l'integrazione dell'ottimizzazione con Gen AI evaluation service:

    • Interfacce supportate: SDK Google Gen AI e API REST.

    • Modelli supportati: gemini-2.5-pro, gemini-2.5-flash e gemini-2.5-flash-lite.

    • Regioni supportate: per un elenco delle regioni supportate, consulta Regioni supportate.

Quota

La quota viene applicata al numero di job di ottimizzazione simultanei. Ogni progetto è dotato di una quota predefinita per eseguire almeno un job di ottimizzazione. Si tratta di una quota globale, condivisa tra tutte le regioni disponibili e i modelli supportati. Se vuoi eseguire più job contemporaneamente, devi richiedere una quota aggiuntiva per Global concurrent tuning jobs.

Se configuri il Gen AI evaluation service per eseguire automaticamente le valutazioni durante l'ottimizzazione, consulta le quote di Gen AI evaluation service.

Prezzi

I prezzi per il fine-tuning supervisionato di Gemini sono disponibili qui: Prezzi di Gemini Enterprise Agent Platform.

Il numero di token di addestramento viene calcolato moltiplicando il numero di token nel set di dati di addestramento per il numero di epoche. Dopo l'ottimizzazione, i costi di inferenza (richiesta di previsione) per il modello ottimizzato continuano a essere applicati. I prezzi di inferenza sono gli stessi per ogni versione stabile di Gemini. Per saperne di più, consulta Versioni stabili dei modelli Gemini disponibili.

Se configuri Gen AI evaluation service per l'esecuzione automatica durante l'ottimizzazione, le valutazioni vengono addebitate come job di previsioni in batch. Per ulteriori informazioni, vedi Prezzi.

Passaggi successivi