Informazioni sull'ottimizzazione delle preferenze per i modelli Gemini

L'ottimizzazione delle preferenze di Vertex AI ti consente di ottimizzare i modelli Gemini con i dati di feedback umano.

La regolazione delle preferenze consente al modello di apprendere dalle preferenze soggettive degli utenti difficili da definire utilizzando etichette specifiche o solo tramite l'ottimizzazione supervisionata.

Il set di dati di input per l'ottimizzazione delle preferenze contiene esempi costituiti da un prompt e da una coppia di risposte che indicano quale è preferita e quale non è preferita. Il modello impara a generare risposte preferite con una probabilità maggiore e risposte non preferite con una probabilità minore.

Per scoprire come preparare il set di dati, consulta Preparare i dati di ottimizzazione delle preferenze per i modelli Gemini.

Modelli supportati

I seguenti modelli Gemini supportano l'ottimizzazione delle preferenze:

Limitazioni

Specifica Valore
Modalità Testo
Dimensione del file del set di dati di addestramento 1 GB
Numero massimo di token di input e output per esempio di addestramento 131.072
Token di pubblicazione di input e output massimi Come il modello Gemini di base
Numero massimo di esempi di addestramento in un set di dati di addestramento 10 milioni di esempi di addestramento di solo testo
Dimensione massima del set di dati di convalida 5000 esempi o il 30% del numero di esempi di addestramento se sono presenti più di 1000 esempi di convalida
Dimensioni adattatore I valori supportati sono 1, 2, 4, 8 e 16.

Best practice

Prima di applicare l'algoritmo di ottimizzazione delle preferenze al tuo modello, ti consigliamo vivamente di procedere come segue:

  1. Ottimizza il modello utilizzando l'ottimizzazione supervisionata sui dati delle risposte preferite. In questo modo, il modello impara a generare risposte preferite durante l'inferenza.
  2. Continua l'ottimizzazione dal checkpoint prodotto dal passaggio 1 utilizzando l'ottimizzazione delle preferenze. In questo modo il modello impara ad aumentare il divario di probabilità tra le risposte preferite e quelle non preferite.

Per creare il set di dati di perfezionamento supervisionato, utilizza le coppie di prompt e risposte accettate nel set di dati di preferenze come prompt e target per il set di dati di perfezionamento supervisionato. In genere, una o due epoche di perfezionamento supervisionato dovrebbero essere sufficienti, anche se questo può variare in base alle dimensioni del set di dati e al grado di allineamento iniziale del set di dati di addestramento con il modello Gemini.

Per utilizzare il fine-tuning supervisionato per ottimizzare il modello, segui i passaggi descritti in Ottimizza i modelli Gemini utilizzando il fine-tuning supervisionato.

Quota

La quota viene applicata al numero di job di ottimizzazione simultanei. Ogni progetto viene fornito con una quota predefinita per eseguire almeno un job di ottimizzazione. Si tratta di una quota globale, condivisa tra tutte le regioni disponibili e i modelli supportati. Se vuoi eseguire più job contemporaneamente, devi richiedere una quota aggiuntiva per Global concurrent tuning jobs.

Prezzi

I prezzi per l'ottimizzazione delle preferenze di Gemini sono disponibili qui: prezzi di Vertex AI.

Ai fini della determinazione del prezzo, il numero di token per ogni esempio di ottimizzazione viene calcolato moltiplicando il numero di token nel prompt per 2 e poi aggiungendo il numero di token di completamento.

Passaggi successivi