Google utilizza la tecnologia AI per tradurre i contenuti nella tua lingua preferita. Le traduzioni generate dall'AI potrebbero contenere errori.

Prepara i dati di fine-tuning supervisionato per i modelli LLM di traduzione

Questo documento descrive come definire un set di dati di fine-tuning supervisionato per un modello LLM di traduzione. Puoi ottimizzare i tipi di dati di testo.

Informazioni sui set di dati per il fine-tuning supervisionato

Un set di dati di fine-tuning supervisionato viene utilizzato per perfezionare un modello preaddestrato per un dominio specifico. I dati di input devono essere simili a quelli che prevedi che il modello incontrerà nell'uso reale. Le etichette di output devono rappresentare le risposte o i risultati corretti per ogni input.

Set di dati di addestramento

Per ottimizzare un modello, fornisci un set di dati di addestramento. Per ottenere risultati ottimali, ti consigliamo di iniziare con 100 esempi. Se necessario, puoi fare lo scale up fino a migliaia di esempi. La qualità del set di dati è molto più importante della quantità.

Limitazioni:

Token di input e output massimi per esempio: 1000
Dimensione massima del file del set di dati di addestramento: fino a 1 GB per JSONL.

Set di dati di convalida

Ti consigliamo vivamente di fornire un set di dati di convalida. Un set di dati di convalida ti aiuta a misurare l'efficacia di un job di ottimizzazione.

Limitazioni:

Token di input e output massimi per esempio: 1000
Numero massimo di esempi nel set di dati di convalida: 1024
Dimensione massima del file del set di dati di addestramento: fino a 1 GB per JSONL.

Formato del set di dati

Il set di dati di ottimizzazione del modello deve essere in formato JSON Lines (JSONL), in cui ogni riga contiene un singolo esempio di ottimizzazione. Prima di ottimizzare il modello, devi caricare il set di dati in un bucket Cloud Storage. Assicurati di eseguire il caricamento in us-central1.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

Parametri

L'esempio contiene dati con i seguenti parametri:

Parametri

Parametri
`contents`	Obbligatorio: `Content` I contenuti della conversazione attuale con il modello. Per le query a un solo turno, si tratta di una singola istanza.

contents

Obbligatorio: Content

I contenuti della conversazione attuale con il modello.

Per le query a un solo turno, si tratta di una singola istanza.

Esempio di set di dati per `translation-llm-002`

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Sommario

Il tipo di dati strutturati di base contenente i contenuti in più parti di un messaggio.

Questa classe è costituita da due proprietà principali: role e parts. La proprietà role indica la persona che produce i contenuti, mentre la proprietà parts contiene più elementi, ognuno dei quali rappresenta un segmento di dati all'interno di un messaggio.

Parametri

Parametri
`role`	Facoltativo: `string` L'identità dell'entità che crea il messaggio. Sono supportati i seguenti valori: `user`: indica che il messaggio è stato inviato da una persona reale, in genere un messaggio generato dall'utente. `model`: indica che il messaggio è generato dal modello.
`parts`	`part` Un elenco di parti ordinate che compongono un singolo messaggio. Per i limiti degli input, ad esempio il numero massimo di token o di immagini, consulta le specifiche del modello nella pagina Modelli Google. Per calcolare il numero di token nella richiesta, consulta Conteggio dei token.

role

Facoltativo: string

L'identità dell'entità che crea il messaggio. Sono supportati i seguenti valori:

user: indica che il messaggio è stato inviato da una persona reale, in genere un messaggio generato dall'utente.
model: indica che il messaggio è generato dal modello.

parts

part

Un elenco di parti ordinate che compongono un singolo messaggio.

Per i limiti degli input, ad esempio il numero massimo di token o di immagini, consulta le specifiche del modello nella pagina Modelli Google.

Per calcolare il numero di token nella richiesta, consulta Conteggio dei token.

Parti

Un tipo di dati contenente contenuti multimediali che fanno parte di un messaggio Content in più parti.

Parametri

Parametri
`text`	Facoltativo: `string` Un prompt di testo o uno snippet di codice.

text

Facoltativo: string

Un prompt di testo o uno snippet di codice.

Carica i set di dati di ottimizzazione in Cloud Storage

Per eseguire un job di ottimizzazione, devi caricare uno o più set di dati in un bucket Cloud Storage. Puoi creare un nuovo bucket Cloud Storage o utilizzarne uno esistente per archiviare i file del set di dati. La regione del bucket non è importante, ma ti consigliamo di utilizzare un bucket che si trova nello stesso progettoGoogle Cloud in cui prevedi di ottimizzare il modello.

Una volta pronto il bucket, carica il file del set di dati nel bucket.