Trainingsdaten für Translation LLM-Modelle vorbereiten

In diesem Dokument wird beschrieben, wie Sie einen Datensatz für das überwachte Fine-Tuning für ein Translation LLM-Modell definieren. Sie können Textdatentypen optimieren.

Datasets für die überwachte Feinabstimmung

Ein Dataset für die überwachte Feinabstimmung wird verwendet, um ein vortrainiertes Modell für eine bestimmte Domain zu optimieren. Die Eingabedaten sollten ähnlich denen aussehen, die Sie für das Modell in der Praxis erwarten. Die Ausgabelabels sollten die richtigen Antworten oder Ergebnisse für jede Eingabe darstellen.

Trainings-Dataset

Zum Abstimmen eines Modells stellen Sie ein Trainings-Dataset bereit. Die besten Ergebnisse erzielen Sie erst einmal mit 100 Beispielen. Bei Bedarf können Sie die Anzahl der Beispiele auf Tausende hochskalieren. Die Qualität des Datasets ist viel wichtiger als die Menge.

Einschränkungen:

  • Maximale Anzahl der Eingabe- und Ausgabetokens pro Beispiel: 1.000
  • Maximale Dateigröße des Trainings-Datasets: bis zu 1 GB für JSONL.

Validierungs-Dataset

Wir empfehlen dringend, einen Validierungsdatensatz bereitzustellen. Mit einem Validierungs-Dataset können Sie die Effektivität eines Abstimmungsjobs messen.

Einschränkungen:

  • Maximale Anzahl der Eingabe- und Ausgabetokens pro Beispiel: 1.000
  • Maximale Anzahl von Beispielen im Validierungsdataset: 1.024
  • Maximale Dateigröße des Validierungs-Datasets: bis zu 1 GB für JSONL.

Dataset-Format

Ihr Dataset zur Abstimmung eines Modells muss im JSON Lines-Format (JSONL) vorliegen, wobei jede Zeile ein einzelnes Abstimmungsbeispiel enthält. Bevor Sie Ihr Modell abstimmen, müssen Sie Ihr Dataset in einen Cloud Storage-Bucket hochladen. Achten Sie darauf, dass Sie die Datei in us-central1 hochladen.

Beispiel-Dataset für translation-llm-002

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Inhalt

Der strukturierte Basisdatentyp, der mehrteilige Inhalte einer Nachricht enthält. Diese Klasse besteht aus zwei Hauptattributen: role und parts. Das Attribut role bezeichnet die Person, die den Inhalt erzeugt, während das Attribut parts mehrere Elemente enthält, die jeweils ein Datensegment innerhalb einer Nachricht darstellen.

Parameter

role

Optional: string

Die Identität der Entität, die die Nachricht erstellt. Folgende Werte werden unterstützt:

  • user: Gibt an, dass die Nachricht von einer realen Person gesendet wurde, in der Regel eine von Nutzern erstellte Nachricht.
  • model: Gibt an, dass die Nachricht vom Modell generiert wird.

parts

part

Eine Liste geordneter Teile einer einzelnen Nachricht.

Informationen zu den Limits für die Eingaben, z. B. die maximale Anzahl von Tokens oder die Anzahl der Bilder, finden Sie in den Modellspezifikationen auf der Seite Google-Modelle.

Informationen zum Berechnen der Anzahl der Tokens in Ihrer Anfrage finden Sie unter Tokenanzahl abrufen.

Teile

Ein Datentyp mit Medien, die Teil einer mehrteiligen Content-Nachricht sind.

Parameter

text

Optional: string

Ein Text-Prompt oder ein Code-Snippet.

Abstimmungs-Datasets in Cloud Storage hochladen

Zum Ausführen eines Abstimmungsjobs müssen Sie ein oder mehrere Datasets in einen Cloud Storage-Bucket hochladen. Sie können entweder einen neuen Cloud Storage-Bucket erstellen oder einen vorhandenen Bucket zum Speichern von Dataset-Dateien verwenden. Die Region des Buckets spielt keine Rolle. Wir empfehlen jedoch die Verwendung eines Buckets im selbenGoogle Cloud -Projekt, in dem Sie die Modellabstimmung ausführen möchten.

Wenn der Bucket bereit ist, laden Sie Ihre Dataset-Datei in den Bucket hoch.

Notebook-Beispiele für die Datenvorbereitung

Hier sind einige Beispiele für Colab-Notebooks, die Ihnen den Einstieg erleichtern sollen.

AutoML Translation-Dataset

Wenn Sie bereits Übersetzungs-Datasets in AutoML Translation hochgeladen haben, können Sie dem Colab-Beispiel folgen, um sie für das TLLM-Feinabstimmung zu exportieren.

Google Colaboratory-Logo
In Colab ausführen
Logo: Google Cloud Colab Enterprise
In Colab Enterprise ausführen
Logo: GitHub
Auf GitHub ansehen

Lokales Dataset

Wenn Ihre Daten lokal im TSV-, CSV- oder TMX-Format vorliegen, können Sie sie zum Feinabstimmen von TLLM in Colab hochladen.

Google Colaboratory-Logo
In Colab ausführen
Logo: Google Cloud Colab Enterprise
In Colab Enterprise ausführen
Logo: GitHub
Auf GitHub ansehen

Nächste Schritte