Trainingsdaten für Translation LLM-Modelle vorbereiten
In diesem Dokument wird beschrieben, wie Sie einen Datensatz für das überwachte Fine-Tuning für ein Translation LLM-Modell definieren. Sie können Textdatentypen optimieren.
Datasets für die überwachte Feinabstimmung
Ein Dataset für die überwachte Feinabstimmung wird verwendet, um ein vortrainiertes Modell für eine bestimmte Domain zu optimieren. Die Eingabedaten sollten ähnlich denen aussehen, die Sie für das Modell in der Praxis erwarten. Die Ausgabelabels sollten die richtigen Antworten oder Ergebnisse für jede Eingabe darstellen.
Trainings-Dataset
Zum Abstimmen eines Modells stellen Sie ein Trainings-Dataset bereit. Die besten Ergebnisse erzielen Sie erst einmal mit 100 Beispielen. Bei Bedarf können Sie die Anzahl der Beispiele auf Tausende hochskalieren. Die Qualität des Datasets ist viel wichtiger als die Menge.
Einschränkungen:
- Maximale Anzahl der Eingabe- und Ausgabetokens pro Beispiel: 1.000
- Maximale Dateigröße des Trainings-Datasets: bis zu 1 GB für JSONL.
Validierungs-Dataset
Wir empfehlen dringend, einen Validierungsdatensatz bereitzustellen. Mit einem Validierungs-Dataset können Sie die Effektivität eines Abstimmungsjobs messen.
Einschränkungen:
- Maximale Anzahl der Eingabe- und Ausgabetokens pro Beispiel: 1.000
- Maximale Anzahl von Beispielen im Validierungsdataset: 1.024
- Maximale Dateigröße des Validierungs-Datasets: bis zu 1 GB für JSONL.
Dataset-Format
Ihr Dataset zur Abstimmung eines Modells muss im JSON Lines-Format (JSONL) vorliegen, wobei jede Zeile ein einzelnes Abstimmungsbeispiel enthält.
Bevor Sie Ihr Modell abstimmen, müssen Sie Ihr Dataset in einen Cloud Storage-Bucket hochladen. Achten Sie darauf, dass Sie die Datei in us-central1 hochladen.
Beispiel-Dataset für translation-llm-002
{
"contents": [
{
"role": "user",
"parts": [
{
"text": "English: Hello. Spanish:",
}
]
},
{
"role": "model",
"parts": [
{
"text": "Hola.",
}
]
}
]
}
Inhalt
Der strukturierte Basisdatentyp, der mehrteilige Inhalte einer Nachricht enthält. Diese Klasse besteht aus zwei Hauptattributen: role und parts. Das Attribut role bezeichnet die Person, die den Inhalt erzeugt, während das Attribut parts mehrere Elemente enthält, die jeweils ein Datensegment innerhalb einer Nachricht darstellen.
| Parameter | |
|---|---|
|
Optional: Die Identität der Entität, die die Nachricht erstellt. Folgende Werte werden unterstützt:
|
|
Eine Liste geordneter Teile einer einzelnen Nachricht. Informationen zu den Limits für die Eingaben, z. B. die maximale Anzahl von Tokens oder die Anzahl der Bilder, finden Sie in den Modellspezifikationen auf der Seite Google-Modelle. Informationen zum Berechnen der Anzahl der Tokens in Ihrer Anfrage finden Sie unter Tokenanzahl abrufen. |
Teile
Ein Datentyp mit Medien, die Teil einer mehrteiligen Content-Nachricht sind.
| Parameter | |
|---|---|
|
Optional: Ein Text-Prompt oder ein Code-Snippet. |
Abstimmungs-Datasets in Cloud Storage hochladen
Zum Ausführen eines Abstimmungsjobs müssen Sie ein oder mehrere Datasets in einen Cloud Storage-Bucket hochladen. Sie können entweder einen neuen Cloud Storage-Bucket erstellen oder einen vorhandenen Bucket zum Speichern von Dataset-Dateien verwenden. Die Region des Buckets spielt keine Rolle. Wir empfehlen jedoch die Verwendung eines Buckets im selbenGoogle Cloud -Projekt, in dem Sie die Modellabstimmung ausführen möchten.
Wenn der Bucket bereit ist, laden Sie Ihre Dataset-Datei in den Bucket hoch.
Notebook-Beispiele für die Datenvorbereitung
Hier sind einige Beispiele für Colab-Notebooks, die Ihnen den Einstieg erleichtern sollen.
AutoML Translation-Dataset
Wenn Sie bereits Übersetzungs-Datasets in AutoML Translation hochgeladen haben, können Sie dem Colab-Beispiel folgen, um sie für das TLLM-Feinabstimmung zu exportieren.
![]() In Colab ausführen |
![]() In Colab Enterprise ausführen |
![]() Auf GitHub ansehen |
Lokales Dataset
Wenn Ihre Daten lokal im TSV-, CSV- oder TMX-Format vorliegen, können Sie sie zum Feinabstimmen von TLLM in Colab hochladen.
![]() In Colab ausführen |
![]() In Colab Enterprise ausführen |
![]() Auf GitHub ansehen |
Nächste Schritte
- Führen Sie einen Job zur überwachten Feinabstimmung aus.


