Benutzerdefiniertes Übersetzungsmodell erstellen

Sie können ein benutzerdefiniertes Übersetzungsmodell mit der Google Cloud Console trainieren und verwenden. Im folgenden Beispiel wird AutoML Translation verwendet, um ein Modell für die Übersetzung vom Englischen ins Spanische zu trainieren. Dazu wird ein Dataset mit technologieorientierten Segmentpaaren aus der Softwarelokalisierung verwendet.

Vorbereitung

Bevor Sie AutoML Translation verwenden können, muss für Ihr Projekt die Cloud Translation API aktiviert sein. Außerdem benötigen Sie die Berechtigungen, die durch die folgenden Rollen gewährt werden:

Rolle Betrachter, um sich vorhandene Ressourcen in Ihrem Projekt anzusehen
Rolle Cloud Translation API-Bearbeiter zum Erstellen und Verwalten von Datasets und Modellen
Rolle Storage-Administrator zum Hochladen von Trainingsdaten in einen Cloud Storage-Bucket

Dataset zur Übersetzung erstellen und Segmentpaare importieren

Laden Sie die Archivdatei herunter, die die Beispieldaten zum Trainieren des Modells enthält, und extrahieren Sie die Dateien.

In dieser Anleitung verwenden Sie die TSV-Datei für Englisch-Spanisch.
Rufen Sie die AutoML Translation-Konsole auf.

Zur Seite „Übersetzung“
Klicken Sie im Navigationsbereich auf Datasets, um die Seite Datasets aufzurufen.
Klicken Sie auf Dataset erstellen.
Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:
1. Geben Sie tutorial_dataset als Namen für das Dataset ein.
2. Wählen Sie in der Drop-down-Liste Englisch (EN) als Quellsprache aus.
3. Wählen Sie Spanisch (ES) als Zielsprache aus.
4. Klicken Sie auf Erstellen.
Klicken Sie nach dem Erstellen des Datasets auf den Namen, um die Details aufzurufen.
Rufen Sie den Tab Importieren auf und laden Sie das Dataset en-es.tsv in Cloud Storage hoch:
1. Wählen Sie Dateien von Ihrem Computer hochladen aus.
2. Klicken Sie auf Dateien auswählen und wählen Sie die en-es.tsv-Datei aus, die Sie zuvor heruntergeladen und extrahiert haben.
3. Klicken Sie auf Durchsuchen, um einen Cloud Storage-Bucket auszuwählen oder zu erstellen, in dem Ihre TSV-Datei gespeichert ist. Die Bucket-Region muss us-central1 sein.
Klicken Sie auf Weiter.

AutoML Translation teilt Ihre Daten automatisch in Trainings-, Validierungs- und Test-Datasets auf. Sie können sich diese Aufteilungen und die importierten Satzpaare auf dem Tab Sätze Ihres Datasets ansehen.

Modell trainieren

Rufen Sie die AutoML Translation-Konsole auf.

Zur Seite „Übersetzung“
Rufen Sie im Navigationsbereich die Seite Datasets auf.
Klicken Sie auf das Dataset tutorial_dataset.
Rufen Sie den Tab Trainieren auf.
Klicken Sie auf Kurs starten. Daraufhin wird der Bereich Neues Modell trainieren geöffnet.
Geben Sie tutorial_model für den Modellnamen ein.
Klicken Sie auf Kurs starten.

Das Trainieren eines Modells kann mehrere Stunden dauern.

Modell bewerten

Vergleichen Sie das Modell mit dem standardmäßigen Google-NMÜ-Modell, das auf Segmentpaaren aus Ihrem Test-Dataset basiert.

Rufen Sie die AutoML Translation-Konsole auf.

Zur Seite „Übersetzung“
Rufen Sie im Navigationsbereich die Seite Modelle auf.
Klicken Sie auf das Modell tutorial_model.
Klicken Sie auf den Tab Bewerten.

Im Bereich Vorherige Evaluierungen wird der BLEU-Wert Ihres Modells im Vergleich zum Google-NMÜ-Modell angezeigt. Der BLEU-Wert (Bilingual Evaluation Understudy) gibt an, wie ähnlich der Kandidatentext den Referenztexten ist. Je näher die Werte an 100 liegen, desto ähnlicher sind die Texte.

Übersetzungsmodell verwenden

In der Google Cloud Console können Sie Ihr benutzerdefiniertes Modell verwenden, um Text zu übersetzen.

Rufen Sie die AutoML Translation-Konsole auf.

Zur Seite „Übersetzung“
Rufen Sie im Navigationsbereich die Seite Modelle auf.
Klicken Sie auf das Modell tutorial_model.
Klicken Sie auf den Tab Vorhersagen.
Geben Sie im Textfeld Englisch den zu übersetzenden Text ein und klicken Sie dann auf Übersetzen.

Die Ergebnisse Ihres benutzerdefinierten Modells können Sie mit dem Google-NMÜ-Modell vergleichen.

Bereinigen

Um unnötige Gebühren für die Nutzung von Google Cloud zu vermeiden, löschen Sie Ihr Modell, das Dataset und die en-es.tsv-Datei. Sie können das Projekt auch mit derGoogle Cloud console löschen, wenn Sie es nicht mehr benötigen.

Weitere Informationen

Informationen zu benutzerdefinierten Modellen finden Sie unter Erste Schritte mit AutoML Translation.
Wenn Sie ein eigenes Dataset und ein benutzerdefiniertes Modell erstellen möchten, finden Sie unter Trainingsdaten vorbereiten eine Anleitung zum Vorbereiten Ihrer Daten.