Benutzerdefiniertes Übersetzungsmodell erstellen
Sie können ein benutzerdefiniertes Übersetzungsmodell mit der Google Cloud Console trainieren und verwenden. Im folgenden Beispiel wird AutoML Translation verwendet, um ein Modell für die Übersetzung vom Englischen ins Spanische zu trainieren. Dazu wird ein Dataset mit technologieorientierten Segmentpaaren aus der Softwarelokalisierung verwendet.
Vorbereitung
Bevor Sie AutoML Translation verwenden können, muss für Ihr Projekt die Cloud Translation API aktiviert sein. Außerdem benötigen Sie die Berechtigungen, die durch die folgenden Rollen gewährt werden:
- Rolle Betrachter, um sich vorhandene Ressourcen in Ihrem Projekt anzusehen
- Rolle Cloud Translation API-Bearbeiter zum Erstellen und Verwalten von Datasets und Modellen
- Rolle Storage-Administrator zum Hochladen von Trainingsdaten in einen Cloud Storage-Bucket
Dataset zur Übersetzung erstellen und Segmentpaare importieren
Laden Sie die Archivdatei herunter, die die Beispieldaten zum Trainieren des Modells enthält, und extrahieren Sie die Dateien.
In dieser Anleitung verwenden Sie die TSV-Datei für Englisch-Spanisch.
Rufen Sie die AutoML Translation-Konsole auf.
Klicken Sie im Navigationsbereich auf Datasets, um die Seite Datasets aufzurufen.
Klicken Sie auf Dataset erstellen.
Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:
- Geben Sie
tutorial_dataset
als Namen für das Dataset ein. - Wählen Sie in der Drop-down-Liste Englisch (EN) als Quellsprache aus.
- Wählen Sie Spanisch (ES) als Zielsprache aus.
- Klicken Sie auf Erstellen.
- Geben Sie
Klicken Sie nach dem Erstellen des Datasets auf den Namen, um die Details aufzurufen.
Rufen Sie den Tab Importieren auf und laden Sie das Dataset
en-es.tsv
in Cloud Storage hoch:- Wählen Sie Dateien von Ihrem Computer hochladen aus.
- Klicken Sie auf Dateien auswählen und wählen Sie die
en-es.tsv
-Datei aus, die Sie zuvor heruntergeladen und extrahiert haben. - Klicken Sie auf Durchsuchen, um einen Cloud Storage-Bucket auszuwählen oder zu erstellen, in dem Ihre TSV-Datei gespeichert ist. Die Bucket-Region muss
us-central1
sein.
Klicken Sie auf Weiter.
AutoML Translation teilt Ihre Daten automatisch in Trainings-, Validierungs- und Test-Datasets auf. Sie können sich diese Aufteilungen und die importierten Satzpaare auf dem Tab Sätze Ihres Datasets ansehen.
Modell trainieren
Rufen Sie die AutoML Translation-Konsole auf.
Rufen Sie im Navigationsbereich die Seite Datasets auf.
Klicken Sie auf das Dataset tutorial_dataset.
Rufen Sie den Tab Trainieren auf.
Klicken Sie auf Kurs starten. Daraufhin wird der Bereich Neues Modell trainieren geöffnet.
Geben Sie
tutorial_model
für den Modellnamen ein.Klicken Sie auf Kurs starten.
Das Trainieren eines Modells kann mehrere Stunden dauern.
Modell bewerten
Vergleichen Sie das Modell mit dem standardmäßigen Google-NMÜ-Modell, das auf Segmentpaaren aus Ihrem Test-Dataset basiert.
Rufen Sie die AutoML Translation-Konsole auf.
Rufen Sie im Navigationsbereich die Seite Modelle auf.
Klicken Sie auf das Modell tutorial_model.
Klicken Sie auf den Tab Bewerten.
Im Bereich Vorherige Evaluierungen wird der BLEU-Wert Ihres Modells im Vergleich zum Google-NMÜ-Modell angezeigt. Der BLEU-Wert (Bilingual Evaluation Understudy) gibt an, wie ähnlich der Kandidatentext den Referenztexten ist. Je näher die Werte an 100 liegen, desto ähnlicher sind die Texte.
Übersetzungsmodell verwenden
In der Google Cloud Console können Sie Ihr benutzerdefiniertes Modell verwenden, um Text zu übersetzen.
Rufen Sie die AutoML Translation-Konsole auf.
Rufen Sie im Navigationsbereich die Seite Modelle auf.
Klicken Sie auf das Modell tutorial_model.
Klicken Sie auf den Tab Vorhersagen.
Geben Sie im Textfeld Englisch den zu übersetzenden Text ein und klicken Sie dann auf Übersetzen.
Die Ergebnisse Ihres benutzerdefinierten Modells können Sie mit dem Google-NMÜ-Modell vergleichen.
Bereinigen
Um unnötige Gebühren für die Nutzung von Google Cloud zu vermeiden, löschen Sie Ihr Modell, das Dataset und die en-es.tsv
-Datei. Sie können das Projekt auch mit derGoogle Cloud console löschen, wenn Sie es nicht mehr benötigen.
Weitere Informationen
- Informationen zu benutzerdefinierten Modellen finden Sie unter Erste Schritte mit AutoML Translation.
- Wenn Sie ein eigenes Dataset und ein benutzerdefiniertes Modell erstellen möchten, finden Sie unter Trainingsdaten vorbereiten eine Anleitung zum Vorbereiten Ihrer Daten.