TLLM-Modell anpassen

Mit der Cloud Translation Advanced API können Sie das Translation LLM (TLLM)-Modell von Google anpassen, ohne Code schreiben zu müssen. Sie können ein benutzerdefiniertes Modell an Ihre domainspezifischen Inhalte anpassen und so genauere Übersetzungen als mit dem standardmäßigen Google TLLM-Modell erhalten. Das TLLM-Modell deckt eine Vielzahl von Sprachpaaren ab und eignet sich gut für allgemeine Texte. Ein benutzerdefiniertes Modell eignet sich besonders für die Verarbeitung von spezifischen Nischenvokabularen. Wenn Sie einen spezialisierten Berichterstellungsdienst betreiben, der in neue Länder expandieren könnte, können Sie anstatt Spezialisten einzustellen ein benutzerdefiniertes Modell erstellen und optimieren, das die Aufgabe in Echtzeit erledigt.

Datenvorbereitung

Zum Trainieren eines benutzerdefinierten Modells müssen Sie übereinstimmende Segmentpaare in der Ausgangs- und Zielsprache angeben. Das sind Wort- oder Wortgruppenpaare, die in der Ausgangs- und Zielsprache dieselbe Bedeutung haben. Je ähnlicher sich die Segmentpaare hinsichtlich der Bedeutung sind, desto besser funktioniert das Modell. Gehen Sie beim Erstellen des Datasets mit übereinstimmenden Segmentpaaren vom Anwendungsfall aus:

  • Welches Ergebnis möchten Sie erzielen?

  • Welche Arten von Segmenten müssen korrekt übersetzt werden, um dieses Ergebnis zu erzielen? Kann das TLLM-Modell das ohne Training erreichen?

  • Lassen sich diese wichtigen Segmente von Menschen in zufriedenstellender Weise übersetzen? Wenn eine Übersetzungsaufgabe nicht klar lösbar ist und eine Person mit fließender Beherrschung beider Sprachen Schwierigkeiten hätte, ein zufriedenstellendes Ergebnis zu liefern, kann es sein, dass das TLLM-Modell eine ähnliche Leistung bietet wie ein benutzerdefiniertes Modell.

  • Welche Beispiele geben am besten die Art und Bandbreite der Segmentpaare wieder, die das System übersetzen soll?

Daten an Ihren Problembereich anpassen

Ein benutzerdefiniertes Übersetzungsmodell für ein bestimmtes Fachgebiet trainieren Die Segmentpaare sollten deshalb bestmöglich auf das Vokabular, die speziellen Ausdrucksweisen und auch die grammatikalischen Besonderheiten Ihrer Branche oder Ihres Fachgebiets abgestimmt sein. Suchen Sie nach Dokumenten mit typischen Wendungen für die Übersetzungsaufgaben, die Sie erledigen möchten, und achten Sie darauf, dass die Sätze der Paralleltexte in Bezug auf die Bedeutung so exakt wie möglich übereinstimmen. Sprachen sind im Hinblick auf das Vokabular oder die Syntax sicherlich oft nicht komplett deckungsgleich. Versuchen Sie aber nach Möglichkeit, zumindest die gesamte semantische Vielfalt zu erfassen, die bei der Übersetzungsaufgabe auftreten kann. Sie bauen auf einem Modell auf, das beim Übersetzen von allgemeinsprachlichen Texten bereits gut funktioniert. Ihre Beispiele sind der letzte Schritt, um benutzerdefinierte Modelle zu optimieren. Achten Sie deshalb darauf, dass sie relevant sind und das erwartete Sprachmaterial gut abbilden.

Vielfalt Ihres sprachlichen Felds erfassen

Gehen Sie nicht davon aus, dass Menschen so einheitlich über ein bestimmtes Fachgebiet schreiben, dass eine kleine Anzahl von Textbeispielen, übersetzt von einer kleinen Anzahl an Übersetzern, genügt, um ein Modell zu trainieren, das sich anschließend auch für alle anderen gut eignet, die über dieses Fachgebiet schreiben. Jeder von uns verleiht seinen Texten eine eigene Persönlichkeit. Ein Trainings-Dataset, das Segmentpaare vieler Autoren und Übersetzer umfasst, liefert in einem vielfältigen Unternehmen eher ein hilfreiches Modell zur Übersetzung von Texten als ein Modell, das sich nur auf eine schmale Basis stützt. Berücksichtigen Sie außerdem unterschiedliche Segmentlängen und -strukturen. Ein Dataset mit gleich langen Segmenten oder mit Segmenten ähnlicher grammatikalischer Struktur liefert keine ausreichenden Informationen zum Erstellen eines alle Möglichkeiten abdeckenden guten Modells.

Daten erheben

Nachdem Sie nun wissen, welche Art von Daten Sie benötigen, müssen Sie überlegen, woher Sie diese Daten bekommen. Berücksichtigen Sie alle Daten, die Ihr Unternehmen erhebt. Vielleicht werden die zum Trainieren eines Übersetzungsmodells benötigten Daten ja bereits erhoben. Wenn die erforderlichen Daten nicht verfügbar sind, können Sie sie manuell erfassen oder von einem Drittanbieter beziehen.

Menschen in den Prozess einbinden

Nach Möglichkeit sollten Sie von einer Person, die beide Sprachen gut beherrscht, überprüfen lassen, ob die Segmentpaare richtig zugeordnet, die Sätze verständlich und die Übersetzungen korrekt sind. Ein häufiger Fehler wie falsch zugeordnete Zeilen in Ihrer Trainingstabelle kann zu unsinnigen Übersetzungen führen. Für die Cloud Translation – Advanced API sind hochwertige Daten erforderlich, damit ein brauchbares Modell erstellt werden kann.

Fairness bei Segmentpaaren berücksichtigen

Das Kernprinzip der ML-Produkte von Google ist ein auf den Menschen ausgerichtetes maschinelles Lernen. Bei diesem Ansatz stehen verantwortungsbewusste Vorgehensweisen in Bezug auf künstliche Intelligenz einschließlich Fairness im Vordergrund. Das Ziel von Fairness in ML ist es, eine ungerechte oder nachteilige Behandlung von Menschen in Bezug auf Rasse, Einkommen, sexuelle Orientierung, Religion, Geschlecht und andere Merkmale, die in der Vergangenheit mit Diskriminierung und Ausgrenzung in Verbindung gebracht wurden, zu verstehen und zu verhindern, wenn und wo sie sich in algorithmischen Systemen oder algorithmisch unterstützten Entscheidungen manifestieren.

Unstrukturierte Daten bereinigen

Bei der Vorverarbeitung von Daten kann es schnell zu Fehlern kommen, die das benutzerdefinierte Modell unbrauchbar machen. Beheben Sie gegebenenfalls insbesondere folgende Datenprobleme:

  • Entfernen Sie doppelte Quellsegmente, vor allem wenn für diese unterschiedliche Zielübersetzungen ausgegeben werden, damit die Cloud Translation Advanced API Ihre bevorzugte Übersetzung verwendet.
  • Ordnen Sie die Quellsegmente den korrekten Zielsegmenten zu.
  • Ordnen Sie Segmente der jeweiligen Sprache zu. Beispiel: Nehmen Sie nur chinesische Segmente in ein chinesisches Dataset auf.
  • Bei Zielsegmenten mit gemischten Sprachen sollten Sie darauf achten, dass feste Begriffe, z. B. Namen von Produkten oder Unternehmen, nicht übersetzt wurden. Zielsegmente, bei denen solche Begriffe fälschlicherweise übersetzt wurden, verzerren Ihre Daten und können die Qualität eines Modells verringern.
  • Korrigieren Sie Segmente mit Rechtschreib- oder grammatikalischen Fehlern.
  • Entfernen Sie nicht übersetzbare Inhalte wie Platzhalter-Tags und HTML-Tags. Nicht übersetzbare Inhalte können zu Satzzeichenfehlern führen.
  • Vermeiden Sie Segmentpaare, in denen allgemeine Dinge durch bestimmte Begriffe ersetzt werden. Beispiel: Übersetzung eines allgemeinen Begriffs wie Präsident in JFK. Entfernen Sie deshalb solche Übersetzungen oder ändern Sie das jeweilige Substantiv in einen allgemeinen Begriff.
  • Entfernen Sie doppelte Segmente in den Trainings- und Test-Datasets.
  • Verwenden Sie eine einheitliche Groß- und Kleinschreibung, da dies sich darauf auswirkt, wie ein Modell lernt, z. B. um zwischen Überschrift und Fließtext zu unterscheiden.

Daten verarbeiten

Es gelten folgende Einschränkungen:

  • Maximale Anzahl der Eingabe- und Ausgabetokens:
    • Bereitstellung: 1.000 (ca. 4.000 Zeichen)
  • Größe des Validierungs-Datasets: 1.024 Beispiele
  • Dateigröße des Trainings-Datasets: bis zu 1 GB für JSONL
  • Länge des Trainingsbeispiels: 1.000 (ca. 4.000 Zeichen)
  • Adaptergröße:
    • Translation LLM V2: Es wird nur der Wert 4 unterstützt. Die Verwendung anderer Werte (z.B. 1 oder 8) führt zu einem Fehler.

Fehlerbehebung

Bei der Fehlerbehebung eines benutzerdefinierten Modells geht es eher darum, Fehler in den Daten statt im Modell zu beheben. Wenn Ihr Modell nicht wie gewünscht übersetzt, sollten Sie Ihre Daten prüfen, um festzustellen, wo sie verbessert werden können.

Test

Auch wenn die Bewertungs-Scores in Ordnung sind, sollten Sie das Modell prüfen, um sicherzugehen, dass die Leistung Ihren Erwartungen entspricht. Denn wenn die Trainings- und Testdaten auf demselben fehlerhaften Textkorpus beruhen, ist ein guter BLEU-Score auch dann noch möglich, wenn die Übersetzung selbst unsinnig ist. Bereiten Sie einige Beispiele vor, die nicht im Trainingsset enthalten sind. Vergleichen Sie die Ergebnisse des benutzerdefinierten Modells mit dem TLLM-Basismodell von Google.

Unter Umständen trifft Ihr Modell die gleichen Vorhersagen wie das Basismodell, speziell bei kurzen Segmenten oder bei einem kleineren Trainings-Dataset, da das Basismodell bereits gut ist. Wenn ja, versuchen Sie es mit längeren oder komplexeren Segmenten. Wenn Ihre Segmente mit den Vorhersagen des Basismodells übereinstimmen, kann das auf ein Problem mit den Daten hinweisen.

Wenn Sie befürchten, dass Ihr Modell einen Fehler macht, sollten Sie dafür sorgen, dass Ihr Testsatz oder Ihr Testverfahren diesen Fall ausreichend abdeckt, damit Sie das Modell bedenkenlos verwenden können.

Nächste Schritte

  • Weitere Informationen zum Erstellen eines eigenen Datasets und eines benutzerdefinierten Modells finden Sie unter Trainingsdaten vorbereiten.