Personnaliser le modèle TLLM

Utilisez l'API Cloud Translation – Advanced pour personnaliser le modèle Translation LLM (TLLM) de Google sans écrire de code. Adaptez un modèle personnalisé à votre contenu spécifique à un domaine pour obtenir des traductions plus précises qu'avec le modèle TLLM Google par défaut. Le modèle TLLM couvre un grand nombre de combinaisons linguistiques et est très efficace avec du texte polyvalent. Un modèle personnalisé excelle dans la gestion de vocabulaires spécifiques et de niche. Si vous gérez un service de reporting spécialisé qui a l'opportunité de s'étendre à de nouveaux pays, au lieu d'embaucher des spécialistes, créez et affinez un modèle personnalisé pour effectuer le travail en temps réel.

Préparation des données

Pour entraîner un modèle personnalisé, fournissez des paires de segments correspondants dans les langues source et cible. Il s'agit de paires de mots ou d'expressions qui signifient la même chose dans les langues source et cible. Plus vos paires de segments sont proches, plus votre modèle est performant. Lorsque vous constituez l'ensemble de données de paires de segments correspondants, commencez par le cas d'utilisation :

  • Quel résultat souhaitez-vous obtenir ?

  • Quels types de segments est-il important de traduire correctement pour atteindre ce résultat ? Le modèle TLLM peut-il y parvenir immédiatement ?

  • L'être humain est-il en mesure de traduire ces segments clés de manière satisfaisante ? Si la tâche de traduction est suffisamment ambiguë pour qu'une personne parlant couramment les deux langues ait du mal à faire un travail satisfaisant, le modèle TLLM peut être aussi performant qu'un modèle personnalisé.

  • Quels types d'exemples reflètent le mieux le type et la plage de paires de segments que votre système devra traduire ?

Trouver des données correspondant à la complexité du domaine

Entraînez un modèle de traduction personnalisé adapté à un domaine linguistique particulier. Assurez-vous que les paires de segments couvrent l'ensemble du vocabulaire, de la syntaxe et des particularités grammaticales de votre secteur ou domaine d'activité. Trouvez des documents qui regroupent les syntaxes types qui pourraient apparaître dans les tâches de traduction que vous souhaitez accomplir. Assurez-vous que la signification des phrases sources et cibles est la plus proche possible. Bien sûr, il arrive que le vocabulaire ou la syntaxe ne correspondent pas parfaitement dans les deux langues. Cependant, essayez de capturer toute la diversité de la sémantique que vous vous attendez à utiliser. Vous vous appuyez sur un modèle qui fonctionne déjà bien pour de la traduction polyvalente. L'entraînement à partir de vos exemples constitue la dernière étape permettant d'ajuster les modèles personnalisés. Par conséquent, assurez-vous que ces exemples sont pertinents et représentatifs.

Capturer la diversité de l'espace linguistique

Ne partez pas du principe que la façon dont les gens écrivent sur un sujet spécifique est suffisamment uniforme pour qu'un petit nombre d'échantillons de texte traduits par quelques traducteurs suffise à entraîner un modèle qui fonctionne pour tous les écrits sur ce sujet. Nous apportons tous une personnalité aux mots que nous écrivons. Un ensemble de données d'entraînement comprenant des paires de segments provenant de nombreux auteurs et traducteurs est donc plus susceptible de vous fournir un modèle utile pour la traduction des écrits d'une autre organisation. Tenez également compte de la diversité des segments en termes de longueur et de structure : un ensemble de données dont tous les segments ont la même taille ou partagent une structure grammaticale ne permettra pas de créer un modèle qui capture toutes les possibilités.

Collecter des données

Une fois que vous avez défini les données dont vous avez besoin, trouvez un moyen de les collecter. Prenez en compte toutes les données que votre organisation recueille. Vous constaterez peut-être que vous collectez déjà les données dont vous avez besoin pour entraîner un modèle de traduction. Si vous ne disposez pas des données dont vous avez besoin, obtenez-les manuellement ou confiez cette étape à un tiers.

Maintenir une intervention humaine

Dans la mesure du possible, assurez-vous qu'une personne bilingue valide la correspondance des paires de segments, ainsi que la compréhension et la justesse des traductions. Une erreur courante, comme un mauvais alignement des lignes de la feuille de calcul des données d'entraînement, peut générer des traductions qui ne veulent rien dire. Des données de haute qualité sont nécessaires pour que l'API Cloud Translation Advanced puisse générer un modèle utilisable.

Pensez à l'équité avec les paires de segments

Les produits de ML de Google reposent sur un principe fondamental : le machine learning centré sur l'humain, une approche qui met en avant les pratiques d'IA responsables, y compris l'équité. L'objectif de l'équité dans le ML est de comprendre et d'empêcher le traitement injuste ou préjudiciable des personnes en lien avec l'origine ethnique, les revenus, l'orientation sexuelle, la religion, le genre et d'autres caractéristiques historiquement associées à la discrimination et à la marginalisation, lorsqu'elles se manifestent dans des systèmes algorithmiques ou une prise de décision assistée par un algorithme.

Nettoyer les données désordonnées

Vous pouvez faire des erreurs lors du prétraitement des données, ce qui peut dérouter un modèle personnalisé. Recherchez les problèmes de données suivants que vous pouvez résoudre :

  • Supprimez les segments sources en double, surtout lorsqu'ils possèdent des traductions cibles différentes, pour vous assurer que l'API Cloud Translation Advanced utilise votre traduction préférée.
  • Alignez les segments sources sur les segments cibles appropriés.
  • Assurez-vous que les segments correspondent à la langue spécifiée. (Exemple : N'incluez que des segments en chinois dans un ensemble de données chinois.)
  • Pour les segments cibles contenant plusieurs langues, vérifiez que les mots non traduits sont intentionnellement non traduits. Les segments cibles qui incluent par erreur des mots non traduits ajoutent du bruit à vos données, ce qui peut nuire à la qualité du modèle.
  • Corrigez les segments comportant des erreurs typographiques ou grammaticales.
  • Supprimez le contenu intraduisible, tel que les balises d'espace réservé et les balises HTML. Le contenu intraduisible peut entraîner des erreurs de ponctuation.
  • N'incluez pas de paires de segments qui remplacent des éléments généraux par des noms spécifiques. Par exemple, en traduisant un terme général comme président par JFK. Supprimez ces traductions ou remplacez les noms spécifiques par des termes génériques.
  • Supprimez les segments en double dans les ensembles d'entraînement et de test.
  • Utilisez une casse cohérente, qui affecte la façon dont un modèle apprend, par exemple à distinguer un titre d'un corps de texte.

Traiter les données

Les limites suivantes s'appliquent :

  • Nombre maximal de jetons d'entrée et de sortie :
    • Diffusion : 1 000 (environ 4 000 caractères)
  • Taille de l'ensemble de données de validation : 1 024 exemples
  • Taille de fichier de l'ensemble de données d'entraînement : jusqu'à 1 Go pour JSONL
  • Longueur de l'exemple d'entraînement : 1 000 (environ 4 000 caractères)
  • Taille de l'adaptateur :
    • Translation LLM V2 : la seule valeur acceptée est 4. L'utilisation d'autres valeurs (par exemple, 1 ou 8) entraînera un échec.

Déboguer

Le débogage d'un modèle personnalisé consiste davantage à déboguer les données que le modèle proprement dit. Si votre modèle ne traduit pas comme vous le souhaitez, vérifiez vos données pour voir où elles peuvent être améliorées.

Test

Même si vos scores d'évaluation semblent corrects, vérifiez le modèle pour vous assurer que ses performances correspondent à vos attentes. Si les données d'entraînement et de test proviennent d'un même ensemble qui est incorrect, le score peut être excellent alors que la traduction ne veut rien dire. Préparez des exemples qui ne figurent pas dans l'ensemble d'entraînement. Comparez les résultats du modèle personnalisé avec ceux du modèle TLLM de base de Google.

Il se peut que votre modèle présente les mêmes prédictions que le modèle de base, en particulier pour les segments courts ou si votre ensemble d'entraînement est petit, car le modèle de base est déjà performant. Si c'est le cas, essayez des segments plus longs ou plus complexes. Si vos segments présentent des prédictions identiques au modèle de base, cela peut indiquer un problème au niveau des données.

Si vous craignez que votre modèle fasse une erreur, assurez-vous que votre ensemble ou procédure de test couvre ce cas de manière adéquate pour que vous puissiez utiliser votre modèle en toute sécurité.

Étapes suivantes