סקירה כללית על תרגומים בהתאמה אישית

מודל ברירת המחדל של Google לתרגום מכונה עצבי (NMT) כולל מגוון רחב של שפות ומתאים לתרגום טקסט למטרות כלליות. עם זאת, במקרים שבהם מתרגמים טקסט ספציפי לדומיין או טקסט שרגיש לסגנון, תרגומים מותאמים אישית יכולים לעזור לכם לקבל תרגומים רלוונטיים יותר.

כדי להשתמש בתרגומים בהתאמה אישית, צריך לספק דוגמאות לתרגומים. לאחר מכן, Cloud Translation יכול ליצור תוצאות שדומות מאוד לסגנון, לטון ולמילים של הדוגמאות שסיפקתם.

הגרסה המתקדמת של Cloud Translation API מספקת מגוון פתרונות להתאמה אישית של תרגומים:

  • התאמה אישית של NMT: אתם יכולים לאמן גרסה מותאמת אישית משלכם של מודל NMT רגיל עם מערך נתונים עשיר של דוגמאות לתרגום.

  • התאמה אישית של TLLM: אתם יכולים לכוונן גרסה מותאמת אישית משלכם של מודל TLLM (מודל שפה גדול לתרגום) רגיל באמצעות מערך נתונים מוגבל או נרחב של דוגמאות לתרגום.

  • Adaptive Translation: אפשר ליצור התאמה אישית קלה של מודל Translation LLM ‏ (TLLM) עם מערך נתונים מוגבל של דוגמאות תרגום.

  • מילון מונחים: אפשר להשתמש במילון מונחים כדי ליצור מילון מותאם אישית לתרגום נכון ועקבי של מונחים ספציפיים לתחום.

התאמה אישית של NMT

כדי לאמן גרסה משלכם של מודל NMT, אתם מייבאים מערך נתונים משמעותי של דוגמאות תרגום משלכם. לאחר מכן תוכלו לבקש תרגומים באמצעות המודל שלכם במקום מודל ה-NMT שמוגדר כברירת מחדל. מודל מותאם אישית מהסוג הזה יכול להתאים במיוחד לתרגום טקסטים בתחום ספציפי, שבהם חשוב מאוד להשתמש בטרמינולוגיה הנכונה.

תחויבו גם על הזמן שדרוש לאימון המודל וגם על מספר התווים של הקלט שאתם שולחים לתרגום.

התאמה אישית של מודלים גדולים של שפה (TLLM)

כדי לאמן גרסה משלכם של מודל TLLM, אתם מייבאים מערך נתונים של דוגמאות תרגום משלכם. לאחר מכן תוכלו לבקש תרגומים שישתמשו במודל שלכם במקום במודל TLLM שמוגדר כברירת מחדל. מודל מותאם אישית מהסוג הזה יכול להתאים במיוחד לתרגום טקסטים בתחום ספציפי, שבהם חשוב מאוד להשתמש בטרמינולוגיה הנכונה.

תחויבו גם על הזמן שדרוש לאימון המודל וגם על מספר התווים של הקלט שאתם שולחים לתרגום.

תרגום דינמי

תרגומים דינמיים משתמשים במודלים גדולים של שפה (LLM) בשילוב עם מערכי נתונים קטנים כדי לספק תרגומים באיכות גבוהה, שלרוב שווה לתרגומים של מודלים מותאמים אישית של Cloud Translation. אתם לא מאמנים מודלים ולא מתחזקים אותם. בהשוואה למודלים מותאמים אישית, תרגום דינמי מתאים במיוחד לקבלת תשובות שדומות בסגנון, בטון ובקול לקלט שלכם.

במקרה של תרגום דינמי, החיוב מתבצע לפי מספר התווים של הקלט והפלט.

מילוני מונחים

מילוני מונחים מאפשרים לכם לציין איך לתרגם מונחים מסוימים. אתם מספקים רשימה של מונחים והתרגומים שלהם, ו-Cloud Translation משתמש בה כדי לוודא שהתרגומים של המונחים האלה יהיו עקביים ומדויקים. האפשרות הזו שימושית במיוחד כשמדובר באוצר מילים ספציפי לדומיין.

החיוב על השימוש במילון המונחים מבוסס על מספר התווים שנשלחים לתרגום.

הכנת דוגמאות לתרגומים

מכינים דוגמאות לתרגומים כזוגות של פלחים, שכוללים משפט אחד בשפת המקור ומשפט תואם שמתורגם לשפת היעד. שומרים את צמדי הפלחים האלה בקובץ ערכים מופרדים באמצעות טאב (TSV) או בקובץ Translation Memory eXchange‏ (TMX).

בוחרים דוגמאות שמייצגות את התחום הלשוני של התוכן שמתכננים לתרגם. הנחיות נוספות מפורטות בקטע הכנת הנתונים.

TSV

בקובצי ערכים מופרדים באמצעות Tab, כל שורה היא בפורמט הבא:

  • Source segment כרטיסייה Translated segment

אל תכללו שורת כותרת עם קודי שפה כדי לזהות את שפת המקור ואת שפת היעד. מציינים את השפות האלה כשיוצרים מערך נתונים. בדוגמה הבאה מוצגים זוגות של פלחים לתרגום מאנגלית לגרמנית:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

כל התוכן בקובץ TSV חייב להיות טקסט פשוט. אם הטקסט כולל תגי HTML או סימון אחר, Cloud Translation מתייחס לסימון כאל טקסט פשוט.

TMX

‫TMX הוא פורמט XML סטנדרטי לאספקת פלחים של תרגום ממקור ליעד. ‫Cloud Translation תומך בקובצי קלט בפורמט שמבוסס על TMX גרסה 1.4. בדוגמה הבאה אפשר לראות את המבנה הנדרש:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

רכיב <header> בקובץ TMX תקין חייב לזהות את שפת המקור באמצעות המאפיין srclang, וכל רכיב <tuv> חייב לזהות את השפה של הטקסט שכלול בו באמצעות המאפיין xml:lang.

כל רכיבי <tu> חייבים להכיל זוג רכיבי <tuv> עם אותן שפות מקור ויעד. אם רכיב <tu> מכיל יותר משני רכיבי <tuv>, Cloud Translation מעבד רק את רכיב <tuv> הראשון שתואם לשפת המקור ואת רכיב <tuv> הראשון שתואם לשפת היעד, ומתעלם מהשאר. אם לרכיב <tu> אין זוג תואם של רכיבי <tuv>,‏ Cloud Translation מדלג על רכיב <tu> הלא תקין.

‫Cloud Translation מסיר את תגי העיצוב מסביב לרכיב <seg> לפני העיבוד. אם רכיב <tuv> מכיל יותר מרכיב <seg> אחד, Cloud Translation ישרשר את הטקסט שלהם לרכיב אחד עם רווח ביניהם.

אם הקובץ מכיל תגי XML אחרים מאלה שמוצגים למעלה, Cloud Translation מתעלם מהם.

אם הקובץ לא תואם לפורמט XML ו-TMX (לדוגמה, אם חסר תג סיום או רכיב <tmx>), Cloud Translation מפסיק את העיבוד שלו. ‫Cloud Translation גם מפסיק את העיבוד אם הוא מדלג על יותר מ-1,024 רכיבי <tu> לא תקינים.

המספר המינימלי והמקסימלי של זוגות פלחים שנדרשים לכל תכונה שונה. מידע נוסף זמין במאמרים בנושא הכנת נתונים ל-Cloud Translation או דרישות נתונים לתרגום דינמי.

כדי להכין מערך נתונים למודל TLLM מותאם אישית, אפשר לעיין במאמר הכנת נתונים להתאמה מפוקחת.

המאמרים הבאים