הערכת מודלים של תרגום

הדרך הכי טובה להעריך מודל תרגום היא להשתמש בשירות ההערכה של AI גנרטיבי. עם זאת, במודלים מותאמים אישית של NMT, אפשר גם ליצור ציון BLEU ישירות במסוף Google Cloud , שיכול לעזור בהערכת המודל, עם כמה מגבלות.

שימוש בשירות להערכת AI גנרטיבי

שירות ההערכה של AI גנרטיבי מציע את מדדי ההערכה הבאים למשימות תרגום:

‫MetricX ו-COMET הם מדדים מבוססי-מודל ברמת הנקודה שאומנו למשימות תרגום. אתם יכולים להעריך את האיכות והדיוק של התוצאות של מודל התרגום עבור התוכן שלכם, בין אם מדובר בפלט של NMT,‏ TranslationLLM או מודלים של Gemini.

אתם יכולים גם להשתמש ב-Gemini כמודל שופט כדי להעריך את המודל שלכם מבחינת רהיטות, קוהרנטיות, מילוליות ואיכות הטקסט בשילוב עם MetricX,‏ COMET או BLEU.

  • MetricX הוא מדד מבוסס-שגיאות שפותח על ידי Google. הוא חוזה ציון נקודה צפה בין 0 ל-25 שמייצג את איכות התרגום. ‫MetricX זמין גם כשיטה מבוססת-הפניה וגם כשיטה ללא הפניה (QE). כשמשתמשים במדד הזה, ציון נמוך יותר הוא טוב יותר כי המשמעות היא שיש פחות שגיאות.

  • COMET משתמש בגישת רגרסיה מבוססת-הפניה שמספקת ציונים בטווח שבין 0 ל-1, כאשר 1 מציין תרגום מושלם.

  • BLEU (Bilingual Evaluation Understudy) הוא מדד מבוסס-מחשוב. ציון BLEU מציין עד כמה טקסט מועמד דומה לטקסט ייחוס. ככל שערך ה-BLEU קרוב יותר לאחד, כך התרגום קרוב יותר לטקסט הייחוס.

    הכי טוב להשתמש בציוני BLEU להשוואות בשפה אחת או במאגר נתונים אחד. לדוגמה, ציון BLEU של 50 בתרגום מאנגלית לגרמנית לא ניתן להשוואה לציון BLEU של 50 בתרגום מיפנית לאנגלית. מומחי תרגום רבים משתמשים בגישות מבוססות-מדדים, שיש להן מתאם גבוה יותר עם דירוגים של בני אדם, והן מפורטות יותר בזיהוי תרחישי שגיאה.

כדי ללמוד איך להריץ הערכות של מודלים לתרגום באמצעות שירות ההערכה של AI גנרטיבי, אפשר לעיין במאמר בנושא הערכת מודל תרגום.

הערכה של מודל NMT בהתאמה אישית במסוף Google Cloud

אחרי שמסיימים לאמן מודל חדש של NMT בהתאמה אישית, אפשר להשתמש בTEST כדי להעריך את האיכות והדיוק של המודל ישירות במסוף Google Cloud . איכות המודל תצוין באמצעות ציון BLEU, שמציין עד כמה הטקסט המועמד דומה לטקסט הייחוס. אם הציון נמוך, כדאי להוסיף עוד זוגות של פלחים לאימון (ומגוונים יותר). אחרי שמשנים את מערך הנתונים, צריך לאמן מודל חדש באמצעות מערך הנתונים המשופר.

הערכה במסוף Google Cloud תומכת רק בציון BLEU. כדי להעריך את מודל התרגום באמצעות מדדים מבוססי-מודל, צריך להשתמש בשירות ההערכה של AI גנרטיבי.

קבלת ציון ה-BLEU של המודל

  1. נכנסים למסוף Cloud Translation.

    כניסה לדף התרגום

  2. בתפריט הניווט, לוחצים על מודלים כדי לראות רשימה של המודלים.

  3. לוחצים על המודל שרוצים להעריך.

  4. לוחצים על הכרטיסייה Train (אימון) כדי לראות את מדדי ההערכה של המודל, כמו ציון ה-BLEU שלו.

בדיקת חיזויים של מודלים

באמצעות Google Cloud המסוף, אתם יכולים להשוות בין תוצאות התרגום של המודל המותאם אישית לבין מודל ה-NMT שמוגדר כברירת מחדל.

  1. נכנסים למסוף Cloud Translation.

    כניסה לדף התרגום

  2. בתפריט הניווט, לוחצים על מודלים כדי לראות רשימה של המודלים.

  3. לוחצים על המודל כדי לבדוק אותו.

  4. לוחצים על הכרטיסייה חיזוי.

  5. מוסיפים טקסט קלט בשדה של שפת המקור.

  6. לוחצים על תרגום.

    מוצגות תוצאות התרגום של המודל המותאם אישית ושל מודל ה-NMT הכללי.

הערכה והשוואה של מודלים באמצעות קבוצת נתונים לבדיקה חדשה

במסוף Google Cloud , אפשר להעריך מחדש מודלים קיימים באמצעות מערך חדש של נתוני בדיקה. במסגרת הערכה אחת, אפשר לכלול עד חמישה מודלים שונים ולהשוות את התוצאות שלהם. מעלים את נתוני הבדיקה ל-Cloud Storage כקובץ של ערכים מופרדים בטאבים (TSV) או כקובץ Translation Memory eXchange (TMX). המערכת מעריכה את המודל שלכם ביחס למערך הבדיקה, ומפיקה ציון הערכה.

אפשר גם לשמור את התוצאות של כל מודל כקובץ TSV בקטגוריה של Cloud Storage, כשכל שורה בפורמט הבא:

Source segment tab Model candidate translation tab Reference translation
  1. נכנסים למסוף Cloud Translation.

    כניסה לדף התרגום

  2. בתפריט הניווט, לוחצים על מודלים כדי לראות רשימה של המודלים.

  3. לוחצים על המודל שרוצים להעריך.

  4. לוחצים על הכרטיסייה הערכה.

  5. בכרטיסייה הערכה, לוחצים על הערכה חדשה.

  6. בוחרים את המודלים שרוצים להעריך ולהשוות, ואז לוחצים על הבא.

    צריך לבחור את המודל הנוכחי. המודל שנבחר כברירת מחדל הוא Google NMT, אבל אפשר לבטל את הבחירה בו.

  7. מציינים שם לשם קבוצת נתונים לבדיקה כדי להבדיל אותה מהערכות אחרות, ואז בוחרים את קבוצת נתונים לבדיקה החדשה מ-Cloud Storage.

  8. לוחצים על הבא.

  9. כדי לייצא תחזיות, מציינים תיקיית יעד ב-Cloud Storage.

  10. לוחצים על התחלת ההערכה.

    אחרי ההערכה, מוצג במסוף ציון ההערכה בפורמט של טבלה. אפשר להריץ רק הערכה אחת בכל פעם. אם ציינתם תיקייה לאחסון תוצאות החיזוי, קובצי TSV ייכתבו למיקום הזה. הקבצים האלה ייקראו על שם מזהה המודל המשויך עם שם קבוצת הנתונים לבדיקה בסוף.