Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הערכת מודלים של תרגום

הדרך הכי טובה להעריך מודל תרגום היא באמצעות שירות ההערכה של AI גנרטיבי. עם זאת, במודלים מותאמים אישית של NMT, אפשר גם ליצור ציון BLEU ישירות במסוף Google Cloud , שיכול לעזור בהערכת המודל, עם כמה מגבלות.

שימוש בשירות להערכת AI גנרטיבי

שירות ההערכה של AI גנרטיבי מציע את מדדי ההערכה הבאים למשימות תרגום:

‫MetricX ו-COMET הם מדדים מבוססי-מודל שמאומנים למשימות תרגום. אתם יכולים להעריך את האיכות והדיוק של תוצאות התרגום של התוכן שלכם, בין אם מדובר בפלט של NMT,‏ TranslationLLM או מודלים של Gemini.

אתם יכולים גם להשתמש ב-Gemini כמודל שופט כדי להעריך את המודל שלכם מבחינת רהיטות, קוהרנטיות, מילוליות ואיכות הטקסט בשילוב עם MetricX,‏ COMET או BLEU.

‫MetricX הוא מדד מבוסס-שגיאות שפותח על ידי Google. הוא מנבא ציון נקודה צפה בין 0 ל-25 שמייצג את איכות התרגום. השיטה MetricX זמינה גם כשיטה מבוססת-הפניה וגם כשיטה ללא הפניה (QE). כשמשתמשים במדד הזה, ציון נמוך יותר הוא טוב יותר כי הוא מצביע על כך שיש פחות שגיאות.
‫COMET משתמש בגישת רגרסיה מבוססת-הפניה שמספקת ציונים בטווח של 0 עד 1, כאשר 1 מציין תרגום מושלם.
‫BLEU (Bilingual Evaluation Understudy) הוא מדד שמבוסס על חישובים. ציון BLEU מציין עד כמה טקסט מועמד דומה לטקסט התייחסות. ככל שערך ה-BLEU קרוב יותר ל-1, כך התרגום קרוב יותר לטקסט הייחוס.

הכי טוב להשתמש בציוני BLEU להשוואות בשפה אחת או במאגר נתונים אחד. לדוגמה, ציון BLEU של 50 בתרגום מאנגלית לגרמנית לא ניתן להשוואה לציון BLEU של 50 בתרגום מיפנית לאנגלית. מומחי תרגום רבים משתמשים בגישות של מדדים מבוססי-מודל, שיש להם מתאם גבוה יותר עם דירוגים של בני אדם והם יותר גרנולריים בזיהוי תרחישי שגיאה.

כדי ללמוד איך להריץ הערכות של מודלים לתרגום באמצעות שירות ההערכה של AI גנרטיבי, אפשר לעיין במאמר בנושא הערכת מודל תרגום.

הערכה של מודל NMT בהתאמה אישית במסוף Google Cloud

אחרי שמסיימים לאמן מודל חדש של NMT בהתאמה אישית, אפשר להשתמש בערכת TEST כדי להעריך את האיכות והדיוק של המודל ישירות במסוף Google Cloud . איכות המודל תצוין באמצעות ציון BLEU, שמציין עד כמה הטקסט המועמד דומה לטקסט הייחוס. אם הציון נמוך, כדאי להוסיף עוד זוגות של פלחים לאימון (ומגוונים יותר). אחרי שמשנים את מערך הנתונים, צריך לאמן מודל חדש באמצעות מערך הנתונים המשופר.

הערכה במסוף Google Cloud תומכת רק בציוני BLEU. כדי להעריך את מודל התרגום באמצעות מדדים מבוססי-מודל, צריך להשתמש בשירות ההערכה של AI גנרטיבי.

קבלת ציון ה-BLEU של המודל

נכנסים למסוף Cloud Translation.

כניסה לדף התרגום
בתפריט הניווט, לוחצים על מודלים כדי לראות רשימה של המודלים.
לוחצים על המודל שרוצים להעריך.
לוחצים על הכרטיסייה Train כדי לראות את מדדי ההערכה של המודל, כמו ציון ה-BLEU שלו.

בדיקת חיזויים של מודלים

באמצעות Google Cloud המסוף, אתם יכולים להשוות בין תוצאות התרגום של המודל המותאם אישית לבין מודל ה-NMT שמוגדר כברירת מחדל.

נכנסים למסוף Cloud Translation.

כניסה לדף התרגום
בתפריט הניווט, לוחצים על מודלים כדי לראות רשימה של המודלים.
לוחצים על המודל שרוצים לבדוק.
לוחצים על הכרטיסייה חיזוי.
מוסיפים טקסט קלט בשדה של שפת המקור.
לוחצים על תרגום.

מוצגות תוצאות התרגום של המודל המותאם אישית ושל מודל ה-NMT הכללי.

הערכה והשוואה של מודלים באמצעות קבוצת נתונים לבדיקה חדשה

במסוף Google Cloud , אפשר להעריך מחדש מודלים קיימים באמצעות מערך חדש של נתוני בדיקה. בהערכה אחת, אפשר לכלול עד חמישה מודלים שונים ואז להשוות את התוצאות שלהם. מעלים את נתוני הבדיקה ל-Cloud Storage כקובץ ערכים מופרדים בטאבים (TSV) או כקובץ Translation Memory eXchange (TMX). המערכת מעריכה את המודל שלכם ביחס למערך הבדיקה, ומפיקה ציון הערכה.

אפשר גם לשמור את התוצאות של כל מודל כקובץ TSV בקטגוריה של Cloud Storage, שבה כל שורה היא בפורמט הבא:

Source segment tab Model candidate translation tab Reference translation

נכנסים למסוף Cloud Translation.

כניסה לדף התרגום
בתפריט הניווט, לוחצים על מודלים כדי לראות רשימה של המודלים.
לוחצים על המודל שרוצים להעריך.
לוחצים על הכרטיסייה הערכה.
בכרטיסייה הערכה, לוחצים על הערכה חדשה.
בוחרים את המודלים שרוצים להעריך ולהשוות, ואז לוחצים על הבא.

צריך לבחור את המודל הנוכחי, ו-Google NMT נבחר כברירת מחדל. אפשר לבטל את הבחירה.
מציינים שם לשם קבוצת נתונים לבדיקה כדי להבדיל אותה מהערכות אחרות, ואז בוחרים את קבוצת נתונים לבדיקה החדשה מ-Cloud Storage.
לוחצים על הבא.
כדי לייצא תחזיות, מציינים תיקיית יעד ב-Cloud Storage.
לוחצים על התחלת ההערכה.

אחרי ההערכה, מוצג במסוף ציון ההערכה בפורמט של טבלה. אפשר להריץ רק הערכה אחת בכל פעם. אם ציינתם תיקייה לאחסון תוצאות החיזוי, קובצי TSV ייכתבו למיקום הזה. השם של הקבצים האלה יהיה מזהה המודל המשויך עם שם קבוצת נתונים לבדיקה בסוף.