הכנת נתוני אימון

שירות Cloud Translation מאמן מודלים מותאמים אישית באמצעות צמדים תואמים של פלחים בשפות המקור והיעד. המערכת מתייחסת לכל זוג פלחים כפריט אימון עצמאי, בלי להניח שיש קורלציה בין זוגות נפרדים.

צמדי הפלחים שמשמשים לאימון המודל המותאם אישית צריכים להיות בפורמט של ערכים מופרדים בטאבים (.tsv) או בפורמט Translation Memory eXchange‏ (.tmx). מידע נוסף זמין במאמר הכנת דוגמאות לתרגום.

ביטול הכפילויות של זוגות פלחים מתבצע תמיד בכל הזוגות המיובאים. זוג פלחים הוא כפיל של זוג אחר אם פלח המקור שלו זהה לפלח מקור אחר. ב-Cloud Translation אי אפשר לייבא קבצים עם אותו תוכן.

פיצול נתונים

‫Cloud Translation משתמש בצמדי הפלחים שאתם מספקים למטרות שונות במהלך יצירת המודל בהתאמה אישית:

  • Train – זוגות של פלחים לאימון המודל. כדאי להקצות את רוב הנתונים למטרה הזו.
  • אימות – זוגות של פלחים שמשמשים לאימות התוצאות שהמודל מחזיר במהלך האימון.
  • בדיקה – זוגות של פלחים ליצירת מדדי ההערכה הסופיים של המודל. מציין את רמת הביצועים האפשרית של המודל בסביבת ייצור.

אתם יכולים לשלוט בזוגות הפלחים שבהם Cloud Translation משתמש לכל מטרה על ידי העלאת קבצים נפרדים עבור קבוצות האימון, האימות והבדיקה. אם לא מציינים במפורש באילו קבצים להשתמש לכל אחת משלוש המטרות האלה, Cloud Translation מחלק באופן אוטומטי את זוגות הפלחים לשלוש קבוצות. ‫Cloud Translation משתמש בכ-80% מהנתונים שלכם לאימון, ב-10% לאימות וב-10% לבדיקה. ‫Cloud Translation מקצה באופן אקראי את זוגות הפלחים לשלוש הקבוצות. אפשר להשתמש בעד 10,000 זוגות של פלחים בכל אחד מהמערכים של האימות והבדיקה. אחרי 10,000 זוגות, זוגות של פלחים מועברים לקבוצת נתונים לאימון.

אם מייבאים כמה פעמים נתונים לאותו מערך נתונים, אפשר לציין ידנית את פיצול הנתונים לייבוא אחד ולהשתמש בפיצול האוטומטי לייבוא אחר. הנתונים תמיד מאוזנים מחדש בהתאם לחלוקה הידנית שלכם אחרי כל ייבוא ומחיקה של קובץ.

הדרישות לגבי הנתונים

נתוני האימון צריכים לעמוד בדרישות הבאות:

  • אם אתם מאפשרים ל-Cloud Translation לפצל את הנתונים באופן אוטומטי, אתם צריכים לשלוח לפחות 1,000 זוגות של פלחים כדי לאמן מודל בהתאמה אישית.
  • אם מפצלים את הנתונים באופן ידני, צריך לספק לפחות שלושה זוגות של פלחים עבור קבוצת TRAIN, ולפחות 100 זוגות של פלחים עבור כל אחת מהקבוצות VALIDATION ו-TEST.
  • צריך לספק לפחות שלושה זוגות של פלחים עבור קבוצת TRAIN, ולפחות 100 זוגות של פלחים עבור כל אחת מהקבוצות VALIDATION ו-TEST.
  • אי אפשר לספק יותר מ-10,000 זוגות של פלחים לכל אחד מהמערכים VALIDATION ו-TEST.
  • מערך הנתונים לא יכול לכלול יותר מ-15 מיליון זוגות של פלחים.

המלצות לנתונים

ההמלצות הבאות יכולות לעזור לכם לשפר את איכות המודל:

  • כדאי להשתמש ב-5,000 זוגות של פלחים לפחות עבור TRAIN, ב-500 זוגות של פלחים עבור VALIDATION וב-500 זוגות של פלחים עבור TEST. עם זאת, מומלץ להשתמש בכמה שיותר נתונים. כשיש יותר נתונים בקבוצה TRAIN, המודל יכול ללמוד דפוסים. כשיש יותר נתונים בקבוצות VALIDATION ו-TEST, אפשר לוודא שהמודל יכול להכליל מגוון רחב יותר של תרחישים בדומיין.
  • הקטעים צריכים להיות באורך של 200 מילים או פחות. יכול להיות ש-Cloud Translation ישמיט זוגות של פלחים שגדולים יותר. מידע נוסף מופיע במאמר בנושא בעיות בייבוא.
  • פותרים בעיות נפוצות בנתוני המקור, כמו שמתואר בחלק 'ניקוי נתונים מבולגנים' בקטע הכנת נתונים בסקירה הכללית.

המאמרים הבאים