יצירת מודל תרגום בהתאמה אישית
אימון מודל תרגום בהתאמה אישית ושימוש בו באמצעות Google Cloud המסוף. בדוגמה הבאה נעשה שימוש ב-AutoML Translation כדי לאמן מודל תרגום מאנגלית לספרדית באמצעות מערך נתונים שמכיל זוגות של פלחים שמתמקדים בטכנולוגיה מתוך לוקליזציה של תוכנה.
לפני שמתחילים
לפני שמתחילים להשתמש ב-AutoML Translation, צריך להפעיל את Cloud Translation API בפרויקט ולקבל את ההרשאות שמוענקות על ידי התפקידים הבאים:
- התפקיד צפייה כדי להציג משאבים קיימים בפרויקט
- הרשאה Cloud Translation API Editor ליצירה ולניהול של מערכי נתונים ומודלים
- התפקיד Storage Admin כדי להעלות נתוני אימון לקטגוריה ב-Cloud Storage
יצירת מערך נתונים לתרגום וייבוא של זוגות פלחים
מורידים את קובץ הארכיון שמכיל את נתוני הדוגמה לאימון המודל, ומחלצים את הקבצים.
במדריך הזה נשתמש בקובץ TSV מאנגלית לספרדית.
עוברים אל מסוף AutoML Translation.
בחלונית הניווט, לוחצים על מערכי נתונים כדי לעבור לדף מערכי נתונים.
לוחצים על יצירת מערך נתונים.
בתיבת הדו-שיח Create dataset (יצירת מערך נתונים), מציינים את הפרטים של מערך הנתונים:
- מזינים
tutorial_datasetכשם של מערך הנתונים. - בתפריט הנפתח, בוחרים באפשרות אנגלית (EN) כשפת המקור.
- בוחרים באפשרות ספרדית (ES) בתור שפת היעד.
- לוחצים על יצירה.
- מזינים
אחרי שיוצרים את מערך הנתונים, לוחצים על השם שלו כדי לראות את הפרטים.
עוברים לכרטיסייה ייבוא ומעלים את מערך הנתונים
en-es.tsvל-Cloud Storage:- בוחרים באפשרות העלאת קבצים מהמחשב.
- לוחצים על בחירת קבצים ובוחרים את הקובץ
en-es.tsvשהורדתם וחילצתם קודם. - לוחצים על Browse כדי לבחור או ליצור קטגוריה חדשה של Cloud Storage שבה מאוחסן קובץ ה-TSV. האזור של קטגוריית המקור חייב להיות
us-central1.
לוחצים על Continue.
AutoML Translation מפצל באופן אוטומטי את הנתונים לקבוצות של אימון, אימות ובדיקה. אפשר לראות את הפילוחים האלה ואת זוגות המשפטים המיובאים בכרטיסייה משפטים של קבוצת הנתונים.
אימון מודל
עוברים אל מסוף AutoML Translation.
בחלונית הניווט, עוברים לדף מערכי נתונים.
לוחצים על מערך הנתונים tutorial_dataset.
עוברים לכרטיסייה אימון.
לוחצים על התחלת אימון כדי לפתוח את החלונית אימון מודל חדש.
מזינים
tutorial_modelבשם המודל.לוחצים על התחלת ההדרכה.
תהליך האימון של המודל יכול להימשך כמה שעות.
הערכת המודל
כדאי לבדוק את ההשוואה בין המודל לבין מודל ברירת המחדל של Google NMT שמבוסס על זוגות של פלחים מקבוצת הנתונים לבדיקה.
עוברים אל מסוף AutoML Translation.
בחלונית הניווט, עוברים לדף מודלים.
לוחצים על המודל tutorial_model.
לוחצים על הכרטיסייה הערכה.
בקטע Previous evaluations, Cloud Translation מציג את ציון ה-BLEU של המודל בהשוואה למודל ה-NMT של Google. הציון BLEU (Bilingual Evaluation Understudy) מציין עד כמה הטקסט המועמד דומה לטקסטים להשוואה. ערכים שקרובים יותר ל-100 מייצגים טקסטים דומים יותר.
שימוש במודל התרגום
אפשר להשתמש במודל המותאם אישית כדי לתרגם טקסט מסוים במסוף Google Cloud .
עוברים אל מסוף AutoML Translation.
בחלונית הניווט, עוברים לדף מודלים.
לוחצים על המודל tutorial_model.
לוחצים על הכרטיסייה חיזוי.
בתיבת הטקסט אנגלית, מזינים את הטקסט שרוצים לתרגם ולוחצים על תרגום.
אפשר להשוות את התוצאות מהמודל המותאם אישית למודל Google NMT.
הסרת המשאבים
כדי להימנע מחיובים מיותרים Google Cloud , מוחקים את המודל, את מערך הנתונים ואת קובץ en-es.tsv. אפשר גם להשתמש ב-Google Cloud console כדי למחוק את הפרויקט אם הוא לא נחוץ.
המאמרים הבאים
- מידע על מודלים בהתאמה אישית זמין במדריך למתחילים.
- כדי ליצור מערך נתונים ומודל מותאם אישית משלכם, אפשר לעיין במאמר הכנת נתונים לאימון.