התאמה אישית של מודל TLLM
אתם יכולים להשתמש ב-Cloud Translation - Advanced API כדי להתאים אישית את מודל TLLM (מודל שפה גדול לתרגום) של Google בלי לכתוב קוד. התאמה של מודל בהתאמה אישית לתוכן ספציפי לתחום, כדי ליצור תרגומים מדויקים יותר מאלה שמתקבלים באמצעות מודל ברירת המחדל של Google TLLM. מודל TLLM תומך במספר גדול של זוגות שפות, והוא מתאים לטקסט לשימוש כללי. מודל בהתאמה אישית מצטיין בטיפול באוצר מילים ספציפי וייחודי. אם אתם מפעילים שירות דיווח מיוחד שיש לו הזדמנות להתרחב למדינות חדשות, במקום לשכור מומחים, אתם יכולים ליצור ולשפר מודל מותאם אישית שיבצע את העבודה בזמן אמת.
תהליך הכנת נתונים
כדי לאמן מודל מותאם אישית, צריך לספק זוגות תואמים של פלחים בשפת המקור ובשפת היעד. אלה זוגות של מילים או ביטויים שיש להם אותה משמעות בשפות שמתרגמים מהן ואליהן. ככל שהמשמעות של זוגות הפלחים קרובה יותר, כך המודל יכול לפעול בצורה טובה יותר. כשמרכיבים את מערך הנתונים של זוגות פלחים תואמים, מתחילים בתרחיש לדוגמה:
מה התוצאה שאתם מנסים להשיג?
אילו סוגים של פלחים חשוב לתרגם בצורה נכונה כדי להשיג את התוצאה הזו? האם מודל TLLM יכול להשיג את זה מיד?
האם אפשר לתרגם את הפלחים המרכזיים האלה בצורה שתספק אותך? אם משימת התרגום היא כל כך מעורפלת שאדם שמדבר את שתי השפות ברמה שוטפת יתקשה לבצע אותה בצורה משביעת רצון, יכול להיות שמודל TLLM יבצע אותה ברמה דומה למודל בהתאמה אישית.
אילו סוגי דוגמאות משקפים בצורה הטובה ביותר את הסוג והטווח של זוגות הפלחים שהמערכת שלך תצטרך לתרגם?
התאמת נתונים לדומיין הבעייתי
אימון מודל תרגום בהתאמה אישית כדי להתאים אותו לתחום לשוני מסוים. חשוב לוודא שזוגות הפלחים שלכם מכסים בצורה הטובה ביותר את אוצר המילים, השימוש והמוזרויות הדקדוקיות של התעשייה או תחום ההתמקדות שלכם. חיפוש מסמכים עם שימושים אופייניים למשימות התרגום שרוצים לבצע, והתאמה של הביטויים המקבילים ככל האפשר מבחינת המשמעות. אין התאמה מושלמת בין השפות מבחינת אוצר מילים או תחביר, אבל כדאי לנסות לתעד את כל המגוון של הסמנטיקה שאתם מצפים לפגוש. אתם מתבססים על מודל שכבר מבצע תרגום טוב למטרות כלליות. הדוגמאות הן השלב האחרון בהתאמה של מודלים מותאמים אישית, ולכן חשוב לוודא שהן רלוונטיות ומייצגות.
מציגים את המגוון של המרחב הלשוני
אל תניחו שהאופן שבו אנשים כותבים על דומיין ספציפי הוא אחיד מספיק כדי שדגם שאומן על מספר קטן של דוגמאות טקסט שתורגמו על ידי כמה מתרגמים יפעל עבור כל מי שכותב על אותו דומיין. לכל אחד מאיתנו יש סגנון כתיבה ייחודי, ולכן מערך נתונים לאימון עם זוגות של פלחים ממחברים ומתרגמים רבים יניב כנראה מודל שיהיה שימושי לתרגום כתיבה מארגון מגוון. כדאי גם לשקול את המגוון של אורכי הפלחים והמבנים שלהם: מערך נתונים שבו כל הפלחים הם באותו גודל או חולקים מבנה דקדוקי לא יבנה מודל שכולל את כל האפשרויות.
מקור הנתונים
אחרי שמחליטים אילו נתונים צריך, מוצאים דרך להשיג אותם. צריך לקחת בחשבון את כל הנתונים שהארגון שלכם אוסף. יכול להיות שאתם כבר אוספים את הנתונים שאתם צריכים כדי לאמן מודל תרגום. אם אין לכם את הנתונים שאתם צריכים, אתם יכולים להשיג אותם באופן ידני או להעביר את האחריות לצד שלישי.
השארת בני אדם בתהליך
כדאי לוודא שאדם שמבין היטב את שתי השפות אימת שזוגות הפלחים תואמים ומייצגים תרגומים מדויקים ומובנים. טעות נפוצה, כמו אי-התאמה בין השורות בגיליון האלקטרוני של נתוני האימון, עלולה להניב תרגומים חסרי משמעות. כדי לקבל מודל שניתן לשימוש ב-Cloud Translation - Advanced API, צריך נתונים באיכות גבוהה.
שימוש בזוגות של פלחים תוך שמירה על הוגנות
עיקרון מרכזי שעומד בבסיס מוצרי ה-ML של Google הוא למידת מכונה ממוקדת באדם. זהו גישה שמקדמת שיטות לפיתוח אחראי של AI, כולל הוגנות. המטרה של הוגנות ב-ML היא להבין ולמנוע יחס לא הוגן או דעות קדומות כלפי אנשים על רקע גזע, הכנסה, נטייה מינית, דת, מגדר ומאפיינים אחרים שקשורים היסטורית לאפליה ולהדרה, כשהם מתבטאים במערכות אלגוריתמיות או בקבלת החלטות בעזרת אלגוריתמים.
ניקוי נתונים מבולגנים
יכול להיות שתעשו טעויות כשאתם מכינים את הנתונים לעיבוד, וזה עלול לבלבל מודל מותאם אישית. חפשו את הבעיות הבאות בנתונים שאפשר לתקן:
- כדאי להסיר פלחים כפולים של מקור, במיוחד אם יש להם תרגומים שונים ליעד, כדי לוודא ש-Cloud Translation - Advanced API משתמש בתרגום המועדף שלכם.
- התאמה של פלחי מקור לפלחי יעד נכונים.
- התאמה של פלחים לשפה שצוינה. (דוגמה: אם קבוצת הנתונים היא בסינית, צריך לכלול בה רק פלחים סיניים).
- בפלחים לטירגוט שכוללים שילוב של שפות, צריך לוודא שהמילים שלא תורגמו לא תורגמו בכוונה. טירגוט פלחים שכוללים בטעות מילים לא מתורגמות מוסיף רעשי רקע לנתונים, וזה עלול להוריד את איכות המודל.
- תיקון פלחים עם שגיאות הקלדה או שגיאות דקדוקיות.
- מסירים תוכן שלא ניתן לתרגם, כמו תגי placeholder ותגי HTML. תוכן שלא ניתן לתרגם עלול לגרום לשגיאות בפיסוק.
- אל תכללו זוגות של פלחים שמחליפים דברים כלליים בשמות עצם ספציפיים. לדוגמה, תרגום של מונח כללי כמו נשיא ל-JFK. במקום זאת, צריך להסיר את המילים האלה או לשנות את שמות העצם הספציפיים לשמות עצם כלליים.
- מסירים פלחים כפולים במערכי האימון והבדיקה.
- להשתמש באותיות רישיות באופן עקבי, כי זה משפיע על האופן שבו המודל לומד, למשל להבחין בין כותרת לבין גוף הטקסט.
עיבוד נתונים
יש הגבלות:
- מספר מקסימלי של טוקנים לקלט ולפלט:
- הצגה: 1,000 (כ-4,000 תווים)
- גודל מערך הנתונים לאימות: 1,024 דוגמאות
- גודל הקובץ של מערך הנתונים לאימון: עד 1GB ל-JSONL
- אורך דוגמה לאימון: 1,000 (כ-4,000 תווים)
- גודל המתאם:
-
Translation LLM V2: הערך הנתמך הוא רק 4. שימוש בערכים אחרים (לדוגמה, 1 או 8) יגרום לכשל.
-
ניפוי באגים
ניפוי באגים במודל מותאם אישית מתמקד יותר בניפוי באגים בנתונים מאשר במודל עצמו. אם המודל לא מתרגם כמו שרציתם, כדאי לבדוק את הנתונים כדי להבין איפה אפשר לשפר אותו.
בדיקה
גם אם נראה שהציונים של ההערכה בסדר, כדאי לבדוק את המודל כדי לוודא שהביצועים שלו תואמים לציפיות שלכם. אם נתוני האימון והבדיקה נלקחים מאותה קבוצה שגויה של דוגמאות, יכול להיות שהציונים יהיו מצוינים גם אם התרגום לא הגיוני. מכינים כמה דוגמאות שלא נמצאות בקבוצת נתונים לאימון. השוואה בין התוצאות של המודל המותאם אישית לבין מודל הבסיס של Google TLLM.
יכול להיות שהמודל שלכם יפיק את אותן תחזיות כמו מודל הבסיס, במיוחד בפלחים קצרים או אם יש לכם קבוצת נתונים לאימון קטנה יותר, כי מודל הבסיס כבר טוב. אם כן, כדאי לנסות פלחים ארוכים יותר או מורכבים יותר. אם הפלחים שמתקבלים זהים לתחזיות מהמודל הבסיסי, יכול להיות שיש בעיה בנתונים.
אם יש טעות שאתם חוששים שהמודל יעשה, ודאו שקבוצת נתונים לבדיקה או ההליך שלכם מכסים את המקרה הזה בצורה מספקת, כדי שתרגישו בטוחים להשתמש במודל.
המאמרים הבאים
- במאמר הכנת נתוני אימון מוסבר איך ליצור מערך נתונים ומודל בהתאמה אישית.