הכנת נתוני אימון למודלים של LLM לתרגום
במאמר הזה מוסבר איך מגדירים מערך נתונים של כוונון מפוקח (SFT) עבור מודל LLM לתרגום. אפשר לשנות את ההגדרות של סוגי נתונים מסוג טקסט.
מידע על מערכי נתונים לכוונון מפוקח (SFT)
מערך נתונים של כוונון מפוקח (SFT) משמש לכוונון מודל שעבר אימון מוקדם כדי להתאים אותו לדומיין ספציפי. נתוני הקלט צריכים להיות דומים לנתונים שהמודל צפוי להיתקל בהם בשימוש בעולם האמיתי. תוויות הפלט צריכות לייצג את התשובות או התוצאות הנכונות לכל קלט.
מערך נתונים לאימון
כדי לשפר את המודל, צריך לספק מערך נתונים לאימון. כדי לקבל את התוצאות הטובות ביותר, מומלץ להתחיל עם 100 דוגמאות. אפשר להגדיל את מספר הדוגמאות לאלפים אם צריך. איכות מערך הנתונים חשובה הרבה יותר מהכמות.
מגבלות:
- מספר הטוקנים המקסימלי של קלט ופלט לכל דוגמה: 1,000
- הגודל המקסימלי של קובץ מערך הנתונים לאימון: עד 1GB ל-JSONL.
ערכת אימות
מומלץ מאוד לספק מערך נתונים לאימות. מערך נתוני אימות עוזר למדוד את האפקטיביות של משימת התאמה.
מגבלות:
- מספר הטוקנים המקסימלי לקלט ולפלט לכל דוגמה: 1,000
- מספר הדוגמאות המקסימלי במערך הנתונים של האימות: 1,024
- גודל הקובץ המקסימלי של מערך נתוני האימות: עד 1GB ל-JSONL.
פורמט מערך הנתונים
קבוצת הנתונים לכוונון המודל צריכה להיות בפורמט JSON Lines (JSONL), שבו כל שורה מכילה דוגמה אחת לכוונון.
לפני שמכווננים את המודל, צריך להעלות את מערך הנתונים לקטגוריה של Cloud Storage. חשוב להעלות את הסרטון ל-us-central1.
דוגמה למערך נתונים של translation-llm-002
{
"contents": [
{
"role": "user",
"parts": [
{
"text": "English: Hello. Spanish:",
}
]
},
{
"role": "model",
"parts": [
{
"text": "Hola.",
}
]
}
]
}
תוכן עניינים
סוג הנתונים המובְנים הבסיסי שמכיל תוכן של הודעה שמורכב מכמה חלקים. המחלקות האלה מורכבות משני מאפיינים עיקריים: role ו-parts. המאפיין role מציין את האדם שיצר את התוכן, והמאפיין parts מכיל כמה רכיבים, שכל אחד מהם מייצג פלח נתונים בהודעה.
| פרמטרים | |
|---|---|
|
הזהות של הישות שיצרה את ההודעה. יש תמיכה בערכים הבאים:
|
|
רשימה של חלקים מסודרים שמרכיבים הודעה אחת. לגבי מגבלות על הקלט, כמו מספר הטוקנים המקסימלי או מספר התמונות, אפשר לעיין במפרט המודל בדף המודלים של Google. כדי לחשב את מספר הטוקנים בבקשה, אפשר לעיין במאמר בנושא קבלת מספר הטוקנים. |
חלקים
סוג נתונים שמכיל מדיה שהיא חלק מהודעה Content מרובת חלקים.
| פרמטרים | |
|---|---|
|
הנחיית טקסט או קטע קוד. |
העלאת מערכי נתונים לשיפור הביצועים ל-Cloud Storage
כדי להריץ משימת שיפור, צריך להעלות קבוצת נתונים אחת או יותר לקטגוריה של Cloud Storage. אפשר ליצור קטגוריה חדשה של Cloud Storage או להשתמש בקטגוריה קיימת כדי לאחסן קובצי מערכי נתונים. האזור של מאגר הנתונים לא משנה, אבל מומלץ להשתמש במאגר שנמצא באותוGoogle Cloud פרויקט שבו אתם מתכננים לכוונן את המודל.
אחרי שהבאקט מוכן, מעלים את קובץ מערך הנתונים לבאקט.
דוגמאות ל-Notebook להכנת נתונים
ריכזנו כאן כמה דוגמאות ל-notebook של Colab שיעזרו לכם להתחיל.
קבוצת נתונים של AutoML Translation
אם כבר העליתם מערכי נתונים של תרגום ל-AutoML Translation, תוכלו לפעול לפי הדוגמה של Colab כדי לייצא אותם לצורך כוונון של TLLM.
![]() הפעלה ב-Colab |
![]() הפעלה ב-Colab Enterprise |
![]() הצגה ב-GitHub |
מערך נתונים מקומי
אם הנתונים שלכם שמורים באופן מקומי בפורמט TSV, CSV או TMX, אתם יכולים להעלות אותם ל-Colab כדי לכוונן מודלים גדולים של שפה (TLLM).
![]() הפעלה ב-Colab |
![]() הפעלה ב-Colab Enterprise |
![]() הצגה ב-GitHub |
המאמרים הבאים
- מריצים משימת כוונון מפוקח (SFT).


