Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הכנת נתוני אימון למודלים של LLM לתרגום

במאמר הזה מוסבר איך מגדירים מערך נתונים של כוונון מפוקח (SFT) עבור מודל LLM לתרגום. אפשר לשנות את ההגדרות של סוגי נתונים מסוג טקסט.

מידע על מערכי נתונים לכוונון מפוקח (SFT)

מערך נתונים של כוונון מפוקח (SFT) משמש לכוונון מודל שעבר אימון מוקדם כדי להתאים אותו לדומיין ספציפי. נתוני הקלט צריכים להיות דומים לנתונים שהמודל צפוי להיתקל בהם בשימוש בעולם האמיתי. תוויות הפלט צריכות לייצג את התשובות או התוצאות הנכונות לכל קלט.

מערך נתונים לאימון

כדי לשפר את המודל, צריך לספק מערך נתונים לאימון. כדי לקבל את התוצאות הטובות ביותר, מומלץ להתחיל עם 100 דוגמאות. אפשר להגדיל את מספר הדוגמאות לאלפים אם צריך. איכות מערך הנתונים חשובה הרבה יותר מהכמות.

מגבלות:

מספר הטוקנים המקסימלי של קלט ופלט לכל דוגמה: 1,000
הגודל המקסימלי של קובץ מערך הנתונים לאימון: עד 1GB ל-JSONL.

ערכת אימות

מומלץ מאוד לספק מערך נתונים לאימות. מערך נתוני אימות עוזר למדוד את האפקטיביות של משימת התאמה.

מגבלות:

מספר הטוקנים המקסימלי לקלט ולפלט לכל דוגמה: 1,000
מספר הדוגמאות המקסימלי במערך הנתונים של האימות: 1,024
גודל הקובץ המקסימלי של מערך נתוני האימות: עד 1GB ל-JSONL.

פורמט מערך הנתונים

קבוצת הנתונים לכוונון המודל צריכה להיות בפורמט JSON Lines ‏ (JSONL), שבו כל שורה מכילה דוגמה אחת לכוונון. לפני שמכווננים את המודל, צריך להעלות את מערך הנתונים לקטגוריה של Cloud Storage. חשוב להעלות את הסרטון ל-us-central1.

דוגמה למערך נתונים של `translation-llm-002`

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

תוכן עניינים

סוג הנתונים המובְנים הבסיסי שמכיל תוכן של הודעה שמורכב מכמה חלקים. המחלקות האלה מורכבות משני מאפיינים עיקריים: role ו-parts. המאפיין role מציין את האדם שיצר את התוכן, והמאפיין parts מכיל כמה רכיבים, שכל אחד מהם מייצג פלח נתונים בהודעה.

פרמטרים

פרמטרים
`role`	`string` (אופציונלי) הזהות של הישות שיצרה את ההודעה. יש תמיכה בערכים הבאים: ‫`user`: מציין שההודעה נשלחה על ידי אדם אמיתי, בדרך כלל הודעה שנוצרה על ידי משתמש. ‫`model`: מציין שההודעה נוצרה על ידי המודל.
`parts`	`part` רשימה של חלקים מסודרים שמרכיבים הודעה אחת. לגבי מגבלות על הקלט, כמו מספר הטוקנים המקסימלי או מספר התמונות, אפשר לעיין במפרט המודל בדף המודלים של Google. כדי לחשב את מספר הטוקנים בבקשה, אפשר לעיין במאמר בנושא קבלת מספר הטוקנים.

role

string (אופציונלי)

הזהות של הישות שיצרה את ההודעה. יש תמיכה בערכים הבאים:

‫user: מציין שההודעה נשלחה על ידי אדם אמיתי, בדרך כלל הודעה שנוצרה על ידי משתמש.
‫model: מציין שההודעה נוצרה על ידי המודל.

parts

part

רשימה של חלקים מסודרים שמרכיבים הודעה אחת.

לגבי מגבלות על הקלט, כמו מספר הטוקנים המקסימלי או מספר התמונות, אפשר לעיין במפרט המודל בדף המודלים של Google.

כדי לחשב את מספר הטוקנים בבקשה, אפשר לעיין במאמר בנושא קבלת מספר הטוקנים.

חלקים

סוג נתונים שמכיל מדיה שהיא חלק מהודעה Content מרובת חלקים.

פרמטרים

פרמטרים
`text`	`string` (אופציונלי) הנחיית טקסט או קטע קוד.

text

string (אופציונלי)

הנחיית טקסט או קטע קוד.

העלאת מערכי נתונים לשיפור הביצועים ל-Cloud Storage

כדי להריץ משימת שיפור, צריך להעלות קבוצת נתונים אחת או יותר לקטגוריה של Cloud Storage. אפשר ליצור קטגוריה חדשה של Cloud Storage או להשתמש בקטגוריה קיימת כדי לאחסן קובצי מערכי נתונים. האזור של מאגר הנתונים לא משנה, אבל מומלץ להשתמש במאגר שנמצא באותוGoogle Cloud פרויקט שבו אתם מתכננים לכוונן את המודל.

אחרי שהבאקט מוכן, מעלים את קובץ מערך הנתונים לבאקט.