הכנת נתוני אימון

בדף הזה מוסבר איך להכין נתונים טבלאיים לאימון מודלים של סיווג ורגרסיה ב-Gemini Enterprise Agent Platform. איכות נתוני האימון משפיעה על רמת האפקטיביות של המודלים שאתם יוצרים.

כאן מוסבר על הנושאים הבאים:

  1. הדרישות לגבי מבנה הנתונים
  2. הכנת מקור הייבוא
  3. הוספת משקלים לנתוני האימון

כברירת מחדל, Agent Platform משתמשת באלגוריתם של פיצול אקראי כדי להפריד את הנתונים לשלושה פיצולים. Agent Platform בוחרת באופן אקראי 80% משורות הנתונים שלכם לקבוצת נתונים לאימון, 10% לקבוצת נתונים לתיקוף ו-10% לקבוצת נתונים לבדיקה. אפשר גם להשתמש בפיצול ידני או בפיצול לפי סדר כרונולוגי, אבל בשביל זה צריך להכין עמודה לפיצול נתונים או עמודת זמן. מידע נוסף על פיצול נתונים

הדרישות בנוגע למבנה הנתונים

נתוני האימון צריכים לעמוד בדרישות הבסיסיות הבאות:

סוג הדרישה דרישה
גודל גודל מערך הנתונים צריך להיות עד 100GB.
מספר העמודות קבוצת הנתונים צריכה לכלול לפחות 2 עמודות ולא יותר מ-1,000 עמודות. קבוצת הנתונים צריכה לכלול עמודת יעד ולפחות עמודה אחת של מאפיין לאימון המודל. מומלץ שנתוני האימון יכללו הרבה יותר משתי עמודות. המספר המקסימלי של העמודות כולל גם עמודות של מאפיינים וגם עמודות שלא של מאפיינים.
עמודת היעד צריך לציין עמודת יעד. עמודת היעד מאפשרת ל-Gemini Enterprise Agent Platform לשייך את נתוני האימון לתוצאה הרצויה. היא לא יכולה להכיל ערכי null, והיא צריכה להיות מסוג Categorical (קטגוריאלי) או Numerical (מספרי). אם היא מסוג Categorical, היא צריכה להכיל לפחות 2 ערכים שונים ולא יותר מ-500 ערכים שונים.
פורמט שם העמודה שם העמודה יכול לכלול כל תו אלפאנומרי או קו תחתון (_). שם העמודה לא יכול להתחיל בקו תחתון.
מספר השורות מערך הנתונים צריך לכלול לפחות 1,000 שורות ולא יותר מ-100,000,000 שורות. יכול להיות ש-1, 000 שורות לא יספיקו לאימון מודל עם ביצועים גבוהים,בהתאם למספר התכונות בסט הנתונים. מידע נוסף
פורמט נתונים צריך להשתמש בפורמט הנתונים המתאים (רחב או צר) ליעד. בדרך כלל, הפורמט הרחב הוא הכי טוב, כשכל שורה מייצגת פריט אחד של נתוני אימון (מוצר, אדם וכו'). איך בוחרים את פורמט הנתונים

הכנת מקור הייבוא

אתם יכולים לספק נתונים לאימון מודלים ל-Gemini Enterprise Agent Platform בשני פורמטים:

  • טבלאות ב-BigQuery
  • ערכים מופרדים בפסיקים (‎CSV)

המקור שבו תשתמשו תלוי באופן שבו הנתונים מאוחסנים, בגודל ובמורכבות שלהם. אם מערך הנתונים קטן ולא צריך סוגי נתונים מורכבים יותר, יכול להיות שיהיה לכם קל יותר להשתמש ב-CSV. למערכי נתונים גדולים יותר שכוללים מערכים ומבנים, כדאי להשתמש ב-BigQuery.

BigQuery

הטבלה או התצוגה המפורטת ב-BigQuery צריכות לעמוד בדרישות המיקום של BigQuery.

אם הטבלה ב-BigQuery או התצוגה נמצאות בפרויקט אחר מהפרויקט שבו אתם יוצרים את מערך הנתונים של Agent Platform, או אם הטבלה ב-BigQuery או התצוגה מגובות על ידי מקור נתונים חיצוני, צריך להוסיף תפקיד אחד או יותר לסוכן השירות של Agent Platform. מידע נוסף זמין במאמר בנושא דרישות להוספת תפקידים ב-BigQuery.

לא צריך להגדיר סכימה לטבלה ב-BigQuery. Agent Platform מסיקה אוטומטית את הסכימה של הטבלה כשמייבאים את הנתונים.

ה-URI של BigQuery (שמציין את המיקום של נתוני האימון) צריך להיות בפורמט הבא:

bq://<project_id>.<dataset_id>.<table_id>

ה-URI לא יכול להכיל תווים מיוחדים אחרים.

מידע על סוגי הנתונים ב-BigQuery ועל המיפוי שלהם ל-Agent Platform זמין במאמר טבלאות BigQuery. מידע נוסף על שימוש במקורות נתונים חיצוניים ב-BigQuery זמין במאמר מבוא למקורות נתונים חיצוניים.

CSV

קובצי ה-CSV יכולים להיות ב-Cloud Storage או במחשב המקומי. הם חייבים לעמוד בדרישות הבאות:

  • השורה הראשונה בקובץ הראשון חייבת להיות כותרת, שמכילה את שמות העמודות. אם השורה הראשונה בקובץ הבא זהה לכותרת, המערכת מתייחסת לשורה הזו גם ככותרת. אחרת, המערכת מתייחסת לשורה הזו כנתונים.
  • שמות של עמודות יכולים לכלול כל תו אלפאנומרי או קו תחתון (_). שם העמודה לא יכול להתחיל בקו תחתון.
  • כל קובץ לא יכול להיות גדול מ-10GB.

    אפשר לכלול כמה קבצים, עד כמות מקסימלית של 100GB.

  • התו המפריד חייב להיות פסיק (',').

לא צריך לציין סכימה לנתוני ה-CSV. Agent Platform מסיקה באופן אוטומטי את הסכימה של הטבלה כשמייבאים את הנתונים, ומשתמשת בשורת הכותרת לשמות העמודות.

מידע נוסף על פורמט של קובץ CSV ועל סוגי נתונים זמין במאמר בנושא קובצי CSV.

אם מייבאים את הנתונים מ-Cloud Storage, הם צריכים להיות בקטגוריה שעומדת בדרישות הבאות:

אם מייבאים את הנתונים מהמחשב המקומי, צריך קטגוריה של Cloud Storage שעומדת בדרישות הבאות:

הוספת משקלים לנתוני האימון

כברירת מחדל, Agent Platform נותנת משקל שווה לכל שורה בנתוני האימון. למטרות אימון, אף שורה לא נחשבת חשובה יותר משורה אחרת.

לפעמים, יכול להיות שתרצו שחלק מהשורות יהיו חשובות יותר לאימון. לדוגמה, אם אתם משתמשים בנתוני הוצאות, יכול להיות שתרצו שהנתונים שמשויכים למשתמשים עם הוצאות גבוהות יותר ישפיעו יותר על המודל. אם רוצים לוודא שלא מפספסים תוצאה ספציפית, צריך לתת משקל גבוה יותר לשורות עם התוצאה הזו.

כדי לתת לשורות משקל יחסי, מוסיפים עמודת משקל למערך הנתונים. העמודה weight חייבת להיות עמודה מספרית. ערך המשקל יכול להיות 0 עד 10,000. ערכים גבוהים יותר מציינים שהשורה חשובה יותר לאימון המודל. משקל של 0 גורם להתעלמות מהשורה. אם כוללים עמודת משקל, היא חייבת להכיל ערך בכל שורה.

בהמשך, כשמאמנים את המודל, מציינים את העמודה הזו כעמודה Weight.

ערכות שקלול מותאמות אישית משמשות רק לאימון המודל, והן לא משפיעות על קבוצת נתונים לבדיקה שמשמשת להערכת המודל.

המאמרים הבאים