הכנת נתוני אימון

בדף הזה מוסבר איך להכין נתונים טבלאיים לאימון מודלים של סיווג ורגרסיה ב-Vertex AI. איכות נתוני האימון משפיעה על רמת האפקטיביות של המודלים שאתם יוצרים.

כאן מוסבר על הנושאים הבאים:

  1. הדרישות לגבי מבנה הנתונים
  2. הכנת מקור הייבוא
  3. הוספת משקלים לנתוני האימון

כברירת מחדל, מערכת Vertex AI משתמשת באלגוריתם של פיצול אקראי כדי להפריד את הנתונים לשלושה פיצולים. מערכת Vertex AI בוחרת באופן אקראי 80% משורות הנתונים שלכם לקבוצת נתונים לאימון, 10% לקבוצת נתונים לתיקוף ו-10% לקבוצת נתונים לבדיקה. לחלופין, אפשר להשתמש בפיצול ידני או בפיצול לפי סדר כרונולוגי, אבל בשביל זה צריך להכין עמודה של פיצול נתונים או עמודה של זמן. מידע נוסף על פיצול נתונים

הדרישות בנוגע למבנה הנתונים

נתוני האימון צריכים לעמוד בדרישות הבסיסיות הבאות:

סוג הדרישה דרישה
גודל גודל מערך הנתונים צריך להיות עד 100GB.
מספר העמודות מערך הנתונים צריך לכלול לפחות 2 עמודות ולא יותר מ-1,000 עמודות. מערך הנתונים חייב להכיל יעד ותכונה אחת לפחות לאימון המודל. מומלץ שנתוני האימון יכללו הרבה יותר משתי עמודות. מספר העמודות המקסימלי כולל גם עמודות של תכונות וגם עמודות שלא קשורות לתכונות.
עמודת היעד חובה לציין עמודת יעד. עמודת היעד מאפשרת ל-Vertex AI לשייך את נתוני האימון לתוצאה הרצויה. העמודה לא יכולה להכיל ערכי null, והיא חייבת להיות מסוג Categorical (קטגוריאלי) או Numerical (מספרי). אם הוא קטגורי, הוא צריך לכלול לפחות 2 ערכים שונים ולא יותר מ-500 ערכים שונים.
פורמט שם העמודה שם העמודה יכול לכלול כל תו אלפאנומרי או קו תחתון (_). שם העמודה לא יכול להתחיל בקו תחתון.
מספר השורות מערך הנתונים צריך לכלול לפחות 1,000 שורות ולא יותר מ-100,000,000 שורות. יכול להיות ש-1, 000 שורות לא יספיקו לאימון מודל עם ביצועים גבוהים,בהתאם למספר התכונות בסט הנתונים. מידע נוסף
פורמט נתונים צריך להשתמש בפורמט הנתונים המתאים (רחב או צר) ליעד שלכם. בדרך כלל, הפורמט הרחב הוא הכי טוב, כשכל שורה מייצגת פריט אחד של נתוני אימון (מוצר, אדם וכו'). איך בוחרים את פורמט הנתונים

הכנת מקור הייבוא

אפשר לספק ל-Vertex AI נתוני אימון של מודלים בשני פורמטים:

  • טבלאות ב-BigQuery
  • ערכים מופרדים בפסיקים (‎CSV)

השימוש במקור מסוים תלוי באופן האחסון של הנתונים, בגודל ובמורכבות שלהם. אם מערך הנתונים קטן ולא צריך סוגי נתונים מורכבים יותר, יכול להיות שיהיה לכם קל יותר להשתמש ב-CSV. למערכי נתונים גדולים יותר שכוללים מערכים ומבנים, כדאי להשתמש ב-BigQuery.

BigQuery

הטבלה או התצוגה המפורטת ב-BigQuery צריכות לעמוד בדרישות המיקום של BigQuery.

אם הטבלה או התצוגה ב-BigQuery נמצאות בפרויקט אחר מהפרויקט שבו אתם יוצרים את מערך הנתונים של Vertex AI, או אם הטבלה או התצוגה ב-BigQuery מגובות על ידי מקור נתונים חיצוני, צריך להוסיף תפקיד אחד או יותר לסוכן השירות של Vertex AI. דרישות להוספת תפקידים ב-BigQuery

אין צורך להגדיר סכימה לטבלת BigQuery. מערכת Vertex AI מסיקה באופן אוטומטי את הסכימה של הטבלה כשמייבאים את הנתונים.

ה-URI של BigQuery (שמציין את המיקום של נתוני האימון) צריך להיות בפורמט הבא:

bq://<project_id>.<dataset_id>.<table_id>

ה-URI לא יכול להכיל תווים מיוחדים אחרים.

מידע על סוגי נתונים ב-BigQuery ואיך הם ממופים ל-Vertex AI זמין במאמר טבלאות BigQuery. מידע נוסף על שימוש במקורות נתונים חיצוניים ב-BigQuery זמין במאמר מבוא למקורות נתונים חיצוניים.

CSV

קובצי ה-CSV יכולים להיות ב-Cloud Storage או במחשב המקומי. הם חייבים לעמוד בדרישות הבאות:

  • השורה הראשונה בקובץ הראשון חייבת להיות כותרת, עם שמות העמודות. אם השורה הראשונה בקובץ הבא זהה לכותרת, השורה הזו מטופלת גם ככותרת. אחרת, השורה מטופלת כנתונים.
  • שמות העמודות יכולים לכלול כל תו אלפאנומרי או קו תחתון (_). שם העמודה לא יכול להתחיל בקו תחתון.
  • כל קובץ לא יכול להיות גדול מ-10GB.

    אפשר לצרף כמה קבצים, עד לגודל מקסימלי של 100GB.

  • התו המפריד חייב להיות פסיק (',').

לא צריך לציין סכימה לנתוני ה-CSV. מערכת Vertex AI מסיקה באופן אוטומטי את הסכימה של הטבלה כשמייבאים את הנתונים, ומשתמשת בשורת הכותרת לשמות העמודות.

מידע נוסף על פורמט קובץ CSV וסוגי נתונים זמין במאמר בנושא קובצי CSV.

אם מייבאים את הנתונים מ-Cloud Storage, הם צריכים להיות בקטגוריה שעומדת בדרישות הבאות:

אם מייבאים את הנתונים מהמחשב המקומי, צריך קטגוריה של Cloud Storage שעומדת בדרישות הבאות:

הוספת משקלים לנתוני האימון

כברירת מחדל, מערכת Vertex AI נותנת משקל שווה לכל שורה בנתוני האימון. לצורך אימון, אף שורה לא נחשבת חשובה יותר משורה אחרת.

לפעמים רוצים שחלק מהשורות יהיו חשובות יותר לאימון. לדוגמה, אם אתם משתמשים בנתוני הוצאות, יכול להיות שתרצו שהנתונים שמשויכים למשתמשים עם הוצאות גבוהות יותר ישפיעו יותר על המודל. אם רוצים לוודא שלא מפספסים תוצאה ספציפית, צריך לתת משקל גבוה יותר לשורות עם התוצאה הזו.

כדי לתת לשורות משקל יחסי, מוסיפים עמודת משקל למערך הנתונים. העמודה של המשקל חייבת להיות עמודה מספרית. ערך המשקל יכול להיות 0 עד 10,000. ערכים גבוהים יותר מציינים שהשורה חשובה יותר לאימון המודל. משקל של 0 גורם להתעלמות מהשורה. אם כוללים עמודת משקל, היא חייבת להכיל ערך בכל שורה.

בהמשך, כשמאמנים את המודל, מציינים את העמודה הזו כWeight.

סכימות שקלול מותאמות אישית משמשות רק לאימון המודל; הן לא משפיעות על קבוצת נתונים לבדיקה שמשמשת להערכת המודל.

המאמרים הבאים