הכנת נתוני אימון

בדף הזה מוסבר איך להכין נתונים טבלאיים לאימון מודלים של תחזיות.

בדף הזה מפורטים הנושאים הבאים:

  1. הדרישות לגבי מבנה הנתונים
  2. הכנת מקור הייבוא
  3. הוספת משקלים לנתוני האימון

כברירת מחדל, מערכת Vertex AI משתמשת באלגוריתם של פיצול כרונולוגי כדי להפריד את נתוני התחזית לשלושה פיצולים של נתונים. אפשרות אחרת היא להשתמש בפיצול ידני, אבל בשביל זה צריך להכין עמודה לפיצול הנתונים. מידע נוסף על פיצול נתונים

הדרישות בנוגע למבנה הנתונים

כדי לאמן מודלים לחיזוי, נתוני האימון צריכים לעמוד בדרישות הבסיסיות הבאות:

סוג הדרישה דרישה
גודל גודל מערך הנתונים צריך להיות עד 100GB.
מספר העמודות במערך הנתונים צריכות להיות לפחות 3 עמודות ולכל היותר 100 עמודות. לכל תצפית במערך הנתונים צריכים להיות יעד וזמן, שניהם משמשים כמאפיינים. בנוסף, לכל תצפית צריך להיות מזהה של סדרת הזמנים, שמציין את סדרת הזמנים שהתצפית היא חלק ממנה. מומלץ שנתוני האימון יכללו הרבה יותר מ-3 עמודות. מספר העמודות המקסימלי כולל גם עמודות של תכונות וגם עמודות שלא קשורות לתכונות.
עמודת היעד מציינים עמודת יעד. עמודת היעד מאפשרת ל-Vertex AI לשייך את נתוני האימון לתוצאה הרצויה. הוא לא יכול להכיל ערכי null והוא חייב להיות מספרי.
עמודה עם נתוני זמן חובה לציין עמודת זמן, ולכל שורה צריך להיות ערך בעמודה הזו. בעמודת הזמן מצוין הזמן שבו בוצעה תצפית מסוימת.
עמודת מזהה של נתונים מסוג Time series חובה לציין עמודה של מזהה סדרת זמן, ולכל שורה צריך להיות ערך בעמודה הזו. נתוני האימון של התחזית כוללים בדרך כלל כמה סדרות זמן, והמזהה מציין ל-Vertex AI לאיזו סדרת זמן שייכת תצפית מסוימת בנתוני האימון. לכל השורות בסדרת זמן נתונה יש את אותו ערך בעמודה של מזהה סדרת הזמן. חלק מהמזהים הנפוצים של סדרות זמן הם מזהה המוצר, מזהה החנות או האזור. אפשר לאמן מודל חיזוי על סדרת זמן אחת, עם ערך זהה לכל השורות בעמודת המזהה של סדרת הזמן. עם זאת, Vertex AI מתאים יותר לנתוני אימון שמכילים שתי סדרות זמן או יותר. כדי לקבל את התוצאות הטובות ביותר, מומלץ להשתמש לפחות ב-10 סדרות זמן לכל עמודה שבה משתמשים כדי לאמן את המודל.
פורמט שם העמודה שם העמודה יכול לכלול כל תו אלפאנומרי או קו תחתון (_). שם העמודה לא יכול להתחיל בקו תחתון.
מספר השורות מערך הנתונים צריך לכלול לפחות 1,000 שורות ולא יותר מ-100,000,000 שורות. אם יש יותר מ-100,000,000 שורות, כדאי לשקול דגימה. מידע נוסף זמין במאמר בנושא אסטרטגיות של חלון נע. יכול להיות ש-1, 000 שורות לא יספיקו לאימון מודל עם ביצועים גבוהים,בהתאם למספר התכונות בסט הנתונים. מידע נוסף
פורמט נתונים משתמשים בפורמט נתונים צר (לפעמים נקרא ארוך). בפורמט צר, כל שורה מייצגת את הפריט שצוין על ידי מזהה סדרת הזמנים בנקודת זמן ספציפית, יחד עם כל הנתונים של הפריט הזה בנקודת הזמן הזו. איך בוחרים את פורמט הנתונים
מרווח בין השורות המרווח בין שורות האימון צריך להיות עקבי. זהו גרעין הנתונים שלכם, והוא משפיע על אופן האימון של המודל ועל התדירות של תוצאות ההסקה. איך בוחרים את רמת הפירוט של הנתונים
משך הזמן של הפעולות על ציר הזמן האורך של סדרת זמן לא יכול לחרוג מ-3,000 שלבים.

הכנת מקור הייבוא

אפשר לספק ל-Vertex AI נתוני אימון של מודלים בשני פורמטים:

  • טבלאות ב-BigQuery
  • ערכים מופרדים בפסיקים (‎CSV)

המקור שבו אתם משתמשים תלוי באופן שבו אתם מאחסנים את הנתונים, בגודל ובמורכבות שלהם. אם מערך הנתונים קטן ולא צריך סוגי נתונים מורכבים יותר, יכול להיות שיהיה לכם קל יותר להשתמש ב-CSV. למערכי נתונים גדולים יותר שכוללים מערכים ומבנים, כדאי להשתמש ב-BigQuery.

BigQuery

הטבלה או התצוגה המפורטת ב-BigQuery צריכות לעמוד בדרישות המיקום של BigQuery.

אם הטבלה או התצוגה ב-BigQuery נמצאות בפרויקט אחר מהפרויקט שבו אתם יוצרים את מערך הנתונים ב-Vertex AI, או אם הטבלה או התצוגה ב-BigQuery מגובות על ידי מקור נתונים חיצוני, צריך להוסיף תפקיד אחד או יותר לסוכן השירות של Vertex AI. דרישות להוספת תפקידים ב-BigQuery

אין צורך לציין סכימה לטבלה ב-BigQuery. מערכת Vertex AI מסיקה באופן אוטומטי את הסכימה של הטבלה כשמייבאים את הנתונים.

ה-URI של BigQuery (שמציין את המיקום של נתוני האימון) צריך להיות בפורמט הבא:

bq://<project_id>.<dataset_id>.<table_id>

ה-URI לא יכול להכיל תווים מיוחדים אחרים.

מידע על סוגי נתונים ב-BigQuery ואיך הם ממופים ל-Vertex AI זמין במאמר טבלאות BigQuery. מידע נוסף על שימוש במקורות נתונים חיצוניים ב-BigQuery זמין במאמר מבוא למקורות נתונים חיצוניים.

CSV

קובצי ה-CSV יכולים להיות ב-Cloud Storage או במחשב המקומי. הם חייבים לעמוד בדרישות הבאות:

  • השורה הראשונה בקובץ הראשון חייבת להיות כותרת, עם שמות העמודות. אם השורה הראשונה בקובץ הבא זהה לכותרת, המערכת מתייחסת אליה גם כאל כותרת. אחרת, היא מתייחסת אליה כאל נתונים.
  • שמות העמודות יכולים לכלול כל תו אלפאנומרי או קו תחתון (_). שם העמודה לא יכול להתחיל בקו תחתון.
  • כל קובץ לא יכול להיות גדול מ-10GB.

    אפשר לצרף כמה קבצים, עד לגודל מקסימלי של 100GB.

  • התו המפריד חייב להיות פסיק (',').

לא צריך לציין סכימה לנתוני ה-CSV. מערכת Vertex AI מסיקה באופן אוטומטי את הסכימה של הטבלה כשמייבאים את הנתונים, ומשתמשת בשורת הכותרת לשמות העמודות.

מידע נוסף על פורמט קובץ CSV וסוגי נתונים זמין במאמר בנושא קובצי CSV.

אם מייבאים את הנתונים מ-Cloud Storage, הם צריכים להיות בקטגוריה שעומדת בדרישות הבאות:

אם מייבאים את הנתונים מהמחשב המקומי, צריך קטגוריה של Cloud Storage שעומדת בדרישות הבאות:

הוספת משקלים לנתוני האימון

כברירת מחדל, מערכת Vertex AI נותנת משקל שווה לכל שורה בנתוני האימון. לצורך אימון, אף שורה לא נחשבת חשובה יותר משורה אחרת.

לפעמים רוצים שחלק מהשורות יהיו חשובות יותר לאימון. לדוגמה, אם אתם משתמשים בנתוני הוצאות, יכול להיות שתרצו שהנתונים שמשויכים למשתמשים עם הוצאות גבוהות יותר ישפיעו יותר על המודל. אם חשוב לכם במיוחד להימנע מפספוס של תוצאה ספציפית, כדאי להגדיל את המשקל של השורות עם התוצאה הזו.

מוסיפים עמודת משקל למערך הנתונים כדי לתת לשורות משקל יחסי. העמודה של המשקל חייבת להיות עמודה מספרית. ערך המשקל יכול להיות 0 עד 10,000. ערכים גבוהים יותר מציינים שהשורה חשובה יותר לאימון המודל. משקל של 0 גורם להתעלמות מהשורה. אם כוללים עמודת משקל, היא חייבת להכיל ערך בכל שורה.

בהמשך, כשמאמנים את המודל, מציינים את העמודה הזו כWeight.

סכימות שקלול מותאמות אישית משמשות רק לאימון המודל; הן לא משפיעות על קבוצת נתונים לבדיקה שמשמשת להערכת המודל.

המאמרים הבאים