הכנת נתוני אימון

בדף הזה מוסבר איך להכין נתונים טבלאיים לאימון מודלים של תחזיות.

בדף הזה מפורטים הנושאים הבאים:

  1. הדרישות לגבי מבנה הנתונים
  2. הכנת מקור הייבוא
  3. הוספת משקלים לנתוני האימון

כברירת מחדל, Agent Platform משתמשת באלגוריתם של פיצול כרונולוגי כדי להפריד את נתוני התחזיות לשלושה פיצולים של נתונים. אפשרות אחרת היא להשתמש בפיצול ידני, אבל בשביל זה צריך להכין עמודה לפיצול הנתונים. מידע נוסף על פיצול נתונים

הדרישות בנוגע למבנה הנתונים

כדי לאמן מודלים לחיזוי, נתוני האימון צריכים לעמוד בדרישות הבסיסיות הבאות:

סוג הדרישה דרישה
גודל גודל מערך הנתונים צריך להיות עד 100GB.
מספר העמודות קבוצת הנתונים צריכה לכלול לפחות 3 עמודות ולא יותר מ-100 עמודות. לכל אחת מהתצפיות בקבוצת הנתונים צריכים להיות ערכי יעד וזמן, שמשמשים כמאפיינים. בנוסף, לכל תצפית צריך להיות מזהה של סדרת הזמן, שמציין לאיזו סדרת זמן התצפית שייכת. מומלץ שנתוני האימון יכללו הרבה יותר מ-3 עמודות. המספר המקסימלי של העמודות כולל גם עמודות של מאפיינים וגם עמודות שלא מכילות מאפיינים.
עמודת היעד מציינים עמודת יעד. עמודת היעד מאפשרת ל-Gemini Enterprise Agent Platform לשייך את נתוני האימון לתוצאה הרצויה. הוא לא יכול להכיל ערכי null והוא חייב להיות מספרי.
עמודה עם נתוני זמן חובה לציין עמודת זמן, ולכל שורה בעמודה הזו צריך להיות ערך. בעמודה 'זמן' מצוין הזמן שבו בוצעה תצפית מסוימת.
עמודת מזהה של נתונים של פעולות על ציר הזמן צריך לציין עמודה של מזהה סדרת זמן, ולכל שורה בעמודה הזו צריך להיות ערך. נתוני אימון לחיזוי בדרך כלל כוללים כמה סדרות זמן, והמזהה מציין ל-Agent Platform לאיזו סדרת זמן שייך תצפית נתונה בנתוני האימון. לכל השורות בסדרת זמן נתונה יש את אותו ערך בעמודה של מזהה סדרת הזמן. כמה מזהים נפוצים של סדרות זמן הם מזהה המוצר, מזהה החנות או אזור. אפשר לאמן מודל חיזוי על סדרת זמן אחת, עם ערך זהה לכל השורות בעמודה של מזהה סדרת הזמן. עם זאת, Agent Platform מתאימה יותר לנתוני אימון שמכילים שתי סדרות זמן או יותר. כדי לקבל את התוצאות הטובות ביותר, מומלץ להשתמש ב-10 סדרות זמן לפחות לכל עמודה שבה משתמשים לאימון המודל.
פורמט שם העמודה שם העמודה יכול לכלול כל תו אלפאנומרי או קו תחתון (_). שם העמודה לא יכול להתחיל בקו תחתון.
מספר השורות מערך הנתונים צריך לכלול לפחות 1,000 שורות ולא יותר מ-100,000,000 שורות. אם יש יותר מ-100,000,000 שורות, כדאי לשקול דגימה. מידע נוסף זמין במאמר בנושא אסטרטגיות של חלון נע. יכול להיות ש-1, 000 שורות לא יספיקו לאימון מודל עם ביצועים גבוהים,בהתאם למספר התכונות בסט הנתונים. מידע נוסף
פורמט נתונים משתמשים בפורמט נתונים צר (לפעמים נקרא גם פורמט ארוך). בפורמט צר, כל שורה מייצגת את הפריט שצוין על ידי מזהה סדרת הזמן לנקודת זמן ספציפית, יחד עם כל הנתונים של הפריט הזה בנקודת הזמן הזו. כך בוחרים את פורמט הנתונים.
מרווח בין השורות המרווח בין שורות האימון צריך להיות עקבי. זהו גרעיניות הנתונים שלכם, והיא משפיעה על אופן האימון של המודל ועל התדירות של תוצאות ההסקה. איך בוחרים את רמת הפירוט של הנתונים
משך הזמן של פעולות על ציר הזמן אורך סדרת הזמן לא יכול לחרוג מ-3,000 שלבים.

הכנת מקור הייבוא

אתם יכולים לספק נתונים לאימון מודלים ל-Gemini Enterprise Agent Platform בשני פורמטים:

  • טבלאות ב-BigQuery
  • ערכים מופרדים בפסיקים (‎CSV)

המקור שבו תשתמשו תלוי באופן שבו אתם מאחסנים את הנתונים, בגודל ובמורכבות של הנתונים. אם מערך הנתונים קטן ולא צריך סוגי נתונים מורכבים יותר, יכול להיות שיהיה לכם קל יותר להשתמש ב-CSV. אם מערך הנתונים גדול וכולל מערכים ומבנים, כדאי להשתמש ב-BigQuery.

BigQuery

הטבלה או התצוגה המפורטת ב-BigQuery צריכות לעמוד בדרישות המיקום של BigQuery.

אם הטבלה ב-BigQuery או התצוגה נמצאות בפרויקט אחר מהפרויקט שבו אתם יוצרים את קבוצת הנתונים של Agent Platform, או אם הטבלה ב-BigQuery או התצוגה מגובות על ידי מקור נתונים חיצוני, צריך להוסיף תפקיד אחד או יותר לסוכן השירות של Agent Platform. דרישות להוספת תפקידים ב-BigQuery

לא צריך להגדיר סכימה לטבלה ב-BigQuery. פלטפורמת Agent מסיקה אוטומטית את הסכימה של הטבלה כשמייבאים את הנתונים.

ה-URI של BigQuery (שמציין את המיקום של נתוני האימון) צריך להיות בפורמט הבא:

bq://<project_id>.<dataset_id>.<table_id>

ה-URI לא יכול להכיל תווים מיוחדים אחרים.

מידע על סוגי הנתונים ב-BigQuery ועל המיפוי שלהם ל-Agent Platform זמין במאמר טבלאות BigQuery. מידע נוסף על שימוש במקורות נתונים חיצוניים ב-BigQuery זמין במאמר מבוא למקורות נתונים חיצוניים.

CSV

קובצי ה-CSV יכולים להיות ב-Cloud Storage או במחשב המקומי. הם חייבים לעמוד בדרישות הבאות:

  • השורה הראשונה בקובץ הראשון צריכה להיות כותרת, שמכילה את שמות העמודות. אם השורה הראשונה בקובץ הבא זהה לכותרת, היא גם נחשבת ככותרת. אחרת, היא נחשבת כנתונים.
  • שמות של עמודות יכולים לכלול כל תו אלפאנומרי או קו תחתון (_). שם העמודה לא יכול להתחיל בקו תחתון.
  • כל קובץ לא יכול להיות גדול מ-10GB.

    אפשר לכלול כמה קבצים, עד כמות מקסימלית של 100GB.

  • התו המפריד חייב להיות פסיק (',').

לא צריך לציין סכימה לנתוני ה-CSV. Agent Platform מסיקה באופן אוטומטי את הסכימה של הטבלה כשמייבאים את הנתונים, ומשתמשת בשורת הכותרת לשמות העמודות.

מידע נוסף על פורמט של קובץ CSV ועל סוגי נתונים זמין במאמר בנושא קובצי CSV.

אם מייבאים את הנתונים מ-Cloud Storage, הם צריכים להיות בקטגוריה שעומדת בדרישות הבאות:

אם מייבאים את הנתונים מהמחשב המקומי, צריך קטגוריה של Cloud Storage שעומדת בדרישות הבאות:

הוספת משקלים לנתוני האימון

כברירת מחדל, Agent Platform נותנת משקל שווה לכל שורה בנתוני האימון. למטרות אימון, אף שורה לא נחשבת חשובה יותר משורה אחרת.

לפעמים, יכול להיות שתרצו שחלק מהשורות יהיו חשובות יותר לאימון. לדוגמה, אם אתם משתמשים בנתוני הוצאות, יכול להיות שתרצו שהנתונים שמשויכים למשתמשים עם הוצאות גבוהות יותר ישפיעו יותר על המודל. אם חשוב לכם במיוחד להימנע מפספוס של תוצאה ספציפית, כדאי להקצות משקל גבוה יותר לשורות עם התוצאה הזו.

מוסיפים עמודת משקל לקבוצת הנתונים כדי לתת לשורות משקל יחסי. העמודה weight חייבת להיות עמודה מספרית. ערך המשקל יכול להיות 0 עד 10,000. ערכים גבוהים יותר מציינים שהשורה חשובה יותר לאימון המודל. משקל של 0 גורם להתעלמות מהשורה. אם כוללים עמודת משקל, היא חייבת להכיל ערך בכל שורה.

בהמשך, כשמאמנים את המודל, מציינים את העמודה הזו כעמודה Weight.

ערכות שקלול מותאמות אישית משמשות רק לאימון המודל, והן לא משפיעות על קבוצת נתונים לבדיקה שמשמשת להערכת המודל.

המאמרים הבאים