מניעת התאמת יתר
בעיה נפוצה באימון מודל BigQuery ML היא התאמת יתר. התאמת יתר מתרחשת כשהמודל מתאים לנתוני האימון בצורה הדוקה מדי, ולכן הביצועים שלו לא טובים כשמזינים לו נתונים חדשים. BigQuery ML תומך בשתי שיטות למניעת התאמת יתר: עצירה מוקדמת ורגולריזציה.
כדי ללמוד איך לשנות את האפשרויות שמתוארות בהמשך, אפשר לעיין בהצהרה של CREATE MODEL.
עצירה מוקדמת
הפסקת אימון מוקדמת היא אפשרות ברירת המחדל למניעת התאמת יתר ב-BigQuery ML. כשההפסקה המוקדמת מופעלת, המערכת עוקבת אחרי ההפסד בנתוני ההחזקה במהלך האימון, והאימון נעצר ברגע שהשיפור בהפסד באיטרציה האחרונה יורד מתחת לסף מסוים. מכיוון שלא משתמשים בנתוני ההחזקה במהלך האימון, הם מהווים אומדן טוב של אובדן המודל בנתונים חדשים. האפשרויות early_stop, min_rel_progress, data_split_method ו-data_split_eval_fraction שולטות בהתנהגות של עצירה מוקדמת.
רגולריזציה
רגולריזציה מונעת ממשקלי המודל לגדול יותר מדי, וכך המודל לא מתאים את עצמו לנתוני האימון בצורה מדויקת מדי. BigQuery ML תומך בשתי שיטות לשליטה בגודל של משקלי המודל: רגולריזציה L1 ורגולריזציה L2.
כברירת מחדל, הערכים של l1_reg ו-l2_reg הם אפס, מה שמשבית את הרגולריזציה. במערכי נתונים מסוימים, הגדרת ערכים חיוביים ל-l1_reg ול-l2_reg תשפר את הביצועים של המודל שאומן על נתונים חדשים. בדרך כלל מוצאים את הערכים הכי טובים לפרמטרים של הרגולריזציה באמצעות ניסוי וטעייה, ומקובל להתנסות עם ערכים בכמה סדרי גודל (לדוגמה, 0.01, 0.1, 1, 10 ו-100).
הנה כמה עצות כלליות לשימוש ברגולריזציה:
אם אתם עורכים ניסויים בפרמטרים של הרגולריזציה, כדאי להשבית את העצירה המוקדמת כדי שההשפעה של הרגולריזציה תהיה ברורה.
אם מספר התכונות גדול בהשוואה לגודל של קבוצת נתונים לאימון, נסו להשתמש בערכים גדולים לפרמטרים של רגולריזציה (regularization). הסיכון להתאמת יתר גבוה יותר כשמספר התצפיות לכל תכונה נמוך.
אם אתם חוששים שהרבה מאפיינים לא רלוונטיים לחיזוי התווית, נסו להגדיר את
l1_regכגדול מ-l2_regולהיפך. יש הוכחות תיאורטיות לכך שרגולציה מסוג L1 פועלת טוב יותר כשהרבה תכונות לא רלוונטיות.
יתרון נוסף של רגולריזציה L1 הוא שהיא נוטה להגדיר משקלים רבים של מודלים בדיוק לאפס, מה שעוזר לזהות את התכונות הרלוונטיות ביותר ולאמן מודל קומפקטי.
המאמרים הבאים
- סקירה כללית על BigQuery ML זמינה במאמר מבוא ל-BigQuery ML.
- כדי להתחיל להשתמש ב-BigQuery ML, אפשר לעיין במאמר בנושא יצירת מודלים של למידת מכונה ב-BigQuery ML.
- מידע נוסף על עבודה עם מודלים זמין במאמרים הבאים: