שיוך מאפיינים לסיווג ולרגרסיה

מבוא

בדף הזה מופיעה סקירה כללית קצרה של שיטות שיוך התכונות שזמינות ב-Vertex AI.

המדד 'חשיבות התכונה הגלובלית' (שיוכים של תכונות המודל) מראה איך כל תכונה משפיעה על המודל. הערכים הם אחוזים לכל תכונה: ככל שהאחוז גבוה יותר, כך ההשפעה של התכונה על אימון המודל גדולה יותר. כדי לראות את חשיבות התכונות הגלובלית של המודל, בודקים את מדדי ההערכה.

שיוכי התכונות המקומיות למודלים של סדרות זמן מציינים את מידת התרומה של כל תכונה בנתונים לתוצאה החזויה. המידע הזה יעזור לכם לוודא שהמודל מתנהג כמו שציפיתם, לזהות הטיה במודלים ולקבל רעיונות לשיפור המודל ונתוני האימון. כשמבקשים מסקנות, מקבלים ערכים חזויים בהתאם למודל. כשמבקשים הסברים, מקבלים את ההסקות יחד עם מידע על שיוך התכונות.

דוגמה: רשת עצבית עמוקה מאומנת כדי לחזות את משך הנסיעה באופניים, על סמך נתוני מזג אוויר ונתונים קודמים של שיתוף נסיעות. אם תבקשו רק מסקנות מהמודל הזה, תקבלו את משך הנסיעות הצפוי באופניים במספר דקות. אם תבקשו הסברים, תקבלו את משך הנסיעה הצפוי באופניים, יחד עם ציון שיוך לכל תכונה בבקשת ההסברים. ציוני השיוך מראים עד כמה התכונה השפיעה על השינוי בערך ההסקה, ביחס לערך הבסיס שציינתם. בוחרים בסיס משמעותי שמתאים למודל – במקרה הזה, משך הנסיעה הממוצע באופניים.

אפשר לשרטט את ציוני השיוך של התכונות כדי לראות אילו תכונות תרמו הכי הרבה למסקנה שהתקבלה:

תרשים שיוך תכונות למשך נסיעה חזוי באופניים

אפשר ליצור ולשאול שאילתות לגבי שיוך תכונות מקומיות כשמבצעים עבודת הסקת מסקנות אונליין או עבודת הסקת מסקנות באצווה.

יתרונות

אם בודקים מקרים ספציפיים וגם צוברים את השיוכים של התכונות במערך נתוני האימון, אפשר לקבל תובנות מעמיקות יותר לגבי אופן הפעולה של המודל. כדאי להביא בחשבון את היתרונות הבאים:

ניפוי באגים במודלים: שיוכי תכונות יכולים לעזור לזהות בעיות בנתונים שבדרך כלל לא מזוהות בטכניקות סטנדרטיות להערכת מודלים.
אופטימיזציה של מודלים: אתם יכולים לזהות ולהסיר תכונות שהן פחות חשובות, וכך ליצור מודלים יעילים יותר.

מגבלות קונספטואליות

חשוב להביא בחשבון את המגבלות הבאות של שיוך תכונות:

שיוך תכונות, כולל חשיבות תכונות מקומיות ל-AutoML, הוא ספציפי להסקות אינדיבידואליות. בדיקת השיוכים של התכונות למסקנה ספציפית עשויה לספק תובנה טובה, אבל יכול להיות שהתובנה לא תהיה כללית מספיק כדי להסיק ממנה לגבי כל הכיתה עבור המופע הספציפי הזה, או לגבי המודל כולו.

כדי לקבל תובנות כלליות יותר לגבי מודלים של AutoML, כדאי לעיין בחשיבות התכונות של המודל. כדי לקבל תובנות כלליות יותר לגבי מודלים אחרים, אפשר לצבור שיוכים על קבוצות משנה של מערך הנתונים או על מערך הנתונים כולו.
כל שיוך מראה רק את מידת ההשפעה של התכונה על ההסקה בדוגמה הספציפית הזו. שיוך יחיד לא משקף את ההתנהגות הכוללת של המודל. כדי להבין את ההתנהגות המשוערת של המודל במערך נתונים שלם, צריך לצבור את השיוכים על פני מערך הנתונים כולו.
שיוכי תכונות יכולים לעזור בניפוי באגים במודל, אבל הם לא תמיד מציינים באופן ברור אם הבעיה נובעת מהמודל או מהנתונים שהמודל אומן עליהם. כדאי להפעיל שיקול דעת ולנסות לאבחן בעיות נפוצות בנתונים כדי לצמצם את מרחב הגורמים האפשריים.
השיוכים תלויים לחלוטין במודל ובנתונים ששימשו לאימון המודל. הם יכולים לחשוף רק את הדפוסים שהמודל מצא בנתונים, ולא יכולים לזהות קשרים בסיסיים בנתונים. הנוכחות או היעדר של שיוך חזק לתכונה מסוימת לא אומרת שיש או אין קשר בין התכונה הזו לבין היעד. השיוך רק מראה אם המודל משתמש בתכונה בהסקת המסקנות שלו או לא.
שיוכים לבדם לא יכולים להראות אם המודל שלכם הוגן, לא מוטה או באיכות טובה. חשוב להעריך בקפידה את נתוני האימון ואת מדדי ההערכה, בנוסף לשיוכים.

מידע נוסף על מגבלות זמין ב[סקירה מפורטת בנושא הסברים ב-AI].

שיפור השיוך של תכונות

הגורמים הבאים משפיעים הכי הרבה על שיוך התכונות:

שיטות השיוך מספקות קירוב לערך שפלי. כדי להגדיל את רמת הדיוק של הקירוב, אפשר להגדיל את מספר הנתיבים בשיטת הדגימה של Shapley. כתוצאה מכך, יכול להיות שיהיו שינויים משמעותיים בשיוכים.
השיוכים רק מבטאים את מידת ההשפעה של התכונה על השינוי בערך ההסקה, ביחס לערך הבסיסי. חשוב לבחור בסיס השוואה משמעותי שרלוונטי לשאלה ששואלים את המודל. ערכי השיוך והפרשנות שלהם עשויים להשתנות באופן משמעותי כשמחליפים את נקודות ההשוואה.

אלגוריתם

‫Vertex AI מספק שיוך תכונות באמצעות ערכי שאפלי, אלגוריתם של תורת המשחקים השיתופית שמשייך קרדיט לכל שחקן במשחק על תוצאה מסוימת. כשמיישמים את זה על מודלים של למידת מכונה, כל תכונה של המודל נחשבת ל'שחקן' במשחק, והקרדיט משויך באופן יחסי לתוצאה של מסקנה מסוימת. במודלים של נתונים מובְנים, Vertex AI משתמש בקירוב של דגימה של ערכי Shapley מדויקים שנקרא Sampled Shapley.

למידע מפורט על אופן הפעולה של שיטת Shapley המבוססת על דגימה, אפשר לקרוא את המאמר [Bounding the Estimation Error of Sampling-based Shapley Value Approximation][sampled-shapley-paper].

המאמרים הבאים

במקורות המידע הבאים תוכלו למצוא חומרים חינוכיים שימושיים נוספים:

שיוך מאפיינים לסיווג ולרגרסיה קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.