שיוך תכונות לחיזוי

מבוא

בדף הזה מופיעה סקירה כללית קצרה של שיטות שיוך התכונות שזמינות ב-Vertex AI.

המדד 'חשיבות התכונה הגלובלית' (שיוכים של תכונות המודל) מראה איך כל תכונה משפיעה על המודל. הערכים הם אחוזים לכל תכונה: ככל שהאחוז גבוה יותר, כך ההשפעה של התכונה על אימון המודל גדולה יותר. לדוגמה, אחרי שתבדקו את חשיבות התכונות הגלובלית של המודל, יכול להיות שתגיעו למסקנה הבאה: "המודל מראה שהמכירות בחודש הקודם הן בדרך כלל המנבא החזק ביותר של המכירות בחודש הבא. גורמים כמו מספר הלקוחות ומבצעים הם חשובים, אבל הם פחות חשובים מנתוני המכירות".

כדי לראות את חשיבות התכונות הגלובלית של המודל, בודקים את מדדי ההערכה.

שיוכים של מאפיינים מקומיים למודלים של סדרות זמן מציינים את התרומה של כל מאפיין במודל להסקת מסקנות. הם מודדים את התרומה של תכונה להסקת מסקנות ביחס לערך בסיסי של קלט. עבור תכונות מספריות כמו מכירות, נתוני הבסיס הם המכירות החציוניות. עבור תכונות קטגוריות כמו שם המוצר, קלט הבסיס הוא שם המוצר הנפוץ ביותר. סכום השיוכים לא שווה למסקנה. הסכום מציין את מידת השוני בין ההסקה (כלומר, כל ערכי הקלט הם ערכי בסיס) לבין ההסקה הנוכחית.

השיוכים של התכונות נקבעים על סמך תחזיות שנוצרו עבור תרחישים היפותטיים. דוגמה לתחזית: מה תהיה התחזית אם ערך המודעה TRUE בתאריך 2020-11-21 יוחלף בערך FALSE, שהוא הערך הנפוץ ביותר? מספר התרחישים הנדרש גדל בהתאם למספר העמודות ולמספר הנתיבים (נוצר על ידי השירות). מספר ההסקות שמתקבלות עשוי להיות גדול בסדרי גודל ממספר ההסקות במשימת הסקה רגילה, וזמן הריצה הצפוי גדל בהתאם.

אתם יכולים להשתמש בחיזוי באמצעות AutoML או בתהליך עבודה טבלאי לחיזוי כדי ליצור שאילתות של שיוך תכונות מקומיות. תחזיות באמצעות AutoML תומכות רק בהסקת מסקנות באצווה. תהליך העבודה של חיזוי בטבלה תומך גם בהסקת מסקנות באצווה וגם בהסקת מסקנות אונליין.

יתרונות

אם בודקים מקרים ספציפיים וגם צוברים את השיוכים של התכונות במערך נתוני האימון, אפשר לקבל תובנות מעמיקות יותר לגבי אופן הפעולה של המודל. כדאי להביא בחשבון את היתרונות הבאים:

  • ניפוי באגים במודלים: שיוכי תכונות יכולים לעזור לזהות בעיות בנתונים שבדרך כלל לא מזוהות בטכניקות סטנדרטיות להערכת מודלים.

  • אופטימיזציה של מודלים: אתם יכולים לזהות ולהסיר תכונות שהן פחות חשובות, וכך ליצור מודלים יעילים יותר.

מגבלות קונספטואליות

חשוב להביא בחשבון את המגבלות הבאות של שיוך תכונות:

  • שיוך תכונות, כולל חשיבות תכונות מקומיות ל-AutoML, הוא ספציפי להסקות אינדיבידואליות. בדיקת השיוכים של התכונות למסקנה ספציפית עשויה לספק תובנה טובה, אבל יכול להיות שהתובנה לא תהיה כללית מספיק כדי להסיק ממנה לגבי כל הכיתה עבור המופע הספציפי הזה, או לגבי המודל כולו.

    כדי לקבל תובנות כלליות יותר לגבי מודלים של AutoML, כדאי לעיין בחשיבות התכונות של המודל. כדי לקבל תובנות כלליות יותר לגבי מודלים אחרים, אפשר לצבור שיוכים על קבוצות משנה של מערך הנתונים או על מערך הנתונים כולו.

  • כל שיוך מראה רק את מידת ההשפעה של התכונה על ההסקה בדוגמה הספציפית הזו. שיוך יחיד לא משקף את ההתנהגות הכוללת של המודל. כדי להבין את ההתנהגות המשוערת של המודל במערך נתונים שלם, צריך לצבור את השיוכים על פני מערך הנתונים כולו.

  • שיוכי תכונות יכולים לעזור בניפוי באגים במודל, אבל הם לא תמיד מציינים באופן ברור אם הבעיה נובעת מהמודל או מהנתונים שהמודל אומן עליהם. כדאי להפעיל שיקול דעת ולנסות לאבחן בעיות נפוצות בנתונים כדי לצמצם את מרחב הגורמים האפשריים.

  • השיוכים תלויים לחלוטין במודל ובנתונים ששימשו לאימון המודל. הם יכולים לחשוף רק את הדפוסים שהמודל מצא בנתונים, ולא יכולים לזהות קשרים בסיסיים בנתונים. הנוכחות או היעדר של שיוך חזק לתכונה מסוימת לא אומרת שיש או אין קשר בין התכונה הזו לבין היעד. השיוך רק מראה אם המודל משתמש בתכונה בהסקת המסקנות שלו או לא.

  • שיוכים לבדם לא יכולים להראות אם המודל שלכם הוגן, לא מוטה או באיכות טובה. חשוב להעריך בקפידה את נתוני האימון ואת מדדי ההערכה, בנוסף לשיוכים.

מידע נוסף על מגבלות זמין ב[סקירה מפורטת בנושא הסברים ב-AI].

שיפור השיוך של תכונות

הגורמים הבאים משפיעים הכי הרבה על שיוך התכונות:

  • שיטות השיוך מספקות קירוב לערך שפלי. כדי להגדיל את רמת הדיוק של הקירוב, אפשר להגדיל את מספר הנתיבים בשיטת הדגימה של Shapley. כתוצאה מכך, יכול להיות שיהיו שינויים משמעותיים בשיוכים.
  • השיוכים רק מבטאים את מידת ההשפעה של התכונה על השינוי בערך ההסקה, ביחס לערך הבסיסי. חשוב לבחור בסיס השוואה משמעותי שרלוונטי לשאלה ששואלים את המודל. ערכי השיוך והפרשנות שלהם עשויים להשתנות באופן משמעותי כשמחליפים את נקודות ההשוואה.

מספר הנתיבים וערכי הבסיס מוצגים בפרמטרים ובמטא-נתונים של ההסבר.

הצגת המטא-נתונים והפרמטרים של ההסבר

הפרמטרים והמטא-נתונים של ההסבר מכילים את הפרטים הבאים:

  • static_value: ערכי הבסיס שמשמשים ליצירת ההסברים.
  • pathCount: מספר הנתיבים, גורם שמשפיע על משך הזמן שנדרש ליצירת שיוכים של תכונות.
  • historical_values, ‏ prediction_values: עמודות שזמינות בתחזית.
  • historical_values: עמודות שלא זמינות בתחזית.

אפשר לראות את המודל באמצעות API בארכיטקטורת REST של Vertex AI, והוא כולל את מפרט ההסבר.

REST

לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:

  • LOCATION: האזור שבו המודל מאוחסן
  • PROJECT: מזהה הפרויקט.
  • MODEL_ID: המזהה של משאב המודל

ה-method של ה-HTTP וכתובת ה-URL:

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID

כדי לשלוח את הבקשה אתם צריכים לבחור אחת מהאפשרויות הבאות:

curl

מריצים את הפקודה הבאה:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID"

PowerShell

מריצים את הפקודה הבאה:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID" | Select-Object -Expand Content

הפלט שיוצג לכם עבור מודל AutoML מאומן אמור להיות דומה לזה שמופיע בהמשך.

אלגוריתם

‫Vertex AI מספק שיוך תכונות באמצעות ערכי שאפלי, אלגוריתם של תורת המשחקים השיתופית שמשייך קרדיט לכל שחקן במשחק על תוצאה מסוימת. כשמיישמים את זה על מודלים של למידת מכונה, כל תכונה של המודל נחשבת ל'שחקן' במשחק, והקרדיט משויך באופן יחסי לתוצאה של מסקנה מסוימת. במודלים של נתונים מובְנים, Vertex AI משתמש בקירוב של דגימה של ערכי Shapley מדויקים שנקרא Sampled Shapley.

למידע מפורט על אופן הפעולה של שיטת Shapley המבוססת על דגימה, אפשר לקרוא את המאמר [Bounding the Estimation Error of Sampling-based Shapley Value Approximation][sampled-shapley-paper].

המאמרים הבאים

במקורות המידע הבאים תוכלו למצוא חומרים חינוכיים שימושיים נוספים: