סקירה כללית של ניתוח הגורמים לאנומליות

במאמר הזה מוסבר על תרחיש השימוש של ניתוח התרומה, ועל האפשרויות לביצוע ניתוח התרומה ב-BigQuery ML.

מהו ניתוח הגורמים לאנומליות?

ניתוח התרומה, שנקרא גם ניתוח גורמי מפתח, הוא שיטה שמשמשת ליצירת תובנות לגבי שינויים במדדי מפתח בנתונים הרב-ממדיים. לדוגמה, אפשר להשתמש בניתוח התרומה כדי לראות אילו נתונים תרמו לשינוי במספרי ההכנסות במהלך שני רבעונים, או כדי להשוות בין שני מערכי נתוני אימון ולהבין את השינויים בביצועים של מודל ML.

ניתוח התרומה הוא סוג של ניתוח משופר, כלומר שימוש בבינה מלאכותית (AI) כדי לשפר ולאוטומט את הניתוח וההבנה של הנתונים. ניתוח התרומה הוא אחת מהמטרות העיקריות של ניתוח משופר, והוא נועד לעזור למשתמשים למצוא דפוסים בנתונים שלהם.

ניתוח הגורמים לאנומליות באמצעות BigQuery ML

כדי להשתמש בניתוח התרומה ב-BigQuery ML, צריך ליצור מודל של ניתוח התרומה באמצעות ההצהרה CREATE MODEL.

מודל ניתוח התרומה מזהה פלחי נתונים שמציגים שינויים במדד מסוים על ידי השוואה בין קבוצת נתוני בדיקה לקבוצת נתוני בקרה. לדוגמה, אפשר להשתמש בתמונת מצב של טבלה עם נתוני מכירות שנלקחה בסוף 2023 כנתוני הבדיקה, ובתמונת מצב של טבלה שנלקחה בסוף 2022 כנתוני הבקרה, ולהשוות ביניהן כדי לראות איך המכירות השתנו לאורך זמן. מודל ניתוח התרומה יכול להראות לכם איזה פלח נתונים, כמו לקוחות אונליין באזור מסוים, הוביל לשינוי הגדול ביותר במכירות משנה לשנה.

מדד הוא הערך המספרי שמשמש את המודלים של ניתוח התרומה למדידה ולהשוואה של השינויים בין נתוני הבדיקה לנתוני הבקרה. אפשר לציין את סוגי המדדים הבאים באמצעות מודל ניתוח התרומה:

  • Summable: מסכם את הערכים של עמודת מדד שאתם מציינים, ואז קובע סכום כולל לכל פלח של הנתונים.
  • יחס שניתן לסיכום: מסכם את הערכים של שתי עמודות מספריות שאתם מציינים, וקובע את היחס ביניהם לכל פלח של הנתונים.
  • ניתן לסיכום לפי קטגוריה: מסכם את הערך של עמודה מספרית ומחלק אותו במספר הערכים השונים מעמודה קטגורית.

פלח הוא חלק מהנתונים שמזוהה על ידי שילוב מסוים של ערכי מאפיינים. לדוגמה, במודל ניתוח תרומות שמבוסס על המאפיינים store_number, customer_id ו-day, כל שילוב ייחודי של ערכי המאפיינים האלה מייצג פלח. בטבלה הבאה, כל שורה מייצגת פלח אחר:

store_number customer_id day
חנות 1
חנות 1 לקוח 1
חנות 1 לקוח 1 שני
חנות 1 לקוח 1 שלישי
חנות 1 לקוח 2
חנות 2

כדי לקצר את זמן יצירת המודל, מציינים סף תמיכה מראש. סף תמיכה מראש מאפשר לכם להסיר פלחים קטנים ופחות רלוונטיים, כדי שהמודל ישתמש רק בפלחים הגדולים והרלוונטיים ביותר.

אחרי שיוצרים מודל לניתוח התרומה, אפשר להשתמש בפונקציה ML.GET_INSIGHTS כדי לאחזר את פרטי המדד שחושבו על ידי המודל. הפלט של המודל מורכב משורות של תובנות, כאשר כל תובנה מתאימה לפלח ומספקת את המדדים התואמים של הפלח.

תהליך המשתמש בניתוח הגורמים לאנומליות

בטבלה הבאה מפורטים המשפטים והפונקציות שאפשר להשתמש בהם עם מודלים של ניתוח תרומה:

יצירת מודל עיבוד מקדים של תכונות יצירת תובנות מדריכים
CREATE MODEL עיבוד מקדים ידני ML.GET_INSIGHTS

המאמרים הבאים