סקירה כללית של ניתוח הגורמים לאנומליות
במאמר הזה מוסבר על תרחיש השימוש של ניתוח התרומה, ועל האפשרויות לביצוע ניתוח התרומה ב-BigQuery ML.
מהו ניתוח הגורמים לאנומליות?
ניתוח התרומה, שנקרא גם ניתוח גורמי מפתח, הוא שיטה שמשמשת ליצירת תובנות לגבי שינויים במדדי מפתח בנתונים הרב-ממדיים. לדוגמה, אפשר להשתמש בניתוח התרומה כדי לראות אילו נתונים תרמו לשינוי במספרי ההכנסות במהלך שני רבעונים, או כדי להשוות בין שני מערכי נתוני אימון ולהבין את השינויים בביצועים של מודל ML.
ניתוח התרומה הוא סוג של ניתוח נתונים מתקדם, שמתבסס על שימוש בבינה מלאכותית (AI) כדי לשפר ולאוטומט את הניתוח וההבנה של הנתונים. ניתוח התרומה הוא אחד מהיעדים העיקריים של ניתוח משופר, והוא נועד לעזור למשתמשים למצוא דפוסים בנתונים שלהם.
ניתוח תרומות באמצעות BigQuery ML
ניתוח התרומה מזהה פלחי נתונים שמציגים שינויים במדד מסוים על ידי השוואה בין קבוצת נתונים לבדיקה לבין קבוצת נתונים לבקרה. לדוגמה, אפשר להשתמש בתמונת מצב של טבלה עם נתוני מכירות שנלקחו בסוף 2023 כנתוני הבדיקה, ובתמונת מצב של טבלה שנלקחה בסוף 2022 כנתוני הבקרה, ולהשוות ביניהם כדי לראות איך המכירות השתנו לאורך זמן. ניתוח התרומה יכול להראות לכם איזה פלח נתונים, כמו לקוחות אונליין באזור מסוים, הוביל לשינוי הגדול ביותר במכירות משנה לשנה.
מדד הוא הערך המספרי שמשמש את המודלים של ניתוח התרומה למדידה ולהשוואה של השינויים בין נתוני הבדיקה לנתוני הבקרה. אפשר לציין את סוגי המדדים הבאים באמצעות מודל ניתוח התרומה:
- Summable: מסכם את הערכים של עמודת מדד שאתם מציינים, ואז קובע סכום כולל לכל פלח של הנתונים.
- יחס שניתן לסיכום: מסכם את הערכים של שתי עמודות מספריות שאתם מציינים, וקובע את היחס ביניהם לכל פלח של הנתונים.
- ניתן לסיכום לפי קטגוריה: מסכם את הערך של עמודה מספרית ומחלק אותו במספר הערכים השונים מעמודה קטגורית.
פלח הוא חלק מהנתונים שמזוהה על ידי שילוב מסוים של ערכי מאפיינים. לדוגמה, במודל ניתוח תרומה שמבוסס על המאפיינים store_number, customer_id ו-day, כל שילוב ייחודי של ערכי המאפיינים האלה מייצג פלח. בטבלה הבאה, כל שורה מייצגת פלח שונה:
store_number |
customer_id |
day |
| חנות 1 | ||
| חנות 1 | לקוח 1 | |
| חנות 1 | לקוח 1 | שני |
| חנות 1 | לקוח 1 | שלישי |
| חנות 1 | לקוח 2 | |
| חנות 2 |
ניתוח נתונים בלי מודל
אם יש לכם פחות מ-12 מאפיינים ואתם משתמשים במדד שניתן לסיכום, אתם יכולים לבצע ניתוח תרומה באמצעות AI.KEY_DRIVERS TVF.
ברוב המקרים, מומלץ להשתמש בפונקציה AI.KEY_DRIVERS
במקום ליצור מודל, כי היא מציעה תחביר פשוט יותר, תוצאות מהירות יותר וגיזום אוטומטי. פלט הפונקציה מורכב משורות של תובנות, כאשר כל תובנה מתייחסת לפלח ומספקת את המדדים התואמים של הפלח.
שימוש במודל של ניתוח הגורמים לאנומליות
אם אתם צריכים יותר מ-12 מאפיינים או סוגים אחרים של מדדים, אתם יכולים ליצור מודל ניתוח תרומה באמצעות ההצהרה CREATE MODEL.
כדי לקצר את זמן יצירת המודל, מציינים סף תמיכה מראש. סף התמיכה של apriori מאפשר לכם להסיר פלחים קטנים ופחות רלוונטיים, כך שהמודל ישתמש רק בפלחים הגדולים והרלוונטיים ביותר.
אחרי שיוצרים מודל לניתוח התרומה, אפשר להשתמש בפונקציה ML.GET_INSIGHTS כדי לאחזר את פרטי המדדים שחושבו על ידי המודל. פלט הפונקציה מורכב משורות של תובנות, כאשר כל תובנה מתייחסת לפלח ומספקת את המדדים התואמים של הפלח.
תהליך המשתמש בניתוח הגורמים לאנומליות
בטבלה הבאה מתוארים המשפטים והפונקציות שאפשר להשתמש בהם בניתוח התרומה:
| הצהרה או פונקציה | עיבוד מקדים של תכונות | יצירת תובנות | מדריכים |
|---|---|---|---|
AI.KEY_DRIVERS |
עיבוד מקדים ידני | לא רלוונטי | דוגמה לניתוח תרומה לנתוני מכירות משקאות חריפים באיווה |
CREATE MODEL |
עיבוד מקדים ידני | ML.GET_INSIGHTS |