סקירה כללית של זיהוי אנומליות

זיהוי אנומליות הוא טכניקה לכריית נתונים שבעזרתה אפשר לזהות סטיות בנתונים במערך נתונים נתון. לדוגמה, אם שיעור ההחזרות של מוצר מסוים עולה באופן משמעותי בהשוואה לנתוני הבסיס של המוצר, יכול להיות שמדובר בפגם במוצר או בהונאה פוטנציאלית. אתם יכולים להשתמש בזיהוי אנומליות כדי לזהות אירועים קריטיים, כמו בעיות טכניות, או הזדמנויות, כמו שינויים בהתנהגות הצרכנים.

יכול להיות שיהיה קשה לקבוע מה נחשב לנתונים חריגים. אם אתם לא בטוחים מה נחשב לנתונים חריגים, או אם אין לכם נתונים מתויגים לאימון מודל, אתם יכולים להשתמש בלמידת מכונה לא מבוקרת כדי לבצע זיהוי חריגות. כדי לזהות אנומליות בנתוני האימון או בנתוני ההגשה החדשים, אפשר להשתמש בפונקציה AI.DETECT_ANOMALIES או בפונקציה ML.DETECT_ANOMALIES עם אחד מהמודלים הבאים:

סוג נתונים סוגי מודלים תפקיד מה הפונקציה עושה
פעולות על ציר הזמן TimesFM AI.DETECT_ANOMALIES זיהוי החריגות בסדרת הזמן.
ARIMA_PLUS ML.DETECT_ANOMALIES זיהוי החריגות בסדרת הזמן.
ARIMA_PLUS_XREG ML.DETECT_ANOMALIES זיהוי האנומליות בסדרת הזמן באמצעות רגרסורים חיצוניים.
משתנים אקראיים בלתי תלויים ובעלי התפלגות זהה (IID) K-means ML.DETECT_ANOMALIES זיהוי אנומליות על סמך המרחק הקצר ביותר בין המרחקים הנורמליים מנתוני הקלט לבין כל מרכז של אשכול. הגדרה של מרחקים מנורמלים מופיעה בפלט של מודל k-means עבור הפונקציה ML.DETECT_ANOMALIES.
Autoencoder זיהוי חריגות על סמך הפסד השחזור במונחים של שגיאה ממוצעת בריבוע. מידע נוסף זמין במאמר ML.RECONSTRUCTION_LOSS. הפונקציה ML.RECONSTRUCTION_LOSS יכולה לאחזר את כל הסוגים של הפסדי שחזור.
PCA זיהוי חריגות על סמך אובדן השחזור במונחים של שגיאה ממוצעת בריבוע.

אם כבר יש לכם נתונים מסומנים שמזהים אנומליות, אתם יכולים לבצע זיהוי אנומליות באמצעות הפונקציה ML.PREDICT עם אחד מהמודלים הבאים של למידה חישובית מפוקחת:

באמצעות הגדרות ברירת המחדל בהצהרות CREATE MODEL ובפונקציות ההסקה, אפשר ליצור ולהשתמש במודל לזיהוי אנומליות גם בלי ידע רב בלמידת מכונה. עם זאת, ידע בסיסי בפיתוח של ML עוזר לכם לבצע אופטימיזציה של הנתונים ושל המודל כדי להשיג תוצאות טובות יותר. כדי להכיר את התהליכים והטכניקות של ML, מומלץ להיעזר במקורות המידע הבאים: