סקירה כללית על הורדת ממד
המונח הנפוץ לתיאור קבוצה של טכניקות מתמטיות שמשמשות לתיעוד הצורה והקשרים של נתונים במרחב רב-ממדי ולתרגום המידע הזה למרחב נמוך-ממדי.
צמצום המימדיות חשוב כשעובדים עם מערכי נתונים גדולים שיכולים להכיל אלפי תכונות. במרחב נתונים גדול כל כך, טווח המרחקים הרחב בין נקודות הנתונים יכול להקשות על פירוש הפלט של המודל. לדוגמה, קשה להבין אילו נקודות נתונים קרובות יותר זו לזו ולכן מייצגות נתונים דומים יותר. צמצום המימדיות עוזר לצמצם את מספר התכונות תוך שמירה על המאפיינים החשובים ביותר של מערך הנתונים. הפחתת מספר התכונות עוזרת גם להפחית את זמן האימון של כל המודלים שמשתמשים בנתונים כקלט.
BigQuery ML מציעה את המודלים הבאים לצמצום ממדים:
אפשר להשתמש במודלים של PCA ובמודלים של autoencoder עם הפונקציות ML.PREDICT או AI.GENERATE_EMBEDDING כדי להטמיע נתונים במרחב עם ממדים נמוכים יותר, ועם הפונקציה ML.DETECT_ANOMALIES כדי לבצע זיהוי אנומליות.
אפשר להשתמש בפלט של מודלים להפחתת ממדים למשימות כמו:
- חיפוש לפי דמיון: חיפוש נקודות נתונים דומות זו לזו על סמך ההטמעות שלהן. התכונה הזו מצוינת למציאת מוצרים קשורים, להמלצה על תוכן דומה או לזיהוי פריטים כפולים או חריגים.
- אשכולות: אפשר להשתמש בהטמעות כמאפייני קלט למודלים של k-means כדי לקבץ נקודות נתונים על סמך הדמיון ביניהן. כך תוכלו לגלות דפוסים ותובנות חבויים בנתונים.
- למידת מכונה: שימוש בהטמעות כמאפייני קלט לסיווג או למודלים של רגרסיה.
ידע מומלץ
אפשר להשתמש בהגדרות ברירת המחדל בהצהרות CREATE MODEL ובפונקציות ההסקה כדי ליצור מודל להפחתת ממדים ולהשתמש בו גם בלי ידע רב בלמידת מכונה. עם זאת, ידע בסיסי בפיתוח של ML עוזר לכם לבצע אופטימיזציה של הנתונים ושל המודל כדי להשיג תוצאות טובות יותר. כדי להכיר את התהליכים והטכניקות של ML, מומלץ להיעזר במקורות המידע הבאים: