שלום לנתונים טבלאיים: יצירת מערך נתונים ואימון מודל סיווג של AutoML

משתמשים במסוף Google Cloud כדי ליצור מערך נתונים טבלאי ולאמן מודל סיווג.

יצירת קבוצת נתונים טבלאית

  1. במסוף Google Cloud , בקטע Vertex AI, עוברים לדף Datasets.

    כניסה לדף Datasets

  2. כדי ליצור מערך נתונים חדש, לוחצים על יצירה בסרגל הלחצנים.

  3. מזינים Structured_AutoML_Tutorial בשם של קבוצת הנתונים ובוחרים בכרטיסייה Tabular.

  4. בוחרים את היעד Regression/Classification (רגרסיה/סיווג).

    משאירים את ההגדרה של Region כ-us-central1.

  5. לוחצים על יצירה כדי ליצור את מערך הנתונים.

    במדריך הזה נשתמש במערך נתונים של בנק שזמין לציבור ומתארח ב-Cloud Storage.

  6. בקטע Select a data source (בחירת מקור נתונים), לוחצים על Select CSV files from Cloud Storage (בחירת קובצי CSV מ-Cloud Storage).

  7. בשדה Import file path (נתיב קובץ לייבוא), מזינים cloud-ml-tables-data/bank-marketing.csv.

  8. לוחצים על Continue.

ניתוח מערך הנתונים

בקטע 'ניתוח' אפשר לראות מידע נוסף על מערך הנתונים, כמו ערכים חסרים או ערכי NULL.

מכיוון שערכת הנתונים שלנו מעוצבת בפורמט הנכון עבור המדריך הזה, אתם לא צריכים לעשות כלום בדף הזה ויכולים לדלג על הקטע הזה.

  1. אופציונלי. לוחצים על יצירת נתונים סטטיסטיים כדי לראות את מספר הערכים החסרים או הערכים מסוג NULL במערך הנתונים. התהליך הזה יכול להימשך 10 דקות או יותר.

  2. אופציונלי. כדי לקבל מידע נוסף על ערכי הנתונים, לוחצים על אחת מעמודות התכונות.

אימון מודל לסיווג קבצים בעזרת AutoML

  1. לוחצים על Train new model (אימון מודל חדש).

  2. בוחרים באפשרות אחר.

  3. בחלונית שיטת האימון, מוודאים שמערך הנתונים שיצרתם קודם נבחר בשדה מערך נתונים.

  4. בשדה Objective (יעד), בוחרים באפשרות Classification (סיווג).

  5. מוודאים שנבחרה שיטת האימון AutoML.

  6. לוחצים על Continue.

  7. בחלונית פרטי המודל, בוחרים באפשרות הפקדה בעמודת היעד ולוחצים על המשך.

    עמודת היעד היא מה שאנחנו מאמנים את המודל לחזות. בעמודה Deposit של מערך הנתונים bank-marketing.csv מצוין אם הלקוח רכש פיקדון לזמן קצוב (2 = כן, 1 = לא).

    בחלונית אפשרויות ההדרכה אפשר להוסיף תכונות ולשנות את הנתונים בעמודות. אם לא נבחרות עמודות, כברירת מחדל כל העמודות שאינן עמודות יעד ישמשו כמאפיינים לאימון. קבוצת הנתונים הזו מוכנה לשימוש, כך שאין צורך לבצע בה שינויים.

  8. לוחצים על Continue.

  9. בחלונית Compute and pricing, מזינים 1 בתקציב לאימון.

    תקציב האימון הוא הזמן המקסימלי (עשוי להשתנות מעט) שבו המודל מבלה באימון. הערך הזה מוכפל במחיר לשעת שימוש בכל צומת כדי לחשב את עלות האימון הכוללת. יותר שעות אימון יובילו למודל מדויק יותר (עד נקודה מסוימת), אבל העלות תהיה גבוהה יותר. למטרות פיתוח, תקציב נמוך הוא בסדר, אבל בשביל הפקה חשוב ליצור איזון בין עלות לדיוק.

  10. לוחצים על התחלת ההדרכה.

כשהאימון של המודל מסתיים, הוא מוצג בכרטיסייה model (מודל) כקישור פעיל, עם סמל סטטוס של סימן וי ירוק.

המאמרים הבאים

המודל שלך נמצא כרגע בתהליך אימון, שיכול להימשך שעה או יותר. נשלח לכם אימייל כשהאימון יסתיים. אחרי שמסיימים לאמן את המודל, פועלים לפי ההוראות בדף הבא של המדריך הזה כדי לפרוס את המודל ולבקש חיזוי.

במדריך הזה אנחנו משתמשים במערך נתונים שעבר ניקוי ועיצוב לאימון ב-AutoML, אבל ברוב הנתונים צריך לבצע עבודה מסוימת לפני שאפשר להשתמש בהם. איכות נתוני האימון משפיעה על רמת האפקטיביות של המודלים שאתם יוצרים. מידע נוסף על הכנת נתונים

כדי להבטיח שמודל הלמידה החישובית יהיה מדויק, חשוב מאוד לאסוף ולהכין את הנתונים. מידע נוסף על שיטות מומלצות

מידע נוסף על יצירת מערך נתונים טבלאי

ב-Vertex AI יש שתי שיטות לאימון מודלים: AutoML ואימון בהתאמה אישית. ‫AutoML מאפשר אימון במאמץ מינימלי וללא צורך במומחיות בלמידת מכונה, בעוד שאימון מותאם אישית מעניק לכם שליטה מלאה בפונקציונליות של האימון. מידע נוסף על שיטות אימון

‫Vertex AI בודק את סוג נתוני המקור ואת ערכי המאפיינים, ומסיק איך המערכת תשתמש במאפיין הזה באימון המודל. מומלץ לבדוק את סוג הנתונים של כל עמודה כדי לוודא שהם פורשו בצורה נכונה. אם צריך, אפשר לציין טרנספורמציה נתמכת אחרת לכל תכונה. מידע נוסף על טרנספורמציות

מידע נוסף על אימון מודל AutoML לסיווג או לרגרסיה