אימון מודלים של AI ו-ML

איך מאמנים מודלים של AI ו-ML בתוסף Google Cloud Data Agent Kit ל-Visual Studio Code.

במדריך למתחילים הזה משתמשים בתבנית סשן ובמחברת Jupyter לדוגמה כדי לחזות את סכומי הטיפים שניתנים לנהגי מוניות בניו יורק. אתם משתמשים בקרנל Jupyter מרוחק עם PySpark כדי לנסות מודלים שונים כמו רגרסיה לינארית, יער אקראי ו-XGBoost. התהליך הזה מאפשר לכם לבצע אימון והסקת מסקנות מבוזרים. הוא מדגים את יכולת ההתאמה למגוון מכונות באמצעות Spark ML וספריית XGBoost.

למרות שלא נסביר על כך במדריך הזה, יש כמה דרכים לאמן מודלים של AI ו-ML באמצעות התוסף Google Cloud Data Agent Kit ל-Visual Studio Code:

  • אם מערך הנתונים לאימון גדול או שאתם רוצים להשתמש ביכולות האימון המבוזר ש-Apache Spark מציע, אתם יכולים להשתמש ב-Spark notebooks עם ליבות מרוחקות.
  • אם מערך הנתונים שלכם נמצא ב-BigQuery ו-BigQuery ML תומך בתרחיש השימוש שלכם, אתם יכולים להשתמש במחברת BigQuery DataFrames.
  • אם מערך הנתונים קטן ואתם רוצים לאמן את המודל באופן מקומי, אתם יכולים להשתמש ב-notebook של Python.

לפני שמתחילים

לפני שמתחילים, צריך לבצע את הפעולות הבאות:

  1. איך מתקינים את התוסף
  2. הגדרת תוספים
  3. מומלץ לעיין בהדרכה בנושא חיפוש נתונים וניתוח שלהם.

יצירה של תבנית זמן ריצה של Spark

תבניות של סביבת זמן ריצה ללא שרת (serverless) של Spark מאפשרות להתחיל סשן של Apache Spark עם קבוצה נתונה של הגדרות. כדי ליצור תבנית חדשה של Serverless Runtime:

  1. בסרגל הפעילות של IDE, לוחצים על הסמל של Google Cloud Data Agent Kit.
  2. בתפריט Google Cloud Data Agent Kit, מרחיבים את Apache Spark.
  3. מרחיבים את Serverless ואז לוחצים על + Create serverless runtimes. יופיע טופס ליצירת Serverless Runtime.
  4. בשדה שם מוצג, מזינים ai-ml-tutorial.
  5. עוברים לקטע Auto Scaling.
  6. ברשימה הנפתחת, בוחרים באפשרות spark.dynamicAllocation.enabled false. ההגדרה הזו נדרשת כדי ש-XGBoost יפעל עם Apache Spark.
  7. בכל שאר השדות משאירים את ערכי ברירת המחדל.
  8. לוחצים על שליחה.

יצירת מחברת חדשה

בשלב הבא, יוצרים מחברת Spark חדשה:

  1. בכרטיסייה Google Cloud Data Agent Kit, בקטע Apache Spark, לוחצים על + New Spark Notebook.
  2. בוחרים באפשרות Remote Kernel (ליבת מערכת מרוחקת) בתור סוג הליבה.
  3. לוחצים על התחלה עם מחברת לדוגמה.
  4. ברשימת הדוגמאות, בוחרים באפשרות Data Science with PySpark and Distributed XGBoost (מדעי הנתונים עם PySpark ו-XGBoost מבוזר). יופיע נוטבוק Jupyter ללא שם.

אימון המודל

  1. בכרטיסיית המחברת, לוחצים על Run All (הפעלה של הכול). בכלי לבחירת ליבה מוצגת בקשה לבחור ליבה להרצת המחברת.
  2. לוחצים על Select Another Kernel (בחירת ליבה אחרת).
  3. לוחצים על Remote Spark Kernels (ליבות Spark מרוחקות).
  4. בוחרים באפשרות ai-ml-tutorial on Serverless Spark, תבנית זמן הריצה שיצרתם קודם.

ההתראה הבאה מוצגת בזמן שהמערכת יוצרת את הסשן של Serverless Spark: ‏Connecting to kernel: ai-ml-tutorial on Serverless Spark. כשהמחברת מתחברת לליבת PySpark מרוחקת, ההרצה מתחילה בתא הראשון. התהליך הזה נמשך בערך שתיים עד שלוש דקות.

בדיקת סשן Spark

  1. בכרטיסייה Google Cloud Data Agent Kit (ערכת סוכני נתונים של Google Cloud), בקטע Apache Spark, מרחיבים את התבנית ai-ml-tutorial Runtime. ב-IDE מוצגת רשימת הסשנים האינטראקטיביים שיצרתם באמצעות תבנית זמן הריצה הזו.
  2. בראש הרשימה, מאתרים את הסשן שהמערכת יצרה על ידי הפעלת המחברת. לוחצים על הסשן כדי לראות את הפרטים שלו. אתם יכולים לבדוק את הגדרות הסשן ואת המשאבים שהמערכת צרכה כדי להריץ את ה-notebook.

הסרת המשאבים

אחרי שמריצים את ה-notebook בהצלחה, מבצעים את שלבי הניקוי הבאים.

  1. בכרטיסייה Google Cloud Data Agent Kit, בקטע Apache Spark, לוחצים לחיצה ימנית על Serverless (ללא שרת) ובוחרים באפשרות List Serverless Runtimes (רשימת סביבות זמן ריצה ללא שרת). מוצגת רשימה של סביבות זמן ריצה ללא שרת (serverless).
  2. בתפריט פעולה של ai-ml-tutorial, מוצגת רשימה של כל הסשנים האינטראקטיביים שהמערכת יצרה מהתבנית.
  3. בקטע פעולות, לוחצים על מחיקה.
  4. חוזרים לחלון Serverless Runtimes (סביבות ריצה ללא שרת).
  5. בקטע פעולות של ai-ml-tutorial, לוחצים על מחיקה.
  6. לוחצים על אישור כדי למחוק את התבנית שיצרתם במדריך הזה.

המאמרים הבאים