פלטפורמת אבחון של למידת מכונה

‫Google Cloud ML Diagnostics היא פלטפורמה מנוהלת מקצה לקצה לאופטימיזציה ולאבחון של עומסי עבודה של AI ו-ML ב- Google Cloud. אפשר להשתמש ב-ML Diagnostics כדי לאסוף את כל המדדים, ההגדרות והפרופילים של עומס העבודה ולהציג אותם בפלטפורמה אחת. הכלי ML Diagnostics מתאים לעומסי עבודה של אימון ושל היקשים, והוא תואם לכל כלי התיזמור ב-Cloud TPU, כולל Google Kubernetes Engine ‏ (GKE) וכלי תיזמור בהתאמה אישית. התכונות של ML Diagnostics כוללות:

  • הרצות של למידת מכונה: אפשר להשתמש ב-ML Diagnostics כדי ליצור ולרשום הרצות של למידת מכונה באמצעות Google Cloud CLI, או לשלב את ML Diagnostics SDK עם עומס העבודה. אתם יכולים לפרוס מופעים מנוהלים של XProf עם ההרצות של למידת המכונה, ולאסוף ולנהל מדדים של עומסי עבודה, הגדרות וסשנים של פרופילים.
  • חוויית השימוש ב-CLI של gcloud: אפשר להשתמש ב-ML Diagnostics APIs דרך gcloud CLI כדי לרשום ולנהל ריצות, לפרוס משאבי XProf מנוהלים, להציג סשנים של פרופילים בקטגוריות אחסון ולהפעיל לכידות של פרופילים מ-CLI.
  • Python SDK: אפשר להשתמש ב-ML Diagnostics SDK בקוד פתוח שמשולב עם עומסי עבודה של ML כדי לקבל חוויית אבחון מלאה של עומסי עבודה של ML. איסוף וניהול של מדדים, הגדרות ופרופילים של עומסי עבודה ב- Google Cloud.
  • יצירת פרופילים מנוהלת: הכלי ML Diagnostics פורס מופע מנוהל של XProf עם קצה עורפי (backend) ניתן להרחבה בחשבונות משויכים, וכך מאפשר טעינה מהירה של פרופילים גדולים. הוא תומך בכמה משתמשים שגישתם לפרופילים מתבצעת בו-זמנית, ויש בו תכונות מובנות כמו יצירת פרופילים של כמה מארחים ויצירת פרופילים לפי דרישה.
  • מדדים של עומסי עבודה: מעקב אחרי מדדים של עומסי עבודה, כולל איכות המודל, ביצועי המודל ומדדי המערכת.
  • ניהול הגדרות של עומסי עבודה: מעקב אחרי הגדרות של עומסי עבודה, כולל הגדרות תוכנה, הגדרות מערכת והגדרות שהוגדרו על ידי המשתמש.
  • הדמיות ב-Cluster Director וב-GKE: אפשר להציג באופן חזותי מדדים, הגדרות ופרופילים ב-Cluster Director וב-Google Kubernetes Engine במסוף Google Cloud .
  • שיתוף באמצעות קישור: שיתוף פעולה באמצעות קישורים שניתנים לשיתוף לפרופילים ולמידע על הרצות של למידת מכונה.

נתיבי משתמש

אפשר להשתמש בפלטפורמת ML Diagnostics דרך ה-SDK או ה-CLI. בעזרת ה-CLI, אפשר להשתמש ב-ML Diagnostics gcloud CLI כדי ליצור הרצה של למידת מכונה ולפרוס את משאבי XProf המנוהלים. כדי לאסוף ולנהל מדדים והגדרות של עומסי עבודה של ML, ולפרוס משאבי XProf מנוהלים, צריך לשלב את ה-SDK של ML Diagnostics בעומס העבודה של ה-ML.

כדי להתחיל, אפשר להיעזר באחד מהמדריכים הבאים:

פרופילים מנוהלים באמצעות XProf

כשמשתמשים ב-CLI או ב-SDK, אפשר לקבל חוויית פרופיל מנוהלת באמצעות XProf. ‫XProf הוא כלי בקוד פתוח ליצירת פרופילים ולניתוח ביצועים של עומסי עבודה של למידת מכונה, והוא חלק מהסביבה העסקית של OpenXLA.

היתרונות של חוויית פרופילים מנוהלת בהשוואה לחוויית פרופילים באירוח עצמי כוללים:

  • אין צורך בהגדרה של XProf או של תלויות אחרות.
  • אבטחה טובה יותר והגנה מפני נקודות חולשה.
  • קישורים שניתן לשתף לעבודה משותפת.
  • טעינה מהירה יותר של פרופילים גדולים.
  • תמיכה בכמה משתמשים שניגשים בו-זמנית לפרופילים עם שינוי גודל אוטומטי של משאבים על סמך עומס הגישה לקישור.
  • תכונות מובנות כמו יצירת פרופילים של כמה מארחים ויצירת פרופילים על פי דרישה.
  • טעינת כמה סשנים של פרופילים בכמה הפעלות עם אותו מופע מנוהל של XProf.
  • אין חיוב על משאבי XProf מנוהלים שנפרסים על ידי פלטפורמת ML Diagnostics, ולכן השימוש ב-XProf מנוהל הוא חסכוני יותר מאשר אירוח עצמי של XProf.

דרישות מוקדמות

לפני שמשתמשים ב-ML Diagnostics, צריך להפעיל את Cluster Director API ולהוסיף את הרשאות ה-IAM הנדרשות. אם אתם משתמשים ב-GKE, אתם צריכים גם להגדיר את אשכול GKE ולתייג את עומס העבודה של GKE. מידע נוסף זמין במאמר בנושא הגדרת GKE.

הפעלת Cluster Director API

לא צריך להשתמש ב-Cluster Director כדי לפרוס ולנהל את האשכולות כדי להשתמש במוצר ML Diagnostics. הכלי ML Diagnostics פועל עם אשכולות שמנוהלים על ידי GKE,‏ Cluster Director או כלי תזמור בהתאמה אישית. ‫ML Diagnostics הוא חלק ממשפחת ממשקי ה-API של Cluster Director, אבל הוא לא תלוי בכך שהמשתמשים ישתמשו במוצר Cluster Director עצמו.

מידע נוסף על הפעלת Cluster Director API זמין במאמר הפעלת API בפרויקט. Google Cloud

הרשאות IAM

חשבון השירות Google Cloud שמשמש את עומס העבודה שלכם צריך את תפקידי ה-IAM הבאים שמוקצים בפרויקט.

אם משתמשים ב-ML Diagnostics SDK:

  • roles/clusterdirector.editor: גישה מלאה ליצירה ולניהול של משאבי MLRun ולצפייה בממשק המשתמש.
  • roles/logging.logWriter: כדי לכתוב יומנים ומדדים ב-Cloud Logging.
  • roles/storage.objectUser: כדי לשמור פרופילים בקטגוריית Cloud Storage שצוינה ב-machinelearning_run.

אם משתמשים ב-CLI של gcloud של ML Diagnostics:

  • roles/storage.objectUser: כדי לשמור פרופילים בקטגוריית Cloud Storage שצוינה ב-machinelearning_run.

לעומסי עבודה ב-Google Kubernetes Engine, משתמשים ב-Workload Identity Federation כדי לשייך חשבון שירות של Kubernetes לחשבון שירות Google Cloud שקיבל את התפקידים הנדרשים.

תמחור

החיוב על אחסון מדדים מתבצע דרך Cloud Logging, והחיוב על אחסון פרופילים מתבצע דרך Cloud Storage. אין צורך להפעיל חיוב נוסף עבור השירותים האלה כשמשתמשים בפלטפורמת ML Diagnostics. אין חיוב על משאבי XProf מנוהלים שנפרסו על ידי פלטפורמת ML Diagnostics.