סקירה כללית על אשכולות אימון של Vertex AI

אם אתם רוצים לקבל גישה לאשכולות אימון ב-Vertex AI, אתם יכולים לפנות לנציג המכירות שלכם.

אשכולות אימון של Vertex AI הם שירות של Google Cloud שמיועד לפשט ולהאיץ את עומסי העבודה הגדולים והמורכבים ביותר של AI/ML. הוא נועד במיוחד לתת מענה לאתגרים בהדרכה בקנה מידה גדול, כמו הגדרה מורכבת של אשכולות, אופטימיזציה של מסגרות, טיפול בכשלים בחומרה ושילוב של ערכות כלים שונות.

הצעת הערך והתכונות העיקריות

לשימוש באשכולות אימון של Vertex AI יש כמה יתרונות מרכזיים:

  • חוויית משתמש של Slurm בקוד פתוח ושקיפות של אשכולות: אשכולות של Vertex AI Training מספקים כלים מוכרים וגמישים להפעלת משימות ולניהול שלהן באמצעות חוויית משתמש של Slurm בקוד פתוח. ‫Slurm הוא תקן בתעשייה שמוכר בזכות אופטימיזציה של תזמון GPU, סבילות לתקלות אוטומטית והפעלה פשוטה של עבודות מקבילות.

  • הגדרה וקביעת תצורה אוטומטיות של אשכולות: אשכולות האימון של Vertex AI מבצעים אוטומטית את ההגדרה ואת קביעת התצורה של האשכולות, במטרה לעבור מהזמנה לאימון בייצור תוך שעות. משתמשים יכולים ליצור אשכולות באמצעות Google Cloud המסוף (באמצעות ארכיטקטורות הפניה או הגדרה שלב אחר שלב) או באמצעות קריאות ל-API עם קובצי JSON.

  • מתכונים וזרימות עבודה מוגדרים מראש למדע נתונים: אשכולות האימון של Vertex AI כוללים כלים ייעודיים ומתכוני אימון אופטימליים כדי להתחיל לאמן מודלים לתרחישי שימוש פופולריים כמו מודלים של Llama ו-Gemma. האימון כולל אימון מוקדם, SFT (כוונון מפוקח) ו-RL (למידת חיזוק). המתכונים האלה מוגדרים מראש לביצועים מתקדמים (SOTA) בתשתית, ומציגים שיפורים משמעותיים בביצועים. Google Cloud

  • עמידות של החומרה וזמינות גבוהה: אשכולות האימון של Vertex AI מתוכננים עם עמידות של החומרה כדי לשפר את הזמינות של האשכול. הוא פותר אוטומטית בעיות בחומרה, מזהה וממיין מצבי כשל שונים (לדוגמה, בדיקות נכונות, בדיקות מהירות, שגיאות של קוד לתיקון שגיאות (ECC), בדיקות של NVIDIA Data Center GPU Manager ‏ (DCGM), קיבולת של נפח אחסון בדיסק), ומפעיל פעולות לתיקון בעיות כמו הפעלה מחדש, יצירת תמונה מחדש או החלפה של צמתים פגומים, והמשך הפעולה מנקודות ביקורת. כך אפשר לצמצם את העלייה המשמעותית בעלויות ואת העיכובים שנגרמים כתוצאה מהפסקות בעבודה ומכשלים בחומרה במהלך אימון בקנה מידה גדול.

  • ארכיטקטורה ורכיבים: אשכולות האימון של Vertex AI פועלים על תשתית Compute Engine שתומכת ב-GPU וב-CPU. הוא משתמש ב-Slurm orchestrator מנוהל לפריסה ולניהול של צמתי מחשוב, כולל צמתי התחברות וצמתי עובדים. השירות משולב עם שירותים אחרים של Google Cloud , כמו רשת ואחסון.

  • MLOps ו-Observability: משתלב עם כלי Vertex ML Ops כמו מרשם המודלים של Vertex AI לרישום, מעקב וניהול גרסאות אוטומטיים של תהליכי עבודה מאומנים, ו-Vertex AI Inference לפריסה עם התאמה אוטומטית לעומס ומדדים אוטומטיים. בנוסף, יש באשכולות האימון שילוב אוטומטי של יכולות ניטור עם Vertex AI TensorBoard, כדי להמחיש את תהליכי האימון, לעקוב אחרי מדדים ולזהות בעיות בשלב מוקדם.

אפשר ליצור, לאחזר, לרשום, לעדכן ולמחוק אשכולות אימון באמצעות Vertex AI training clusters API. אחרי יצירת האשכול, המשתמשים יכולים להתחבר לצמתים, להריץ פקודות Slurm בסיסיות (לדוגמה, sinfo,‏ sbatch) ולהריץ עומסי עבודה שקשורים ל-GPU (לדוגמה, nvidia-smi) כדי לוודא שהאשכול פועל. הכלי Cluster Health Scanner (סורק תקינות האשכול, CHS) מותקן מראש כדי להריץ בדיקות אבחון כמו בדיקות DCGM ו-NCCL, וכך לוודא שהאשכול מוכן.

אשכולות האימון של Vertex AI מספקים API להפעלת משימות של מודלים גדולים של שפה (LLM) מוכנים מראש באמצעות מתכונים אופטימליים למודלים כמו Llama ו-Gemma, עם תמיכה באימון מוקדם ובאימון מוקדם רציף מנקודות ביקורת. אפשר לעקוב אחרי משימות על ידי התחברות לצומת הכניסה ובדיקת קובצי הפלט ופקודות Slurm כמו squeue.

הסברים על המונחים

בקטע הזה מוגדרים מונחים ומושגים חשובים שצריך להכיר כדי להבין את אשכולות האימון ב-Vertex AI ולהשתמש בהם בצורה יעילה. המונחים האלה כוללים רכיבי שירות ליבה, שיקולים ארכיטקטוניים, טכנולוגיות אחסון משולבות ומושגים בסיסיים של למידת מכונה (ML) ו-MLOps שמהווים את הבסיס לסביבת האימון שלכם.

מושגי ליבה בשירות

node
  • מכונה וירטואלית אחת (מכונה וירטואלית של Compute Engine) באשכול. בהקשר של אימון מנוהל באשכולות שמורים, צומת מתייחס למכונה וירטואלית (VM) ספציפית שמשמשת כיחידת חישוב יחידה באשכול. אפשר לחשוב על זה כאחת ממכונות ה-worker הייעודיות שמריצות חלק ממשימת האימון הכוללת. כל צומת מצויד במשאבים ספציפיים כמו CPU, זיכרון ומאיצים (לדוגמה, GPU מסוג A3 או A4), וכולם פועלים יחד בצורה מתואמת כדי לטפל במשימות אימון מבוזרות בקנה מידה גדול.
login node
  • צומת התחברות הוא נקודת הכניסה הראשית של משתמש כדי לגשת לאשכול, לשלוח עבודות ולנהל קבצים. מידע נוסף זמין במאמר מהו מחשוב עתיר ביצועים?
partition
  • ב-Slurm, קבוצה לוגית של צמתים, שמשמשת לעיתים קרובות להפרדה בין צמתים עם הגדרות חומרה שונות.
מתכון
  • בהקשר של Managed Training, מתכון הוא חבילה מקיפה וניתנת לשימוש חוזר שמכילה את כל מה שצריך כדי להריץ עומס עבודה ספציפי של אימון בקנה מידה גדול.
אשכול Slurm
  • אוסף של מופעי Compute Engine שמנוהלים על ידי Slurm, שכולל צומת כניסה וכמה צמתים של עובדים שהוגדרו להרצת משימות אימון. מידע נוסף זמין במאמר הכלי לניהול עומסי עבודה Slurm.
צומת עובד
  • צומת עובד הוא מכונה או מופע חישובי בתוך אשכול, שאחראי להפעלת משימות או לביצוע עבודה. במערכות כמו אשכולות Kubernetes או Ray, הצמתים הם יחידות המחשוב הבסיסיות. מידע נוסף זמין במאמר מהו מחשוב עתיר ביצועים (HPC)?

ארכיטקטורה ורשתות

רשת VPC של צרכן
  • רשת VPC של צרכן היא ענן וירטואלי פרטי (VPC) ב-Google Cloud, שמקבל גישה פרטית לשירות שמארח ב-VPC אחר (שנקרא VPC של ספק). מידע נוסף זמין במאמר Private Service Connect.
יחידת שידור מקסימלית (MTU)
  • הגודל המקסימלי של מנת נתונים שמכשיר שמחובר לרשת יכול לשדר. גדלים גדולים יותר של MTU (מסגרות ג'מבו) יכולים לשפר את ביצועי הרשת עבור עומסי עבודה מסוימים. מידע נוסף זמין במאמר בנושא יחידת שידור מקסימלית.
גישה לשירותים פרטיים
  • גישה לשירותים פרטיים היא חיבור פרטי בין הרשת של הענן הווירטואלי הפרטי (VPC) שלכם לבין רשתות בבעלות Google או ספקי שירותים של צד שלישי. היא מאפשרת למכונות וירטואליות ברשת ה-VPC לתקשר עם השירותים האלה באמצעות כתובות IP פנימיות, וכך להימנע מחשיפה לאינטרנט הציבורי. מידע נוסף זמין במאמר גישה לשירותים פרטיים.
קישור בין רשתות VPC שכנות (peering)
  • חיבור רשת שמאפשר לשתי רשתות VPC לתקשר באופן פרטי. בהקשר של Managed Training באשכולות שמורים, קישור בין רשתות VPC שכנות (peering) הוא רכיב קריטי לשילוב שירותים חיוניים. לדוגמה, זו השיטה הנדרשת לחיבור ה-VPC של האשכול למופע Filestore, שמספק את ספריית ה-‎/home המשותפת הנדרשת לכל הצמתים באשכול.
zone
  • אזור פריסה ספציפי בתוך אזור Google Cloud. במסגרת Managed Training באשכולות שמורים, כדי לקבל את הביצועים הכי טובים, צריך ליצור את כל הרכיבים של השירות (האשכול, Filestore והמכונות ב-Managed Lustre) באותו אזור.

טכנולוגיות אחסון משולבות

Cloud Storage Fuse
  • מתאם FUSE בקוד פתוח שמאפשר לטעון קטגוריות של Cloud Storage כמערכת קבצים במערכות Linux או macOS. מידע נוסף מופיע במאמר בנושא Cloud Storage Fuse.
Filestore
  • שירות אחסון קבצים מנוהל לחלוטין עם ביצועים גבוהים מ-Google Cloud, שמשמש לעיתים קרובות לאפליקציות שנדרשת בהן מערכת קבצים משותפת. מידע נוסף מופיע במאמר סקירה כללית על Filestore.
Managed Lustre
  • מערכת קבצים מקבילית ומבוזרת שמיועדת למחשוב עתיר ביצועים. ‫Managed Lustre של Google Cloud מספק מערכת קבצים עם תפוקה גבוהה לעומסי עבודה תובעניים. מידע נוסף מופיע במאמר סקירה כללית על Managed Lustre.
שכבת ביצועים
  • הגדרת תצורה של מופע Managed Lustre שמגדירה את מהירות התפוקה שלו (ב-MBps לכל TiB) ומשפיעה על הקיבולת המינימלית והמקסימלית שלו.

מושגים מרכזיים ב-ML וב-MLOps

נקודת ביקורת
  • נתונים שמתעדים את מצב הפרמטרים של מודל במהלך האימון או אחרי שהאימון מסתיים. לדוגמה, במהלך האימון, אתם יכולים: 1. להפסיק את האימון, אולי בכוונה או אולי כתוצאה משגיאות מסוימות. 2. מצלמים את נקודת הביקורת. 3. בשלב מאוחר יותר, טוענים מחדש את נקודת הבדיקה, אולי בחומרה אחרת. 4. להתחיל מחדש את ההדרכה. ב-Gemini, נקודת ביקורת מתייחסת לגרסה ספציפית של מודל Gemini שאומנה על מערך נתונים ספציפי.
כוונון עדין מפוקח (SFT)
  • טכניקה של למידת מכונה שבה מודל שאומן מראש עובר אימון נוסף על מערך נתונים קטן יותר ומתויג, כדי להתאים אותו למשימה ספציפית.
Vertex AI Inference
  • שירות Vertex AI שמאפשר להשתמש במודל מאומן של למידת מכונה (ML) כדי להסיק מסקנות מנתונים חדשים שלא נראו קודם. ‫Vertex AI מספק שירותים לפריסת מודלים לצורך הסקת מסקנות. מידע נוסף זמין במאמר קבלת מסקנות ממודל שאומן בהתאמה אישית.
מרשם המודלים של Vertex AI
  • מרשם המודלים של Vertex AI הוא מאגר מרכזי שבו אפשר לנהל את מחזור החיים של מודלים של למידת מכונה. במרשם המודלים של Vertex AI, תוכלו לראות סקירה כללית של המודלים שלכם כדי לארגן אותם טוב יותר, לעקוב אחריהם ולאמן גרסאות חדשות. אם יש לכם גרסת מודל שאתם רוצים לפרוס, אתם יכולים להקצות אותה לנקודת קצה ישירות מהמאגר, או לפרוס מודלים לנקודת קצה באמצעות שמות חלופיים. מידע נוסף זמין במאמר מבוא למרשם המודלים של Vertex AI.
Vertex AI TensorBoard
  • ‫Vertex AI TensorBoard הוא שירות מנוהל וניתן להרחבה ב-Google Cloud, שמאפשר למדעני נתונים ולמהנדסי ML להמחיש את הניסויים שלהם בלמידת מכונה, לנפות באגים באימון המודלים ולעקוב אחרי מדדי הביצועים באמצעות הממשק המוכר של TensorBoard בקוד פתוח. הוא משתלב בצורה חלקה עם Vertex AI Training ושירותים אחרים, ומספק אחסון מתמיד לנתוני ניסויים ומאפשר ניתוח משותף של פיתוח מודלים. מידע נוסף זמין במאמר מבוא ל-Vertex AI TensorBoard.