אפשר להשתמש במגוון סוגי מכונות באשכולות האימון של Vertex AI כדי להתאים לעומסי עבודה שונים. כשמגדירים את מאגרי הצמתים של האשכול, אפשר לבחור מבין האפשרויות הבאות:
- a4-highgpu-8g
- a4x-highgpu-4g
- a3-ultragpu-8g
- a3-megagpu-8g
- משפחת מעבדים n2
סוג מכונה A4X
אשכולות האימון של Vertex AI תומכים בסוג המכונה A4X שעבר אופטימיזציה להאצה (a4x-highgpu-4g), פלטפורמה בקנה מידה אקססקייל שמבוססת על ארכיטקטורת מתלים של NVIDIA GB200 NVL72.
השוואה בין ארכיטקטורות
בטבלה הבאה מפורטים ההבדלים הבסיסיים בחומרה בין משפחת A4X לבין משפחות אחרות שעברו אופטימיזציה להאצה.
| תכונה | A4X (a4x-highgpu-4g) | A3 / A4H |
|---|---|---|
| ארכיטקטורת CPU | ARM | X86 |
| מספר יחידות ה-GPU | 4 יחידות GPU לכל צומת | 8 יחידות GPU לכל צומת |
| סוג ההזמנה | כל מצבי הקיבולת | מצב מנוהל |
| מדיניות בנושא מיקומי מודעות | מחמיר (קומפקטי) | גמישות |
הנחיות ספציפיות ל-A4X
- מספר מכונות ה-VM במאגר הצמתים A4X צריך להיות כפולה של 18 (לדוגמה, 18, 36, 54). זהו שדה חובה כי הקיבולת של A4X מוקצה בבלוקים קבועים של 18 צמתים שלא ניתן לשתף, שנקראים דומייני NVLink. הדומיינים האלה כפופים למדיניות למיקום קומפקטי קפדנית, ואי אפשר להשתמש בחלקים של בלוקים שהוקצו על ידי אשכולות אחרים.
- בגלל הארכיטקטורה מבוססת-ARM של צמתי A4X, צריך לבצע שני שינויים מרכזיים בעומסי העבודה של האימון:
- שימוש בקובצי אימג' שתואמים ל-ARM: כל משימות האימון צריכות להשתמש בקובץ אימג' של קונטיינר שנבנה לארכיטקטורת ARM.
- התאמה ל-4 יחידות GPU: צריך לעדכן את הלוגיקה של האימון המבוזר כדי שתזהה ותשתמש נכון ב-4 יחידות ה-GPU שזמינות בכל צומת A4X.
- תהליך הדיווח על מארח פגום וזמן השבתה
כשמדווחים על מארח פגום, חשוב להכיר את תהליך השחזור הבא:
- אין קיבולת המתנה: המערכת לא משתמשת במאגר חלקי חילוף במצב המתנה להחלפת צומת מיידית.
- שחזור על בסיס תיקון: הצומת נשאר לא זמין עד שהמארח הפיזי הבסיסי מתוקן.
- השבתה ממושכת: תהליך התיקון הזה נמשך בדרך כלל 3 עד 14 ימים.
הקצאת קיבולת
בחירת מודל ההקצאה הנכון היא קריטית כדי ליצור איזון בין עלות, מהירות וזמינות של משאבים. אלה אפשרויות ההקצאה:
RESERVATION: הקצאת צמתים מהזמנה ספציפית של Compute Engine שיצרתם מראש. המודל הזה מבטיח קיבולת והוא מומלץ למשאבים שיש להם ביקוש גבוה.
FLEX_START: משתמש ב-Dynamic Workload Scheduler כדי להוסיף את העבודה לתור. העבודה מתחילה באופן אוטומטי ברגע שמשאבי המחשוב המבוקשים זמינים, כך שזמן ההתחלה גמיש ולא צריך לבצע הזמנה.
SPOT: הקצאת מאגר הצמתים באמצעות מכונות וירטואליות במודל Spot. זו האפשרות הכי חסכונית, אבל כדאי להשתמש בה רק לעומסי עבודה שיכולים להתמודד עם תקלות והפרעות, כי יכול להיות שהמכונות הווירטואליות יידחקו בכל רגע.
ON_DEMAND: זוהי אפשרות ברירת המחדל למאגרי צמתים עם מעבד בלבד, והיא מתאימה במיוחד לסוגי מכונות שלא חסרות. הוא מספק מופעי VM רגילים עם תמחור צפוי לפי שימוש.
ההנחיות הבאות יעזרו לכם לבחור:
למשאבי GPU עם ביקוש גבוה (כמו A3 ו-A4): מומלץ מאוד להשתמש במודל
RESERVATION. הוא מבטיח לכם גישה ייעודית לקיבולת שאתם צריכים למשימות אימון קריטיות.לעומסי עבודה עם שימוש לא קבוע או גמיש: כדאי לשקול שימוש ב-
FLEX_STARTאו ב-SPOT. FLEX_STARTמוסיף את העבודה שלכם לתור עד שהמשאבים יהיו זמינים, ואילוSPOTמאפשר לכם לחסוך בעלויות של עבודות עמידות בכשלים שיכולות להתמודד עם הפסקה זמנית.לסוגי מכונות רבים: מודל
ON_DEMANDהוא הבחירה המועדפת. אפשר להשתמש בו לסוגי מכונות שלא חסרות ושהזמינות המיידית שלהן לא חשובה.
שימוש בהזמנה משותפת (אופציונלי)
אם אתם רוצים להשתמש בהזמנה משותפת במקום בהזמנה מקומית, תצטרכו לבצע שלבים נוספים לפני שתוכלו ליצור אשכול.
לפני שמשתמשים בשמירת מקום משותפת עם אשכולות אימון של Vertex AI, צריך לוודא שהיא פועלת. לשם כך, יוצרים באופן ידני מכונה וירטואלית שמשתמשת בשמירת המקום המשותפת.
אם יצירת המכונה הווירטואלית הזו עובדת, עוברים לשלב הבא.
בהגדרות ליצירת האשכול, משתמשים בשם ההזמנה בפורמט הבא:
projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME.
המאמרים הבאים
אחרי שבוחרים את אפשרויות החישוב וההקצאה של אשכול האימון, אפשר ליצור את האשכול ולהריץ בו עומס עבודה.
- יצירת הזמנה ב-Compute Engine: נעשה שימוש במודל
RESERVATIONלהקצאת משאבים שיש להם ביקוש גבוה, כמו יחידות GPU. כדי לקבל גישה ייעודית למשאבים שאתם צריכים, אתם יכולים ליצור שמירת מקום חדשה ב-Compute Engine. - יוצרים את אשכול האימון: פועלים לפי המדריך המפורט ליצירת אשכול אימון מתמשך ראשון באמצעות Vertex AI API או
gcloudכדי להחיל את ההגדרות שלמדתם עליהן. - שולחים משימת אימון לאשכול: אחרי שהאשכול פעיל, השלב הבא הוא להריץ עומס עבודה. שולחים
CustomJobשמטרתו להפעיל את האשכול המתמשך. - התאמת הקוד לאימון מבוזר: כדי לנצל את היתרונות של אשכול מרובה צמתים, צריך להתאים את קוד האימון לסביבה מבוזרת.