Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

משאבי מחשוב

אם אתם רוצים לקבל גישה לאשכולות אימון ב-Vertex AI, אתם יכולים לפנות לנציג המכירות שלכם.

אפשר להשתמש במגוון סוגי מכונות באשכולות האימון של Vertex AI כדי להתאים לעומסי עבודה שונים. כשמגדירים את מאגרי הצמתים של האשכול, אפשר לבחור מבין האפשרויות הבאות:

a4-highgpu-8g
a4x-highgpu-4g
a3-ultragpu-8g
a3-megagpu-8g
משפחת מעבדים n2

סוג מכונה A4X

אשכולות האימון של Vertex AI תומכים בסוג המכונה A4X שעבר אופטימיזציה להאצה (a4x-highgpu-4g), פלטפורמה בקנה מידה אקססקייל שמבוססת על ארכיטקטורת מתלים של NVIDIA GB200 NVL72.

השוואה בין ארכיטקטורות

בטבלה הבאה מפורטים ההבדלים הבסיסיים בחומרה בין משפחת A4X לבין משפחות אחרות שעברו אופטימיזציה להאצה.

תכונה	A4X (a4x-highgpu-4g)	A3 / A4H
ארכיטקטורת CPU	ARM	X86
מספר יחידות ה-GPU	‫4 יחידות GPU לכל צומת	‫8 יחידות GPU לכל צומת
סוג ההזמנה	כל מצבי הקיבולת	מצב מנוהל
מדיניות בנושא מיקומי מודעות	מחמיר (קומפקטי)	גמישות

הנחיות ספציפיות ל-A4X

מספר מכונות ה-VM במאגר הצמתים A4X צריך להיות כפולה של 18 (לדוגמה, 18, ‏ 36, ‏ 54). זהו שדה חובה כי הקיבולת של A4X מוקצה בבלוקים קבועים של 18 צמתים שלא ניתן לשתף, שנקראים דומייני NVLink. הדומיינים האלה כפופים למדיניות למיקום קומפקטי קפדנית, ואי אפשר להשתמש בחלקים של בלוקים שהוקצו על ידי אשכולות אחרים.
בגלל הארכיטקטורה מבוססת-ARM של צמתי A4X, צריך לבצע שני שינויים מרכזיים בעומסי העבודה של האימון:
- שימוש בקובצי אימג' שתואמים ל-ARM: כל משימות האימון צריכות להשתמש בקובץ אימג' של קונטיינר שנבנה לארכיטקטורת ARM.
- התאמה ל-4 יחידות GPU: צריך לעדכן את הלוגיקה של האימון המבוזר כדי שתזהה ותשתמש נכון ב-4 יחידות ה-GPU שזמינות בכל צומת A4X.
תהליך הדיווח על מארח פגום וזמן השבתה כשמדווחים על מארח פגום, חשוב להכיר את תהליך השחזור הבא:
- אין קיבולת המתנה: המערכת לא משתמשת במאגר חלקי חילוף במצב המתנה להחלפת צומת מיידית.
- שחזור על בסיס תיקון: הצומת נשאר לא זמין עד שהמארח הפיזי הבסיסי מתוקן.
- השבתה ממושכת: תהליך התיקון הזה נמשך בדרך כלל 3 עד 14 ימים.

הקצאת קיבולת

בחירת מודל ההקצאה הנכון היא קריטית כדי ליצור איזון בין עלות, מהירות וזמינות של משאבים. אלה אפשרויות ההקצאה:

‫RESERVATION: הקצאת צמתים מהזמנה ספציפית של Compute Engine שיצרתם מראש. המודל הזה מבטיח קיבולת והוא מומלץ למשאבים שיש להם ביקוש גבוה.
‫FLEX_START: משתמש ב-Dynamic Workload Scheduler כדי להוסיף את העבודה לתור. העבודה מתחילה באופן אוטומטי ברגע שמשאבי המחשוב המבוקשים זמינים, כך שזמן ההתחלה גמיש ולא צריך לבצע הזמנה.
‫SPOT: הקצאת מאגר הצמתים באמצעות מכונות וירטואליות במודל Spot. זו האפשרות הכי חסכונית, אבל כדאי להשתמש בה רק לעומסי עבודה שיכולים להתמודד עם תקלות והפרעות, כי יכול להיות שהמכונות הווירטואליות יידחקו בכל רגע.
‫ON_DEMAND: זוהי אפשרות ברירת המחדל למאגרי צמתים עם מעבד בלבד, והיא מתאימה במיוחד לסוגי מכונות שלא חסרות. הוא מספק מופעי VM רגילים עם תמחור צפוי לפי שימוש.

ההנחיות הבאות יעזרו לכם לבחור:

למשאבי GPU עם ביקוש גבוה (כמו A3 ו-A4): מומלץ מאוד להשתמש במודל RESERVATION. הוא מבטיח לכם גישה ייעודית לקיבולת שאתם צריכים למשימות אימון קריטיות.
לעומסי עבודה עם שימוש לא קבוע או גמיש: כדאי לשקול שימוש ב-FLEX_START או ב-SPOT. ‫FLEX_START מוסיף את העבודה שלכם לתור עד שהמשאבים יהיו זמינים, ואילו SPOT מאפשר לכם לחסוך בעלויות של עבודות עמידות בכשלים שיכולות להתמודד עם הפסקה זמנית.
לסוגי מכונות רבים: מודל ON_DEMAND הוא הבחירה המועדפת. אפשר להשתמש בו לסוגי מכונות שלא חסרות ושהזמינות המיידית שלהן לא חשובה.

שימוש בהזמנה משותפת (אופציונלי)

אם אתם רוצים להשתמש בהזמנה משותפת במקום בהזמנה מקומית, תצטרכו לבצע שלבים נוספים לפני שתוכלו ליצור אשכול.

לפני שמשתמשים בשמירת מקום משותפת עם אשכולות אימון של Vertex AI, צריך לוודא שהיא פועלת. לשם כך, יוצרים באופן ידני מכונה וירטואלית שמשתמשת בשמירת המקום המשותפת. אם יצירת המכונה הווירטואלית הזו עובדת, עוברים לשלב הבא. בהגדרות ליצירת האשכול, משתמשים בשם ההזמנה בפורמט הבא: projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME.

המאמרים הבאים

אחרי שבוחרים את אפשרויות החישוב וההקצאה של אשכול האימון, אפשר ליצור את האשכול ולהריץ בו עומס עבודה.

יצירת הזמנה ב-Compute Engine: נעשה שימוש במודל RESERVATION להקצאת משאבים שיש להם ביקוש גבוה, כמו יחידות GPU. כדי לקבל גישה ייעודית למשאבים שאתם צריכים, אתם יכולים ליצור שמירת מקום חדשה ב-Compute Engine.
- איך יוצרים הזמנה
יוצרים את אשכול האימון: פועלים לפי המדריך המפורט ליצירת אשכול אימון מתמשך ראשון באמצעות Vertex AI API או gcloud כדי להחיל את ההגדרות שלמדתם עליהן.
- איך יוצרים אשכול אימון
שולחים משימת אימון לאשכול: אחרי שהאשכול פעיל, השלב הבא הוא להריץ עומס עבודה. שולחים CustomJob שמטרתו להפעיל את האשכול המתמשך.
- איך מריצים משימה באשכול אימון
התאמת הקוד לאימון מבוזר: כדי לנצל את היתרונות של אשכול מרובה צמתים, צריך להתאים את קוד האימון לסביבה מבוזרת.
- מידע על אימון מבוזר ב-Vertex AI

משאבי מחשוב קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.