יצירת אשכול Slurm מנוהל במלואו לעומסי עבודה של AI

במאמר הזה מוסבר איך להגדיר ולפרוס אשכול Slurm מנוהל באופן מלא שמשתמש בסוגי מכונות A4X,‏ A4,‏ A3 Ultra,‏ A3 Mega או A3 High. מידע נוסף על סוגי המכונות האלה שממוטבים לשימוש במאיצים זמין במאמר סוגי מכונות עם GPU.

בשלבים שמתוארים במסמך הזה מוסבר איך ליצור אשכול Slurm באמצעות Cluster Director. ‫Cluster Director הוא מוצר Google Cloud שמבצע אוטומטית את ההגדרה והקביעה של אשכולות Slurm. הוא מיועד לאדמינים בתחום ה-IT ולחוקרי AI שרוצים להימנע מהתקורה של ניהול אשכול ולהתמקד בהרצת עומסי העבודה שלהם. אם אתם רוצים יותר שליטה בפריסה ובניהול של האשכול, אתם יכולים ליצור את האשכול באמצעות Cluster Toolkit.

מגבלות

בהתאם לסוג המכונה שבה נעשה שימוש במכונות של Compute Engine באשכול, חלות המגבלות הבאות:

A4X

A4

  • לא מקבלים הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מקרים לדוגמה שבהם נעשה שימוש בסוג מכונה A4.
  • אפשר להשתמש בסוג מכונה A4 רק באזורים ותחומים מסוימים.
  • אי אפשר להשתמש בדיסקים לאחסון מתמיד (persistent disks) (אזוריים או של תחום מוגדר). אפשר להשתמש רק ב-Google Cloud Hyperdisk.
  • סוג המכונה A4 זמין רק בפלטפורמת המעבד Emerald Rapids.
  • אי אפשר לשנות את סוג המכונה של מופע לסוג מכונה A4 או מסוג מכונה A4. צריך ליצור מכונה חדשה עם סוג המכונה הזה.
  • סוגי מכונות A4 לא תומכים בדיירות בלעדית.
  • אי אפשר להריץ מערכות הפעלה של Windows בסוג מכונה A4.
  • במקרים של מופעי A4, כשמשתמשים ב-ethtool -S כדי לעקוב אחרי רשתות GPU, מוני יציאות פיזיות שמסתיימים ב-_phy לא מתעדכנים. זו התנהגות צפויה במקרים שבהם נעשה שימוש בארכיטקטורה של פונקציה וירטואלית (VF) של MRDMA. מידע נוסף זמין במאמר פונקציות MRDMA וכלים לניטור רשת.
  • אי אפשר לצרף דיסקים של Hyperdisk ML שנוצרו לפני 4 בפברואר 2026 לסוגי מכונות A4.

A3 Ultra

  • לא תקבלו הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מכונות וירטואליות מסוג A3 Ultra.
  • אפשר להשתמש בסוג המכונה A3 Ultra רק באזורים ותחומים מסוימים.
  • אי אפשר להשתמש בדיסקים לאחסון מתמיד (persistent disks) (אזוריים או של תחום מוגדר). אפשר להשתמש רק ב-Google Cloud Hyperdisk.
  • סוג המכונה A3 Ultra זמין רק בפלטפורמת המעבד Emerald Rapids.
  • אין תמיכה בשינויים בסוג המכונה עבור סוג המכונה A3 Ultra. כדי לעבור למכונה מהסוג הזה או ממנה, צריך ליצור מופע חדש.
  • אי אפשר להריץ מערכות הפעלה של Windows בסוג מכונה A3 Ultra.
  • סוגי המכונות A3 Ultra לא תומכים בדיירות בלעדית.
  • במקרים של מופעי A3 Ultra, כשמשתמשים ב-ethtool -S כדי לעקוב אחרי רשתות GPU, מוני יציאות פיזיות שמסתיימים ב-_phy לא מתעדכנים. זו התנהגות צפויה במקרים שבהם נעשה שימוש בארכיטקטורת MRDMA Virtual Function ‏ (VF). מידע נוסף זמין במאמר פונקציות MRDMA וכלים לניטור רשת.

A3 Mega

A3 High

לפני שמתחילים

לפני שיוצרים אשכול Slurm, אם עדיין לא עשיתם זאת, צריך לבצע את השלבים הבאים:

  1. בחירת אפשרות צריכה: האפשרות שתבחרו לצריכה תקבע איך תקבלו גישה למשאבי GPU ואיך תשתמשו בהם. מידע נוסף זמין במאמר בנושא בחירת אפשרות צריכה.
  2. קבלת קיבולת: התהליך לקבלת קיבולת שונה לכל אפשרות צריכה. כדי לקבל מידע על התהליך להשגת קיבולת לאפשרות הצריכה שבחרתם, אפשר לעיין במאמר סקירה כללית על קיבולת.
  3. מוודאים שיש לכם מספיק מכסת נפח ב-Filestore: לפני הפריסה, צריך לוודא שיש לכם מספיק מכסה ב-Filestore באזור היעד. הקיבולת המינימלית הנדרשת תלויה בסוגי המכונות באשכול:
    • A4X Max,‏ A4X,‏ A4,‏ A3 Ultra ו-A3 Mega: נדרש נפח מינימלי של 10 TiB ‏(10,240 GiB) של HIGH_SCALE_SSD (אזורי).
    • A3 High: נדרש נפח אחסון מינימלי של 2.5 TiB ‏ (2,560 GiB) מסוג BASIC_SSD (סטנדרטי).

    כדי לבדוק את המכסה או לבקש להגדיל אותה, אפשר לעיין במאמרים הבאים:

  4. אימות מדיניות בנושא קובצי אימג' מהימנים: אם בארגון שבו הפרויקט קיים יש מדיניות בנושא קובצי אימג' מהימנים (constraints/compute.trustedImageProjects), צריך לוודא שהפרויקט clusterdirector-public-images נכלל ברשימת הפרויקטים המותרים. מידע נוסף זמין במאמר בנושא הגדרת מדיניות תמונות מהימנה.

התפקידים הנדרשים

כדי ליצור אשכול Slurm, אתם צריכים את תפקידי ה-IAM וההרשאות הבאים:

יצירת אשכול Slurm

כדי ליצור אשכול שעבר אופטימיזציה ל-AI באמצעות Cluster Director, מבצעים את השלבים הבאים:

  1. הגדרת תצורות של משאבי מחשוב

  2. הגדרת רשת

  3. הגדרת משאבי אחסון

  4. הגדרת סביבת Slurm

הגדרת תצורות של משאבי מחשוב

כדי להגדיר תצורות של משאבי מחשוב כשיוצרים אשכול, מבצעים את השלבים הבאים:

  1. נכנסים לדף Cluster Director במסוף Google Cloud .

    מעבר אל Cluster Director

  2. לוחצים על יצירת אשכול.

  3. בתיבת הדו-שיח שמופיעה, לוחצים על Reference architecture (ארכיטקטורת הפניה). ייפתח הדף Create a cluster.

  4. לוחצים על אחת מהתבניות הזמינות. אפשר גם לערוך את התבנית כדי להתאים אותה לצרכים של עומס העבודה.

  5. לוחצים על התאמה אישית.

  6. בקטע Compute, בשדה Cluster name, מזינים שם לאשכול. השם יכול להכיל עד 10 תווים, והוא יכול לכלול רק ספרות או אותיות קטנות (a-z).

  7. כדי להוסיף מידע להגדרת משאב מחשוב שהוגדרה מראש, או לערוך את המספר והסוג של מופעי מחשוב שההגדרות מציינות, מבצעים את הפעולות הבאות:

    1. בקטע Compute, לוחצים על Edit resource configuration. מופיע החלונית הוספת הגדרת משאב.

    2. אופציונלי: כדי לשנות את השם של הגדרת משאב המחשוב, בשדה Name (שם) מזינים שם חדש.

    3. אופציונלי: כדי לשנות את המספר והסוג של מופעי החישוב שבהם נעשה שימוש באשכול, בקטע Machine configuration, פועלים לפי ההנחיות לעדכון משאבי החישוב.

    4. בקטע אפשרויות צריכה, מציינים את אפשרות הצריכה שבה רוצים להשתמש כדי לקבל משאבים:

      • כדי ליצור מכונות וירטואליות באמצעות הזמנה, מבצעים את הפעולות הבאות:

        1. לוחצים על הכרטיסייה Use reservation.

        2. לוחצים על בחירת הזמנה. מופיע החלונית בחירת הזמנה. אם רוצים להשתמש בהזמנה של מכונות וירטואליות מסוג A4X, אפשר לבחור באפשרות block או sub-block כדי לשלוט במיקום של המכונות הווירטואליות.

        3. בוחרים את ההזמנה שבה רוצים להשתמש. אחר כך לוחצים על בחירה. הפעולה הזו מגדירה באופן אוטומטי את האזור והתחום של משאבי המחשוב.

      • כדי ליצור מכונות וירטואליות עם הפעלה גמישה:

        1. לוחצים על הכרטיסייה Flex start.

        2. בקטע Time limit for the VM, מציינים את משך ההפעלה של מכונות ה-Compute. הערך צריך להיות בין 10 דקות ל-7 ימים.

        3. בקטע Location, בוחרים את האזור שבו רוצים ליצור מכונות וירטואליות עם הפעלה גמישה.Google Cloud המסוף מסנן באופן אוטומטי את האזורים הזמינים כדי להציג רק את האזורים שתומכים במכונות וירטואליות עם הפעלה גמישה עבור סוג המכונה שבחרתם.

      • כדי ליצור מכונות וירטואליות זמניות מסוג Spot:

        1. לוחצים על הכרטיסייה שימוש בנקודות.

        2. ברשימה On VM termination בוחרים באחת מהאפשרויות הבאות:

          • כדי למחוק מכונות וירטואליות מסוג Spot כשהן מפסיקות לפני הזמן, בוחרים באפשרות מחיקה.

          • כדי להפסיק את השימוש במכונות וירטואליות זמניות מסוג Spot כשמתבצעת קדימה, בוחרים באפשרות Stop.

        3. בקטע Location, בוחרים את Region ואת Zone שבהם רוצים ליצור מכונות Spot.Google Cloud המסוף מסנן אוטומטית את האזורים הזמינים כדי להציג רק את האזורים שתומכים במכונות וירטואליות מסוג Spot עבור סוג המכונה שבחרתם.

    5. לוחצים על סיום.

    6. אופציונלי: כדי ליצור הגדרות נוספות של משאבי מחשוב למחיצה, לוחצים על Add resource configuration (הוספת הגדרת משאבים) ופועלים לפי ההנחיות לציון משאבי המחשוב.

  8. לוחצים על Continue.

הגדרת רשת

כדי להגדיר את הרשת שבה האשכול משתמש, מבצעים את השלבים הבאים:

  1. בקטע בחירת רשת של ענן וירטואלי פרטי (VPC), מבצעים אחת מהפעולות הבאות:

    • מומלץ: כדי לאפשר ל-AI Hypercomputer ליצור באופן אוטומטי רשת VPC מוגדרת מראש עבור האשכול, מבצעים את הפעולות הבאות:

      1. בוחרים באפשרות יצירת רשת VPC חדשה.

      2. בשדה Network name, מזינים שם לרשת ה-VPC.

    • כדי להשתמש ברשת VPC קיימת או ברשת VPC משותפת, מבצעים את הפעולות הבאות:

      1. בוחרים באפשרות Use a VPC network in the current project (שימוש ברשת VPC בפרויקט הנוכחי) או באפשרות Use a Shared VPC network hosted in another project (שימוש ברשת VPC משותפת שמתארחת בפרויקט אחר).

      2. ברשימה Select VPC network (בחירת רשת VPC) או Shared VPC network (רשת VPC משותפת), בוחרים רשת VPC או רשת VPC משותפת שעומדת בדרישות ההגדרה.

      3. ברשימה Select subnetwork, בוחרים רשת משנה קיימת.

  2. לוחצים על Continue.

הגדרת משאבי אחסון

כשיוצרים אשכול מתבנית של Cluster Director,‏ Cluster Director מגדיר באופן אוטומטי מופע של Filestore או של Managed Lustre כמשאב האחסון של האשכול.

כדי להוסיף או לערוך את משאבי האחסון שבהם משתמש האשכול, מבצעים את השלבים הבאים בקטע אחסון. מידע נוסף על שירותי האחסון שאפשר להגדיר זמין במאמר שירותי אחסון נתמכים ב-Cluster Director.

  1. אופציונלי: כדי לערוך משאב אחסון, לוחצים על עריכת תוכנית האחסון ופועלים לפי ההנחיות כדי לעדכן את ההגדרות של משאב האחסון.

  2. אופציונלי: כדי להוסיף משאבי אחסון לאשכול, לוחצים על Add storage configuration ופועלים לפי ההנחיות כדי לציין את ההגדרה של משאבי האחסון.

    כדי לראות את שירותי האחסון הזמינים שאפשר להגדיר, אפשר לעיין במאמר שירותי אחסון נתמכים ב-Cluster Director.

  3. לוחצים על Continue.

הגדרת סביבת Slurm

כדי להגדיר את סביבת Slurm באשכול, מבצעים את השלבים הבאים:

  1. אופציונלי: כדי לערוך את המספר ואת הסוג של מופעי המחשוב שבהם משתמש צומת הכניסה, מרחיבים את הקטע Login node ופועלים לפי ההנחיות לעדכון משאבי המחשוב.

  2. אופציונלי: כדי לערוך מחיצות של האשכול כדי לארגן את משאבי המחשוב, מרחיבים את הקטע מחיצות ואז מבצעים אחת מהפעולות הבאות:

    • כדי להוסיף מחיצה, לוחצים על הוספת מחיצה ומבצעים את הפעולות הבאות:

      1. בשדה שם המחיצה, מזינים שם למחיצה.

      2. כדי לערוך קבוצת צמתים, לוחצים על החלפת קבוצת צמתים. אחרת, כדי להוסיף קבוצת צמתים, לוחצים על הוספת קבוצת צמתים.

      3. בשדה Nodeset name, מזינים שם ל-nodeset.

      4. בשדה Resource configuration (הגדרת משאב), בוחרים הגדרת משאב מחשוב שיצרתם בשלבים הקודמים.

      5. ברשימה Source image (תמונת מקור), בוחרים אחת מתמונות מערכת ההפעלה הנתמכות ב-AI Hypercomputer.

      6. בשדה Static node count (מספר צמתים סטטי) מזינים את המספר המינימלי של מופעי מחשוב שצריכים לפעול תמיד באשכול.

      7. בשדה Dynamic node count (מספר צמתים דינמי), מזינים מספר מקסימלי של מופעי מחשוב שאפשר להגדיל את האשכול ב-AI Hypercomputer במהלך עלייה בתנועה.

      8. ברשימה Boot disk type ובשדה Boot disk size, מזינים את הסוג והגודל של דיסק האתחול שמופעי המחשוב ישתמשו בו.

      9. לוחצים על סיום.

    • כדי להסיר מחיצה, לוחצים על מחיקת מחיצה.

  3. אופציונלי: כדי להוסיף תסריטים של פרולוג או אפילוג לסביבת Slurm, מבצעים את הפעולות הבאות:

    1. מרחיבים את הקטע הגדרות מתקדמות של תזמור.

    2. בקטע Scripts (תסריטים), פועלים לפי ההנחיות להוספת תסריטים.

  4. לוחצים על יצירה. מופיע הדף Clusters. יצירת האשכול יכולה להימשך זמן מה. זמן ההשלמה תלוי במספר מופעי המחשוב שאתם מבקשים ובזמינות המשאבים באזור של מופעי המחשוב. אם המשאבים שביקשתם לא זמינים, AI Hypercomputer שומר את בקשת היצירה עד שהמשאבים יהיו זמינים. כדי לראות את הסטטוס של פעולת יצירת האשכול, צריך להציג את פרטי האשכול.

התחברות לאשכול Slurm

כש-AI Hypercomputer יוצר את צומת הכניסה, מצב האשכול משתנה למוכן. אחרי כן תוכלו להתחבר לאשכול, אבל תוכלו להריץ עומסי עבודה רק אחרי ש-AI Hypercomputer ייצור את צמתי החישוב באשכול.

כדי להתחבר לצומת הכניסה של אשכול באמצעות SSH דרך מסוףGoogle Cloud :

  1. נכנסים לדף Clusters במסוף Google Cloud .

    מעבר אל Clusters

  2. בטבלה Clusters (אשכולות), בעמודה Name (שם), לוחצים על שם האשכול שיצרתם בקטע הקודם. נפתח דף עם פרטי האשכול, והכרטיסייה פרטים מסומנת.

  3. לוחצים על הכרטיסייה Nodes.

  4. בקטע Login nodes (צמתי כניסה), בעמודה Connect (חיבור), מאתרים את צומת הכניסה של האשכול, ששמו CLUSTER_NAME-login-001.

  5. בעמודה Connect בצומת של ההתחברות, לוחצים על הלחצן SSH. ייפתח החלון SSH בדפדפן.

  6. אם מתבקשים, לוחצים על Authorize. ההתחברות לצומת עשויה להימשך עד דקה.

אימות התקינות של אשכול Slurm

לפני שמריצים עבודה בצומת מחשוב, Slurm מריץ אוטומטית בדיקה מהירה של תקינות ה-GPU בצומת. אם הצומת לא עובר את הבדיקה, Slurm מרוקן את הצומת ומונע תזמון של משרות חדשות בו.

כדי לבדוק בצורה יסודית יותר את תקינות ה-GPU ואת רוחב הפס של הרשת בצמתי החישוב במחיצת אשכול, אפשר להריץ ידנית בדיקות של NVIDIA Collective Communications Library (NCCL). אם בדיקת NCCL מזהה צמתים לא תקינים, אפשר לתקן את הצמתים או לשנות את האשכול. בדיקות NCCL עוזרות לוודא שהאשכול תקין לפני שמריצים בו עומסי עבודה קריטיים. מידע נוסף זמין במאמר בנושא אימות התקינות של האשכול.

מחיקת אשכול Slurm

כדי למחוק אשכול Slurm בפרויקט, בוחרים באחת מהאפשרויות הבאות:

  1. נכנסים לדף Clusters במסוף Google Cloud .

    מעבר אל Clusters

  2. בטבלה Clusters (אשכולות), בעמודה Name (שם), לוחצים על שם האשכול שרוצים למחוק. יופיע דף עם פרטי האשכול, והכרטיסייה Details תהיה מסומנת.

  3. לוחצים על מחיקה.

  4. בתיבת הדו-שיח שמופיעה, מזינים את שם האשכול ולוחצים על מחיקה כדי לאשר. מופיע הדף Clusters. יכול להיות שיעבור קצת זמן עד שהמחיקה של האשכול תסתיים.

המאמרים הבאים