במאמר הזה מוסבר איך להגדיר ולפרוס אשכול Slurm מנוהל באופן מלא שמשתמש בסוגי מכונות A4X, A4, A3 Ultra, A3 Mega או A3 High. מידע נוסף על סוגי המכונות האלה שממוטבים לשימוש במאיצים זמין במאמר סוגי מכונות עם GPU.
בשלבים שמתוארים במסמך הזה מוסבר איך ליצור אשכול Slurm באמצעות Cluster Director. Cluster Director הוא מוצר Google Cloud שמבצע אוטומטית את ההגדרה והקביעה של אשכולות Slurm. הוא מיועד לאדמינים בתחום ה-IT ולחוקרי AI שרוצים להימנע מהתקורה של ניהול אשכול ולהתמקד בהרצת עומסי העבודה שלהם. אם אתם רוצים יותר שליטה בפריסה ובניהול של האשכול, אתם יכולים ליצור את האשכול באמצעות Cluster Toolkit.
מגבלות
בהתאם לסוג המכונה שבה נעשה שימוש במכונות של Compute Engine באשכול, חלות המגבלות הבאות:
A4X
- לא תקבלו הנחות על שימוש קבוע או הנחות גמישות תמורת התחייבות לשימוש על מכונות שמשתמשות בסוג המכונה הזה.
- אפשר ליצור מופעים רק באזורים ואזורי זמינות מסוימים.
- אי אפשר להשתמש בדיסקים לאחסון מתמיד (persistent disks) (אזוריים או של תחום מוגדר). אפשר להשתמש רק ב-Google Cloud Hyperdisk.
- סוג המכונה הזה זמין רק בפלטפורמת NVIDIA Grace.
- אין תמיכה בשינויים בסוג המכונה ב-A4X. כדי לעבור לסוג המכונה הזה או ממנו, צריך ליצור מופע חדש.
- אי אפשר להריץ מערכות הפעלה של Windows בסוג המכונה הזה. רשימה של מערכות הפעלה נתמכות של Linux זמינה במאמר בנושא מערכות הפעלה נתמכות למופעי GPU.
- במופעי A4X, כשמשתמשים ב-
ethtool -Sכדי לעקוב אחרי יצירת רשתות GPU, המונים של היציאות הפיזיות שמסתיימים ב-_phyלא מתעדכנים. זו התנהגות צפויה במקרים שבהם נעשה שימוש בארכיטקטורת MRDMA Virtual Function (VF). מידע נוסף זמין במאמר פונקציות MRDMA וכלים לניטור רשת. - אין תמיכה במופעי A4X בתכונות הבאות:
- אי אפשר לצרף דיסקים של Hyperdisk ML שנוצרו לפני 4 בפברואר 2026 לסוגי מכונות A4X.
A4
- לא מקבלים הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מקרים לדוגמה שבהם נעשה שימוש בסוג מכונה A4.
- אפשר להשתמש בסוג מכונה A4 רק באזורים ותחומים מסוימים.
- אי אפשר להשתמש בדיסקים לאחסון מתמיד (persistent disks) (אזוריים או של תחום מוגדר). אפשר להשתמש רק ב-Google Cloud Hyperdisk.
- סוג המכונה A4 זמין רק בפלטפורמת המעבד Emerald Rapids.
- אי אפשר לשנות את סוג המכונה של מופע לסוג מכונה A4 או מסוג מכונה A4. צריך ליצור מכונה חדשה עם סוג המכונה הזה.
- סוגי מכונות A4 לא תומכים בדיירות בלעדית.
- אי אפשר להריץ מערכות הפעלה של Windows בסוג מכונה A4.
- במקרים של מופעי A4, כשמשתמשים ב-
ethtool -Sכדי לעקוב אחרי רשתות GPU, מוני יציאות פיזיות שמסתיימים ב-_phyלא מתעדכנים. זו התנהגות צפויה במקרים שבהם נעשה שימוש בארכיטקטורה של פונקציה וירטואלית (VF) של MRDMA. מידע נוסף זמין במאמר פונקציות MRDMA וכלים לניטור רשת. - אי אפשר לצרף דיסקים של Hyperdisk ML שנוצרו לפני 4 בפברואר 2026 לסוגי מכונות A4.
A3 Ultra
- לא תקבלו הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מכונות וירטואליות מסוג A3 Ultra.
- אפשר להשתמש בסוג המכונה A3 Ultra רק באזורים ותחומים מסוימים.
- אי אפשר להשתמש בדיסקים לאחסון מתמיד (persistent disks) (אזוריים או של תחום מוגדר). אפשר להשתמש רק ב-Google Cloud Hyperdisk.
- סוג המכונה A3 Ultra זמין רק בפלטפורמת המעבד Emerald Rapids.
- אין תמיכה בשינויים בסוג המכונה עבור סוג המכונה A3 Ultra. כדי לעבור למכונה מהסוג הזה או ממנה, צריך ליצור מופע חדש.
- אי אפשר להריץ מערכות הפעלה של Windows בסוג מכונה A3 Ultra.
- סוגי המכונות A3 Ultra לא תומכים בדיירות בלעדית.
- במקרים של מופעי A3 Ultra, כשמשתמשים ב-
ethtool -Sכדי לעקוב אחרי רשתות GPU, מוני יציאות פיזיות שמסתיימים ב-_phyלא מתעדכנים. זו התנהגות צפויה במקרים שבהם נעשה שימוש בארכיטקטורת MRDMA Virtual Function (VF). מידע נוסף זמין במאמר פונקציות MRDMA וכלים לניטור רשת.
A3 Mega
- לא מקבלים הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מקרים לדוגמה שבהם נעשה שימוש בסוג מכונה A3 Mega.
- אפשר להשתמש בסוג המכונה A3 Mega רק באזורים ותחומים מסוימים.
- אי אפשר להשתמש בדיסק לאחסון מתמיד (persistent disk) אזורי במכונה שמשתמשת בסוג מכונה A3 Mega.
- סוג המכונה A3 Mega זמין רק בפלטפורמת המעבד Sapphire Rapids.
- אין תמיכה בשינויים בסוג המכונה עבור סוג המכונה A3 Mega. כדי לעבור למכונה מהסוג הזה או ממנה, צריך ליצור מופע חדש.
- אי אפשר להריץ מערכות הפעלה של Windows בסוג המכונה A3 Mega.
A3 High
- לא תקבלו הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מקרים לדוגמה שבהם נעשה שימוש בסוג מכונה A3 High.
- אפשר להשתמש בסוג המכונה A3 High רק באזורים ותחומים מסוימים.
- אי אפשר להשתמש בדיסק לאחסון מתמיד (persistent disk) אזורי במכונה וירטואלית שמשתמשת בסוג מכונה A3 High.
- סוג המכונה A3 High זמין רק בפלטפורמת המעבד Sapphire Rapids.
- אין תמיכה בשינויים בסוג המכונה עבור סוג המכונה A3 High. כדי לעבור למכונה מהסוג הזה או ממנה, צריך ליצור מופע חדש.
- אי אפשר להריץ מערכות הפעלה של Windows במכונה מסוג A3 High.
- אפשר להשתמש רק ב-
a3-highgpu-8g. אין תמיכה בסוג המכונה A3 High עם פחות מ-8 מעבדי GPU.
לפני שמתחילים
לפני שיוצרים אשכול Slurm, אם עדיין לא עשיתם זאת, צריך לבצע את השלבים הבאים:
- בחירת אפשרות צריכה: האפשרות שתבחרו לצריכה תקבע איך תקבלו גישה למשאבי GPU ואיך תשתמשו בהם. מידע נוסף זמין במאמר בנושא בחירת אפשרות צריכה.
- קבלת קיבולת: התהליך לקבלת קיבולת שונה לכל אפשרות צריכה. כדי לקבל מידע על התהליך להשגת קיבולת לאפשרות הצריכה שבחרתם, אפשר לעיין במאמר סקירה כללית על קיבולת.
- מוודאים שיש לכם מספיק מכסת נפח ב-Filestore: לפני הפריסה, צריך לוודא שיש לכם מספיק מכסה ב-Filestore באזור היעד. הקיבולת המינימלית הנדרשת תלויה בסוגי המכונות באשכול:
- A4X Max, A4X, A4, A3 Ultra ו-A3 Mega: נדרש נפח מינימלי של 10 TiB (10,240 GiB) של HIGH_SCALE_SSD (אזורי).
- A3 High: נדרש נפח אחסון מינימלי של 2.5 TiB (2,560 GiB) מסוג BASIC_SSD (סטנדרטי).
כדי לבדוק את המכסה או לבקש להגדיל אותה, אפשר לעיין במאמרים הבאים:
- כדי לבדוק את המכסה בפרויקט, אפשר לעיין במאמר בנושא הצגה של מכסות על API ספציפי.
- אם אין לכם מספיק מכסה, אתם יכולים לבקש להגדיל את המכסה.
- אימות מדיניות בנושא קובצי אימג' מהימנים: אם בארגון שבו הפרויקט קיים יש מדיניות בנושא קובצי אימג' מהימנים (
constraints/compute.trustedImageProjects), צריך לוודא שהפרויקטclusterdirector-public-imagesנכלל ברשימת הפרויקטים המותרים. מידע נוסף זמין במאמר בנושא הגדרת מדיניות תמונות מהימנה.
התפקידים הנדרשים
כדי ליצור אשכול Slurm, אתם צריכים את תפקידי ה-IAM וההרשאות הבאים:
-
כדי לקבל את ההרשאות שדרושות לביצוע ההפעלה המהירה הזו, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:
-
כדי ליצור ולנהל אשכול:
עריכת אשכולים (
roles/hypercomputecluster.editor) -
כדי ליצור ולנהל מכונות וירטואליות באשכול:
מנהל מכונות של Compute (גרסה 1) (
roles/compute.instanceAdmin.v1) -
כדי להתחבר לצומת הכניסה באשכול:
- OS Login ב-Compute (
roles/compute.osLogin) - משתמש מנהרה באבטחת IAP (
roles/iap.tunnelResourceAccessor)
- OS Login ב-Compute (
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.
-
כדי ליצור ולנהל אשכול:
עריכת אשכולים (
-
כדי לקבל את ההרשאות שדרושות להשלמת המדריך הזה להתחלה מהירה, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בחשבון השירות שמוגדר כברירת מחדל ב-Compute Engine:
-
כדי ליצור אשכול:
משתמש בחשבון שירות (
roles/iam.serviceAccountUser) -
כדי לנהל משאבים באשכול:
- Logs Writer (
roles/logging.logWriter) - כתיבת מדדי מעקב (
roles/monitoring.metricWriter) - צפייה באובייקטים באחסון (
roles/storage.objectViewer)
- Logs Writer (
-
כדי ליצור אשכול:
משתמש בחשבון שירות (
יצירת אשכול Slurm
כדי ליצור אשכול שעבר אופטימיזציה ל-AI באמצעות Cluster Director, מבצעים את השלבים הבאים:
הגדרת תצורות של משאבי מחשוב
כדי להגדיר תצורות של משאבי מחשוב כשיוצרים אשכול, מבצעים את השלבים הבאים:
נכנסים לדף Cluster Director במסוף Google Cloud .
לוחצים על יצירת אשכול.
בתיבת הדו-שיח שמופיעה, לוחצים על Reference architecture (ארכיטקטורת הפניה). ייפתח הדף Create a cluster.
לוחצים על אחת מהתבניות הזמינות. אפשר גם לערוך את התבנית כדי להתאים אותה לצרכים של עומס העבודה.
לוחצים על התאמה אישית.
בקטע Compute, בשדה Cluster name, מזינים שם לאשכול. השם יכול להכיל עד 10 תווים, והוא יכול לכלול רק ספרות או אותיות קטנות (
a-z).כדי להוסיף מידע להגדרת משאב מחשוב שהוגדרה מראש, או לערוך את המספר והסוג של מופעי מחשוב שההגדרות מציינות, מבצעים את הפעולות הבאות:
בקטע Compute, לוחצים על Edit resource configuration. מופיע החלונית הוספת הגדרת משאב.
אופציונלי: כדי לשנות את השם של הגדרת משאב המחשוב, בשדה Name (שם) מזינים שם חדש.
אופציונלי: כדי לשנות את המספר והסוג של מופעי החישוב שבהם נעשה שימוש באשכול, בקטע Machine configuration, פועלים לפי ההנחיות לעדכון משאבי החישוב.
בקטע אפשרויות צריכה, מציינים את אפשרות הצריכה שבה רוצים להשתמש כדי לקבל משאבים:
כדי ליצור מכונות וירטואליות באמצעות הזמנה, מבצעים את הפעולות הבאות:
לוחצים על הכרטיסייה Use reservation.
לוחצים על בחירת הזמנה. מופיע החלונית בחירת הזמנה. אם רוצים להשתמש בהזמנה של מכונות וירטואליות מסוג A4X, אפשר לבחור באפשרות block או sub-block כדי לשלוט במיקום של המכונות הווירטואליות.
בוחרים את ההזמנה שבה רוצים להשתמש. אחר כך לוחצים על בחירה. הפעולה הזו מגדירה באופן אוטומטי את האזור והתחום של משאבי המחשוב.
כדי ליצור מכונות וירטואליות עם הפעלה גמישה:
לוחצים על הכרטיסייה Flex start.
בקטע Time limit for the VM, מציינים את משך ההפעלה של מכונות ה-Compute. הערך צריך להיות בין 10 דקות ל-7 ימים.
בקטע Location, בוחרים את האזור שבו רוצים ליצור מכונות וירטואליות עם הפעלה גמישה.Google Cloud המסוף מסנן באופן אוטומטי את האזורים הזמינים כדי להציג רק את האזורים שתומכים במכונות וירטואליות עם הפעלה גמישה עבור סוג המכונה שבחרתם.
כדי ליצור מכונות וירטואליות זמניות מסוג Spot:
לוחצים על הכרטיסייה שימוש בנקודות.
ברשימה On VM termination בוחרים באחת מהאפשרויות הבאות:
כדי למחוק מכונות וירטואליות מסוג Spot כשהן מפסיקות לפני הזמן, בוחרים באפשרות מחיקה.
כדי להפסיק את השימוש במכונות וירטואליות זמניות מסוג Spot כשמתבצעת קדימה, בוחרים באפשרות Stop.
בקטע Location, בוחרים את Region ואת Zone שבהם רוצים ליצור מכונות Spot.Google Cloud המסוף מסנן אוטומטית את האזורים הזמינים כדי להציג רק את האזורים שתומכים במכונות וירטואליות מסוג Spot עבור סוג המכונה שבחרתם.
לוחצים על סיום.
אופציונלי: כדי ליצור הגדרות נוספות של משאבי מחשוב למחיצה, לוחצים על Add resource configuration (הוספת הגדרת משאבים) ופועלים לפי ההנחיות לציון משאבי המחשוב.
לוחצים על Continue.
הגדרת רשת
כדי להגדיר את הרשת שבה האשכול משתמש, מבצעים את השלבים הבאים:
בקטע בחירת רשת של ענן וירטואלי פרטי (VPC), מבצעים אחת מהפעולות הבאות:
מומלץ: כדי לאפשר ל-AI Hypercomputer ליצור באופן אוטומטי רשת VPC מוגדרת מראש עבור האשכול, מבצעים את הפעולות הבאות:
בוחרים באפשרות יצירת רשת VPC חדשה.
בשדה Network name, מזינים שם לרשת ה-VPC.
כדי להשתמש ברשת VPC קיימת או ברשת VPC משותפת, מבצעים את הפעולות הבאות:
בוחרים באפשרות Use a VPC network in the current project (שימוש ברשת VPC בפרויקט הנוכחי) או באפשרות Use a Shared VPC network hosted in another project (שימוש ברשת VPC משותפת שמתארחת בפרויקט אחר).
ברשימה Select VPC network (בחירת רשת VPC) או Shared VPC network (רשת VPC משותפת), בוחרים רשת VPC או רשת VPC משותפת שעומדת בדרישות ההגדרה.
ברשימה Select subnetwork, בוחרים רשת משנה קיימת.
לוחצים על Continue.
הגדרת משאבי אחסון
כשיוצרים אשכול מתבנית של Cluster Director, Cluster Director מגדיר באופן אוטומטי מופע של Filestore או של Managed Lustre כמשאב האחסון של האשכול.
כדי להוסיף או לערוך את משאבי האחסון שבהם משתמש האשכול, מבצעים את השלבים הבאים בקטע אחסון. מידע נוסף על שירותי האחסון שאפשר להגדיר זמין במאמר שירותי אחסון נתמכים ב-Cluster Director.
אופציונלי: כדי לערוך משאב אחסון, לוחצים על עריכת תוכנית האחסון ופועלים לפי ההנחיות כדי לעדכן את ההגדרות של משאב האחסון.
אופציונלי: כדי להוסיף משאבי אחסון לאשכול, לוחצים על Add storage configuration ופועלים לפי ההנחיות כדי לציין את ההגדרה של משאבי האחסון.
כדי לראות את שירותי האחסון הזמינים שאפשר להגדיר, אפשר לעיין במאמר שירותי אחסון נתמכים ב-Cluster Director.
לוחצים על Continue.
הגדרת סביבת Slurm
כדי להגדיר את סביבת Slurm באשכול, מבצעים את השלבים הבאים:
אופציונלי: כדי לערוך את המספר ואת הסוג של מופעי המחשוב שבהם משתמש צומת הכניסה, מרחיבים את הקטע Login node ופועלים לפי ההנחיות לעדכון משאבי המחשוב.
אופציונלי: כדי לערוך מחיצות של האשכול כדי לארגן את משאבי המחשוב, מרחיבים את הקטע מחיצות ואז מבצעים אחת מהפעולות הבאות:
כדי להוסיף מחיצה, לוחצים על הוספת מחיצה ומבצעים את הפעולות הבאות:
בשדה שם המחיצה, מזינים שם למחיצה.
כדי לערוך קבוצת צמתים, לוחצים על החלפת קבוצת צמתים. אחרת, כדי להוסיף קבוצת צמתים, לוחצים על הוספת קבוצת צמתים.
בשדה Nodeset name, מזינים שם ל-nodeset.
בשדה Resource configuration (הגדרת משאב), בוחרים הגדרת משאב מחשוב שיצרתם בשלבים הקודמים.
ברשימה Source image (תמונת מקור), בוחרים אחת מתמונות מערכת ההפעלה הנתמכות ב-AI Hypercomputer.
בשדה Static node count (מספר צמתים סטטי) מזינים את המספר המינימלי של מופעי מחשוב שצריכים לפעול תמיד באשכול.
בשדה Dynamic node count (מספר צמתים דינמי), מזינים מספר מקסימלי של מופעי מחשוב שאפשר להגדיל את האשכול ב-AI Hypercomputer במהלך עלייה בתנועה.
ברשימה Boot disk type ובשדה Boot disk size, מזינים את הסוג והגודל של דיסק האתחול שמופעי המחשוב ישתמשו בו.
לוחצים על סיום.
כדי להסיר מחיצה, לוחצים על מחיקת מחיצה.
אופציונלי: כדי להוסיף תסריטים של פרולוג או אפילוג לסביבת Slurm, מבצעים את הפעולות הבאות:
מרחיבים את הקטע הגדרות מתקדמות של תזמור.
בקטע Scripts (תסריטים), פועלים לפי ההנחיות להוספת תסריטים.
לוחצים על יצירה. מופיע הדף Clusters. יצירת האשכול יכולה להימשך זמן מה. זמן ההשלמה תלוי במספר מופעי המחשוב שאתם מבקשים ובזמינות המשאבים באזור של מופעי המחשוב. אם המשאבים שביקשתם לא זמינים, AI Hypercomputer שומר את בקשת היצירה עד שהמשאבים יהיו זמינים. כדי לראות את הסטטוס של פעולת יצירת האשכול, צריך להציג את פרטי האשכול.
התחברות לאשכול Slurm
כש-AI Hypercomputer יוצר את צומת הכניסה, מצב האשכול משתנה למוכן. אחרי כן תוכלו להתחבר לאשכול, אבל תוכלו להריץ עומסי עבודה רק אחרי ש-AI Hypercomputer ייצור את צמתי החישוב באשכול.
כדי להתחבר לצומת הכניסה של אשכול באמצעות SSH דרך מסוףGoogle Cloud :
נכנסים לדף Clusters במסוף Google Cloud .
בטבלה Clusters (אשכולות), בעמודה Name (שם), לוחצים על שם האשכול שיצרתם בקטע הקודם. נפתח דף עם פרטי האשכול, והכרטיסייה פרטים מסומנת.
לוחצים על הכרטיסייה Nodes.
בקטע Login nodes (צמתי כניסה), בעמודה Connect (חיבור), מאתרים את צומת הכניסה של האשכול, ששמו
CLUSTER_NAME-login-001.בעמודה Connect בצומת של ההתחברות, לוחצים על הלחצן SSH. ייפתח החלון SSH בדפדפן.
אם מתבקשים, לוחצים על Authorize. ההתחברות לצומת עשויה להימשך עד דקה.
אימות התקינות של אשכול Slurm
לפני שמריצים עבודה בצומת מחשוב, Slurm מריץ אוטומטית בדיקה מהירה של תקינות ה-GPU בצומת. אם הצומת לא עובר את הבדיקה, Slurm מרוקן את הצומת ומונע תזמון של משרות חדשות בו.
כדי לבדוק בצורה יסודית יותר את תקינות ה-GPU ואת רוחב הפס של הרשת בצמתי החישוב במחיצת אשכול, אפשר להריץ ידנית בדיקות של NVIDIA Collective Communications Library (NCCL). אם בדיקת NCCL מזהה צמתים לא תקינים, אפשר לתקן את הצמתים או לשנות את האשכול. בדיקות NCCL עוזרות לוודא שהאשכול תקין לפני שמריצים בו עומסי עבודה קריטיים. מידע נוסף זמין במאמר בנושא אימות התקינות של האשכול.
מחיקת אשכול Slurm
כדי למחוק אשכול Slurm בפרויקט, בוחרים באחת מהאפשרויות הבאות:
נכנסים לדף Clusters במסוף Google Cloud .
בטבלה Clusters (אשכולות), בעמודה Name (שם), לוחצים על שם האשכול שרוצים למחוק. יופיע דף עם פרטי האשכול, והכרטיסייה Details תהיה מסומנת.
לוחצים על מחיקה.
בתיבת הדו-שיח שמופיעה, מזינים את שם האשכול ולוחצים על מחיקה כדי לאשר. מופיע הדף Clusters. יכול להיות שיעבור קצת זמן עד שהמחיקה של האשכול תסתיים.