Google Cloud מספק תמונות שמכילות מערכות הפעלה, מסגרות, ספריות ודרייברים נפוצים. Google Cloud הוא מבצע אופטימיזציה של התמונות שהוגדרו מראש כדי לתמוך בעומסי העבודה של בינה מלאכותית (AI) ולמידת מכונה (ML).
במאמר הזה מפורטת סקירה כללית של התמונות שבהן אתם משתמשים כדי לפרוס, לנהל ולהפעיל עומסי עבודה בסביבת AI Hypercomputer.
הסבר על קטגוריות התמונות
התמונות מחולקות לקטגוריות הבאות:
- ספריות ומסגרות של AI ו-ML: תמונות Docker שמוגדרות מראש עם קבצים בינאריים של ספריות ומסגרות של ML, כדי לפשט את היצירה, האימון והשימוש במודלים של ML. ב-AI Hypercomputer, אפשר להשתמש בתמונות Docker של Deep Learning Software Layer (DLSL) כדי להריץ מודלים של למידת מכונה כמו NeMO ו-MaxText באשכול Google Kubernetes Engine (GKE).
- פריסה ותזמור של אשכולות: תמונות של מערכת ההפעלה שבהן אתם משתמשים כדי לפרוס ולנהל את התשתית שעברה אופטימיזציה לביצועים, שבה פועלים עומסי העבודה של ה-AI. אפשר לפרוס את עומסי העבודה של ה-AI באשכולות GKE, באשכולות Slurm או במופעי Compute Engine.
מידע נוסף זמין במאמר סקירה כללית על יצירת מכונות וירטואליות ואשכולות.
קובצי האימג' של מערכות ההפעלה הבאות זמינים לפריסה של אשכולות או מופעים:
- תמונות צומת של GKE: אפשר להשתמש בתמונות האלה כדי לפרוס אשכולות GKE.
- קובצי אימג' של מערכת ההפעלה Slurm: Cluster Toolkit יוצר ופורס את קובצי האימג' האלה, שמתקינים את תוכנת המערכת הדרושה לצמתי Slurm.
- תמונות של מערכת הפעלה של מאיץ: אפשר להשתמש בתמונות האלה כדי ליצור מופעים בודדים או קבוצות של מופעים.
ספריות ו-frameworks של AI ו-ML
Google Cloud מספקת קובצי אימג' של Docker שכוללים חבילות של מסגרות וספריות פופולריות של AI ו-ML. התמונות האלה מספקות את התוכנה שנדרשת כדי לפשט את הפיתוח, האימון והפריסה של מודלים באשכולות שעברו אופטימיזציה ל-AI ופועלים ב-AI Hypercomputer.
תמונות מ-AI ב-JAX
תמונות ה-AI של JAX (JAII, שנקראו בעבר JAX Stable Stack Images) ל-Google Cloud TPU ול-GPU מציעות תמונות Docker מוכנות לשימוש שמכילות את מסגרת JAX, אוסף שנבחר בקפידה של ספריות תואמות והגדרות לתשתית Google Cloud . תמונות JAX AI TPU מוגדרות מראש עם ספריות JAX ועם ספריות TPU. תמונות JAX AI GPU מוגדרות מראש עם ספריות JAX וספריות CUDA/NVIDIA רלוונטיות.

שכבת החומרה
תמונות AI של JAX ממוקמות מעל שכבת החומרה, שמורכבת מהמאיצים (TPU או GPU) וממכונות ה-VM המשויכות להם. כדי להשתמש בתמונה של JAX AI, צריך להקצות מכונות וירטואליות של TPU או GPU. אפשר לעשות את זה באמצעות TPU API, Compute Engine API או GKE API.
שכבת ה-framework
שכבת ה-framework מספקת כלים וספריות ליצירת עומסי עבודה של ML. תמונות JAX AI מספקות בסיס מוגדר מראש לעומסי עבודה של למידת מכונה שמבוססים על JAX, כולל ספריית הליבה של JAX ותלות חיונית אחרת, כדי להבטיח חוויית פיתוח עקבית ובעלת ביצועים גבוהים.
שכבת LibTPU בתמונה של AI ב-JAX נוצרת במיוחד ומצורפת לגרסה המתאימה של JAX. שימוש בגרסה אחרת של JAX עלול להוביל להתנהגות לא צפויה או לשגיאות.
שכבת ה-CUDA בתמונה של JAX AI כוללת רכיבים שמנוהלים על ידי NVIDIA, כמו תמונה של NGC CUDA Deep Learning, שמשמשת כתמונת הבסיס של תמונת האימון של ה-GPU. קובץ האימג' של ה-GPU מכיל גם את Transformer Engine, ספרייה מותאמת אישית של NVIDIA להאצת מודלים של טרנספורמרים במעבדי GPU של NVIDIA.
יכול להיות שיהיה צורך בחבילות נוספות שספציפיות לאפליקציה, מעבר לאלה שמופיעות בתמונת ה-AI של JAX, כדי להריץ את עומס העבודה הספציפי של למידת המכונה.
ספריות ב-JAX AI Images:
תמונות TPU
| פונקציונליות | שם החבילה |
|---|---|
| ספריות או רכיבים מרכזיים | |
| ML Framework | JAX ו-JAX lib |
| LibTPU | גרסה יציבה של Cloud LibTPU |
| ספריית שכבות/מודלים | Flax |
| Checkpointing | Orbax |
| קוונטיזציה | Qwix |
| אופטימיזציות | Optax |
| Custom Kernels | Tokamax |
| הגדרה | Fiddle |
| צינור עיבוד נתונים לקלט | tf.data |
| יצירת פרופילים, ניפוי באגים | Tensorboard |
| Utils | Common loop utils |
| כלים ייעודיים לענן | |
| Google Cloud | |
| אבחון | |
תמונות GPU
| פונקציונליות | שם החבילה |
|---|---|
| ספריות או רכיבים מרכזיים | |
| ML Framework | JAX ו-JAX lib |
| ספריות NVIDIA CUDA | CUDA DL Image |
| ספריית שכבות/מודלים | Flax |
| Checkpointing | Orbax |
| אופטימיזציות | |
| הגדרה | Fiddle |
| צינור עיבוד נתונים לקלט | |
| יצירת פרופילים, ניפוי באגים | Tensorboard |
| Utils | |
| כלים ייעודיים לענן | |
| Google Cloud | |
| אבחון | Cloud Accelerator Diagnostics |
תמונות נוכחיות ב-JAX AI
תמונות TPU
| תמונה מ-AI ב-JAX | תאריך הפצה |
|---|---|
| JAX 0.9.0 Revision 1 | 2026-02-03 |
| JAX 0.8.2 Revision 1 | 2026-01-14 |
| JAX 0.8.1 Revision 1 | 2025-11-21 |
| JAX 0.8.0 Revision 1 | 2025-10-28 |
| JAX 0.7.2 Revision 1 | 2025-09-30 |
| JAX 0.7.0 Revision 1 | 2025-07-29 |
| JAX 0.6.1 Revision 1 | 2025-06-05 |
| JAX 0.5.2 Revision 2 | 2025-04-25 |
| JAX 0.5.2 Revision 1 | 2025-03-17 |
| JAX 0.4.37 Revision 1 | 2024-12-12 |
| JAX 0.4.35 Revision 1 | 2024-10-30 |
תמונות GPU
| תמונה מ-AI ב-JAX | תאריך הפצה |
|---|---|
| JAX 0.7.2 עם CUDA DL 25.06 Revision 1 | 2025-09-30 |
| JAX 0.6.1 עם CUDA DL 25.03 Revision 1 | 2025-06-05 |
| JAX 0.5.1 עם CUDA DL 25.02 Revision 1 | 2025-03-17 |
שכבת האפליקציות
אתם מטמיעים את עומסי העבודה הספציפיים של ה-ML בשכבת האפליקציה, שנמצאת מעל שכבת המסגרת. שכבת האפליקציה מכילה את הקוד, המודלים והלוגיקה הספציפיים לאפליקציה, שנוצרו באמצעות הכלים והספריות שסופקו על ידי שכבת המסגרת.
התמונה הזו מספקת בסיס חזק שנבדק היטב לעומסי עבודה של AI מבוסס-JAX, אבל יכול להיות שתצטרכו להוסיף תלויות ספציפיות לאפליקציה. כשעושים את זה, מומלץ לעשות את זה באופן שממזער את ההפרעה לשכבת הבסיס שהוגדרה מראש, שכוללת את JAX ואת התלות העיקרית שלה. הוספה של יחסי תלות ברמת האפליקציה שסותרים את יחסי התלות הקיימים או מחליפים אותם עלולה לגרום לתופעות לוואי כמו:
- התנהגויות לא צפויות: יכול להיות שעומסי העבודה של ה-ML יתנהגו בצורה שונה מאשר לפני שהוספתם תלות נוספת לתמונה של JAX AI.
- ירידה בביצועים: החלפה של ספריות אופטימליות שקשורות ל-JAX עלולה להשפיע לרעה על היתרונות בביצועים שמספקת התמונה מ-AI של JAX
- בעיות ביציבות: קונפליקטים בין יחסי התלות שהוספתם לבין יחסי התלות של ליבת JAX עלולים לגרום לחוסר יציבות ולשגיאות בזמן הריצה באפליקציה.
קצב פרסום הגרסאות
בתחילה, תמונות JAX AI יסופקו מדי רבעון, והיעד לטווח הקרוב הוא לוח זמנים לפרסום סינכרוני עם כל פרסום של JAX. כך תוכלו ליהנות מהתכונות והשיפורים החדשים ביותר ברגע שהם יהיו זמינים.
תמיכה
כל גרסה של תמונות AI ב-JAX תומכת במחזור חיים מוגבל בזמן. במהלך פרק הזמן הזה, אנחנו מטפלים בקטגוריות ספציפיות של בקשות לשינויים בתמונות AI קיימות של JAX:
- נקודות חולשה באבטחה: אנחנו נותנים עדיפות לטיפול בנקודות חולשה באבטחה שמתגלות בתמונות הבסיס או בתלות של תמונות Docker של JAX Stable Stack. תמונות מעודכנות יפורסמו כדי לצמצם סיכונים פוטנציאליים.
- שינויים שוברים: במקרה של שינויים שוברים משמעותיים בספריות או במסגרות הבסיסיות שבהן נעשה שימוש בתמונת ה-AI של JAX, Google Cloudמעריכה ומיישמת את העדכונים הנדרשים כדי לשמור על תאימות. יכול להיות שיהיה צורך ליצור מחדש קובצי אימג' של Docker עם יחסי תלות מעודכנים.
כשמתגלה נקודת חולשה אבטחתית או באג בספרייה בתוך JAII, אנחנו משלבים את הספרייה המעודכנת ב-JAII, ונועלים את כל שאר גרסאות הספרייה כדי לשמור על יציבות כללית. התוצאה היא גרסה חדשה של JAII.
שינוי מינימלי לגרסאות:
אם נמצא באג בחבילה X בגרסה JAX-0.4.30-rev1, נעדכן את X לגרסה הבאה שלה (לדוגמה, גרסה 2.0) וננסה לשמור על כל שאר החבילות ללא שינוי. התוצאה היא גרסה חדשה: JAX-0.4.30-rev2, שתופץ בהקדם האפשרי.
קובצי אימג' של Docker של שכבת התוכנה ללמידה עמוקה (DLSL)
התמונות האלה כוללות את NVIDIA CUDA, NCCL, מסגרת ML ומודל. הם מספקים סביבה מוכנה לשימוש לעומסי עבודה של למידה עמוקה. תמונות ה-Docker של DLSL שנוצרו מראש פועלות בצורה חלקה עם אשכולות GKE, כי אנחנו בודקים ומאמתים את התמונות האלה במהלך בדיקות שחזור ובדיקות רגרסיה פנימיות.
קובצי אימג' של Docker ב-DLSL מספקים את היתרונות הבאים:
- תוכנה שהוגדרה מראש: קובצי אימג' של DLSL Docker משכפלים את ההגדרה שמשמשת לבדיקות פנימיות של שחזור ובדיקות רגרסיה. התמונות האלה מספקות סביבה שהוגדרה מראש, נבדקה ועברה אופטימיזציה, וכך חוסכות זמן ומאמץ משמעותיים בתהליך ההתקנה וההגדרה.
- ניהול גרסאות: קובצי אימג' של Docker ב-DLSL מתעדכנים לעיתים קרובות. עדכוני הגרסה האלה מספקים את הגרסה היציבה העדכנית ביותר של מסגרות ודרייברים, והעדכונים גם כוללים תיקונים לפגיעויות באבטחה.
- תאימות לתשתית: תמונות ה-Docker של DLSL נוצרות ונבדקות כדי לפעול בצורה חלקה עם סוגי המכונות של GPU שזמינים ב-AI Hypercomputer.
- הוראות להתחלה מהירה: לחלק מתמונות ה-Docker של DLSL מצורפים מתכוני דוגמה שמראים איך להתחיל להשתמש בעומסי העבודה שמשתמשים בתמונות שהוגדרו מראש.
NeMo + PyTorch + NCCL gIB plugin
תמונות ה-Docker האלה מבוססות על תמונת NVIDIA NeMo NGC. הם מכילים את הפלאגין NCCL gIB של Google ומאגדים את כל קובצי ה-NCCL הבינאריים שנדרשים להרצת עומסי עבודה בכל מכונת האצה נתמכת. התמונות האלה כוללות גם כלים כמו gcsfuse ו-
gcloud CLI לפריסת עומסי עבודה ב-Google Kubernetes Engine. Google Cloud
| גרסת תמונה של DLSL | גרסת התלות | סדרת מכונות | תאריך הפצה | תאריך סיום התמיכה | שם התמונה של DLSL |
|---|---|---|---|---|---|
nemo25.04-gib1.0.6-A4 |
|
A4 | 3 ביולי 2025 | 3 ביולי 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.04-gib1.0.6-A4
|
nemo25.04-gib1.0.6-A3U |
|
A3 Ultra | 3 ביולי 2025 | 3 ביולי 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.04-gib1.0.6-A3U
|
nemo25.02-gib1.0.5-A4 |
|
A4 | 14 במרץ 2025 | 14 במרץ 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.02-gib1.0.5-A4 |
nemo24.07-gib1.0.2-A3U |
|
A3 Ultra | 2 בפברואר 2025 | 2 בפברואר 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-gib1.0.2-A3U |
nemo24.07-gib1.0.3-A3U |
|
A3 Ultra | 2 בפברואר 2025 | 2 בפברואר 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-gib1.0.3-A3U |
nemo24.12-gib1.0.3-A3U |
|
A3 Ultra | 7 בפברואר 2025 | 7 בפברואר 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.12-gib1.0.3-A3U |
nemo24.07-tcpx1.0.5-A3Mega |
|
A3 Mega | 12 במרץ 2025 | 12 במרץ 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-tcpx1.0.5-A3Mega |
nemo24.07-tcpx1.0.5-A3High |
|
A3 High (8 יחידות GPU) | 12 במרץ 2025 | 12 במרץ 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-tcpx1.0.5-A3High |
NeMo + PyTorch
קובץ אימג' של Docker זה מבוסס על תמונת NVIDIA NeMo NGC וכולל כלים כמו gcsfuse ו-
ה-CLI של gcloud לפריסת עומסי עבודה ב-Google Kubernetes Engine. Google Cloud
| גרסת תמונה של DLSL | גרסת התלות | סדרת מכונות | תאריך הפצה | תאריך סיום התמיכה | שם התמונה של DLSL |
|---|---|---|---|---|---|
nemo24.07--A3U |
NeMo NGC:24.07 |
A3 Ultra | 19 בדצמבר 2024 | 19 בדצמבר 2025 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-A3U |
nemo24.07-tcpx1.0.5-A3Mega |
|
A3 Mega | 12 במרץ 2025 | 12 במרץ 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-tcpx1.0.5-A3Mega |
nemo24.07-tcpx1.0.5-A3High |
|
A3 High (8 יחידות GPU) | 12 במרץ 2025 | 12 במרץ 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-tcpx1.0.5-A3High |
MaxText + JAX toolbox
קובץ אימג' של Docker זה מבוסס על תמונת NVIDIA JAX toolbox וכוללGoogle Cloud כלים כמו gcsfuse ו-
ה-CLI של gcloud לפריסת עומסי עבודה ב-Google Kubernetes Engine.
| גרסת תמונה של DLSL | גרסת התלות | סדרת מכונות | תאריך הפצה | תאריך סיום התמיכה | שם התמונה של DLSL |
|---|---|---|---|---|---|
toolbox-maxtext-2025-01-10-A3U |
JAX toolbox: maxtext-2025-01-10 |
A3 Ultra | 11 במרץ 2025 | 11 במרץ 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-maxtext-gpu:toolbox-maxtext-2025-01-10-A3U |
jax0.5.1-cu12-A3Mega |
|
A3 Mega | 17 במרץ 2025 | 17 במרץ 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-gpu-maxtext:jax0.5.1-cu12-A3Mega |
jax0.5.1-cu12-A3High |
|
A3 High (8 GPUs) | 17 במרץ 2025 | 17 במרץ 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-gpu-maxtext:jax0.5.1-cu12-A3High |
MaxText + JAX stable stack
קובץ האימג' של Docker הזה מבוסס על חבילת JAX stable ועל MaxText. התמונה הזו כוללת גם תלויות כמו dnsutils להרצת עומסי עבודה ב-Google Kubernetes Engine.
| גרסת תמונה של DLSL | גרסת התלות | סדרת מכונות | תאריך הפצה | תאריך סיום התמיכה | שם התמונה של DLSL |
|---|---|---|---|---|---|
jax-maxtext-gpu:jax0.5.1-cuda_dl25.02-rev1-maxtext-20150317 |
|
A4 | 17 במרץ 2025 | 17 במרץ 2026 | us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-maxtext-gpu:jax0.5.1-cuda_dl25.02-rev1-maxtext-20150317 |
פריסה ותזמור של אשכולות
תמונות של מערכת הפעלה כוללות את כל רכיבי התוכנה הדרושים לפריסה של מערכת הפעלה במופע של Compute או בצומת GKE. מערכת ההפעלה מנהלת משאבי חומרה בסיסיים, כמו מאיצים ורשתות. כך מסופקים משאבי המחשוב לעומס העבודה של ה-AI.
תמונות של צומתי GKE
GKE פורס אשכולות באמצעות תמונות צמתים. קובצי האימג' של הצמתים האלה זמינים למערכות הפעלה שונות, כמו מערכת הפעלה שמותאמת לקונטיינרים, Ubuntu ו-Windows Server. תמונות הצמתים של מערכת הפעלה שמותאמת לקונטיינרים עם containerd (cos_containerd) שנדרשות לפריסת אשכולות GKE Autopilot כוללות אופטימיזציות לתמיכה בעומסי עבודה של AI ו-ML.
מידע נוסף על תמונות הצמתים האלה זמין במאמר בנושא תמונות צמתים.
קובצי אימג' של מערכת ההפעלה Slurm
אשכולות Slurm פורסים צמתים של מחשוב ובקרה כמכונות ב-Compute Engine.
כדי להקצות אשכולות Slurm שעברו אופטימיזציה באמצעות AI, צריך להשתמש בCluster Toolkit. במהלך פריסת אשכול Slurm, תוכנית האב של האשכול יוצרת באופן אוטומטי תמונת מערכת הפעלה מותאמת אישית שמתקינה את תוכנת המערכת הנדרשת לניהול האשכול ועומסי העבודה בצמתי Slurm. אפשר לשנות את תוכניות הבסיס שמוגדרות כברירת מחדל לפני שמבצעים פריסה שלהן, כדי להתאים אישית חלק מהתוכנות שהתמונות כוללות.
בקטע הבא מפורט סיכום של התוכנות שתרשים האשכול מתקין בצמתי Slurm של A4, A3 Ultra, A3 Mega ו-A3 High (עם 8 יחידות GPU). תרשימי האשכולות הם הרחבה של קובצי האימג' של מערכת ההפעלה Ubuntu LTS Accelerator.
A4X Max
תוכנית ה-A4X Max שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:
- Ubuntu 24.04 LTS
- Slurm: גרסה 25.05.2
- התלות הבאה ב-Slurm:
mungemariadblibjwtlmod
- Open MPI: גרסה 5.0.x
- לקוח ושרת NFS
- דרייברים של NVIDIA מסדרת 580
- NVIDIA Enroot
- NVIDIA Pyxis
- הכלים הבאים של NVIDIA:
- Data Center GPU Manager (
dcgmi) -
nvidia-container-toolkit: גרסה 1.17.7 nvidia-imexnvidia-fabricmanager
- Data Center GPU Manager (
- CUDA Toolkit: גרסה 13.0
- NCCL Plugin for A4X Max (
nccl-gib-a4x-max-arm64) - מנהל התקן DOCA-OFED
- Ops Agent
- Cloud Storage FUSE
A4X
תוכנית ה-A4X שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:
- Ubuntu 24.04 LTS
- Slurm: גרסה 25.05.2
- התלות הבאה ב-Slurm:
mungemariadblibjwtlmod
- Open MPI: גרסה 5.0.x
- לקוח ושרת NFS
- דרייברים מסדרת NVIDIA 570
- NVIDIA Enroot
- NVIDIA Pyxis
- הכלים הבאים של NVIDIA:
- Data Center GPU Manager (
dcgmi) -
nvidia-container-toolkit: גרסה 1.17.7 nvidia-imexnvidia-fabricmanager
- Data Center GPU Manager (
- CUDA Toolkit: גרסה 12.8
- פלאגין NCCL ל-A4X (
nccl-plugin-gib-arm64) - Ops Agent
- Cloud Storage FUSE
A4
A4 blueprint שזמין ב-GitHub כולל את התוכנות הבאות כברירת מחדל:
- Ubuntu 22.04 LTS
- Slurm: גרסה 25.05.2
- התלות הבאה ב-Slurm:
mungemariadblibjwtlmod
- Open MPI: הגרסה האחרונה של 4.1.x
- PMIx: גרסה 4.2.9
- לקוח ושרת NFS
- דרייברים מסדרת NVIDIA 570
- NVIDIA enroot container runtime: version 3.5.0 with post-release bugfix
- NVIDIA pyxis
- הכלים הבאים של NVIDIA:
- Data Center GPU Manager (
dcgmi) nvidia-utils-570nvidia-container-toolkitlibnvidia-nscq-570
- Data Center GPU Manager (
- CUDA Toolkit: גרסה 12.8
- תמיכה ב-Infiniband, כולל
ibverbs-utils - Ops Agent
- Cloud Storage FUSE
A3 Ultra
תוכנית ה-A3 Ultra שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:
- Ubuntu 22.04 LTS
- Slurm: גרסה 24.11.2
- התלות הבאה ב-Slurm:
mungemariadblibjwtlmod
- Open MPI: הגרסה האחרונה של 4.1.x
- PMIx: גרסה 4.2.9
- לקוח ושרת NFS
- דרייברים מסדרת NVIDIA 570
- NVIDIA enroot container runtime: version 3.5.0 with post-release bugfix
- NVIDIA pyxis
- הכלים הבאים של NVIDIA:
- Data Center GPU Manager (
dcgmi) libnvidia-cfg1-570-serverlibnvidia-nscq-570nvidia-compute-utils-570-servernsight-computensight-systems
- Data Center GPU Manager (
- CUDA Toolkit: גרסה 12.8
- תמיכה ב-Infiniband, כולל
ibverbs-utils - Ops Agent
- Cloud Storage FUSE
A3 Mega
תוכנית ה-A3 Mega שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:
- Ubuntu 22.04 LTS
- Slurm: גרסה 24.11.2
- התלות הבאה ב-Slurm:
mungemariadblibjwtlmod
- Open MPI: הגרסה האחרונה של 4.1.x
- PMIx: גרסה 4.2.9
- לקוח ושרת NFS
- דרייברים של NVIDIA מסדרת 550
- NVIDIA enroot container runtime: version 3.4.1
- NVIDIA pyxis
- הכלים הבאים של NVIDIA:
- Data Center GPU Manager (
dcgmi) libnvidia-cfg1-550-serverlibnvidia-nscq-550nvidia-compute-utils-550-servernsight-computensight-systems
- Data Center GPU Manager (
- CUDA Toolkit: version 12.4
- תמיכה ב-Infiniband, כולל
ibverbs-utils - TCPXO ל-A3 Mega: קובץ התקנה ספציפי ל-NCCL TCPXO ולמארז הרשת של 1.6Tbps
- Ops Agent
- Cloud Storage FUSE
A3 High
Blueprint A3 High (8 GPUs) שזמין ב-GitHub כולל את התוכנות הבאות כברירת מחדל:
- Ubuntu 22.04 LTS
- Slurm: גרסה 24.11.2
- התלות הבאה ב-Slurm:
mungemariadblibjwtlmod
- Open MPI: הגרסה האחרונה של 4.1.x
- PMIx: גרסה 4.2.9
- לקוח ושרת NFS
- דרייברים מסדרות NVIDIA 535 או 550
- NVIDIA enroot container runtime: גרסה 3.4.1
- NVIDIA pyxis
- הכלים הבאים של NVIDIA:
- Data Center GPU Manager (
dcgmi) libnvidia-cfg1-535/550-serverlibnvidia-nscq-535/550nvidia-compute-utils-535/550-servernsight-computensight-systems
- Data Center GPU Manager (
- CUDA Toolkit: גרסה 12.2 או 12.4
- תמיכה ב-Infiniband, כולל
ibverbs-utils - TCPX ל-A3 High (8 GPUs): קובץ התקנה ספציפי ל-NCCL TCPX (GPUDirect-TCPX) ולמערך הרשת של 800 Gbps (4 NICs)
- Ops Agent
- Cloud Storage FUSE
קובצי אימג' של מערכת ההפעלה של המאיץ
AI Hypercomputer מאפשר לכם להקצות מופעי מחשוב בודדים או קבוצות של מופעי מחשוב. אם רוצים ליצור את המקרים האלה, צריך לציין תמונת מערכת הפעלה במהלך יצירת המקרים.
Google Cloud מציע חבילה של תמונות של מערכת הפעלה ליצירת אינסטנסים. Google Cloud מציע גם קבוצה מיוחדת של תמונות של מערכת הפעלה עם האצת חומרה לאינסטנסים שעברו אופטימיזציה ל-AI. קובצי האימג' של מערכות ההפעלה האלה כוללים דרייברים מרכזיים לפונקציונליות של GPU ורשת, כמו דרייברים של NVIDIA, דרייברים של Mellanox והתלויות שלהם.
מידע נוסף על כל מערכת הפעלה זמין בדף פרטים על מערכת ההפעלה במאמרי העזרה של Compute Engine.
קובצי אימג' של מערכת ההפעלה עם תמיכה במאיץ זמינים למערכות ההפעלה Rocky Linux ו-Ubuntu LTS.
Rocky Linux accelerator
קובצי האימג' של מערכת ההפעלה Rocky Linux accelerator הבאים זמינים לכל סדרת מכונות:
| גרסת OS | משפחת תמונות | ארכיטקטורה | סדרת מכונות | פרויקט תמונות |
|---|---|---|---|---|
| Rocky Linux 9 accelerator | rocky-linux-9-optimized-gcp-nvidia-580-arm64 |
קבוצה | A4X Max, A4X | rocky-linux-accelerator-cloud |
rocky-linux-9-optimized-gcp-nvidia-580 |
x86 | A4, A3 Ultra, A3 Mega, A3 High (8 יחידות GPU) | rocky-linux-accelerator-cloud |
|
rocky-linux-9-optimized-gcp-nvidia-570-arm64 |
קבוצה | A4X | rocky-linux-accelerator-cloud |
|
rocky-linux-9-optimized-gcp-nvidia-570 |
x86 | A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) | rocky-linux-accelerator-cloud |
|
| מאיץ Rocky Linux 8 | rocky-linux-8-optimized-gcp-nvidia-580-arm64 |
קבוצה | A4X Max, A4X | rocky-linux-accelerator-cloud |
rocky-linux-8-optimized-gcp-nvidia-580 |
x86 | A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) | rocky-linux-accelerator-cloud |
|
rocky-linux-8-optimized-gcp-nvidia-570 |
x86 | A4, A3 Ultra, A3 Mega, A3 High (8 יחידות GPU) | rocky-linux-accelerator-cloud |
Ubuntu LTS accelerator
קובצי האימג' של מערכת ההפעלה הבאים של Ubuntu LTS accelerator זמינים לכל סדרת מכונות:
| גרסת OS | משפחת תמונות | ארכיטקטורה | סדרת מכונות | פרויקט תמונות |
|---|---|---|---|---|
| Ubuntu 24.04 LTS accelerator | ubuntu-accelerator-2404-arm64-with-nvidia-580 |
קבוצה | A4X Max, A4X | ubuntu-os-accelerator-images |
ubuntu-accelerator-2404-amd64-with-nvidia-580 |
x86 | A4, A3 Ultra, A3 Mega, A3 High (8 יחידות GPU) | ubuntu-os-accelerator-images |
|
ubuntu-accelerator-2404-arm64-with-nvidia-570 |
קבוצה | A4X | ubuntu-os-accelerator-images |
|
ubuntu-accelerator-2404-amd64-with-nvidia-570 |
x86 | A4, A3 Ultra, A3 Mega, A3 High (8 יחידות GPU) | ubuntu-os-accelerator-images |
|
| Ubuntu 22.04 LTS accelerator | ubuntu-accelerator-2204-arm64-with-nvidia-580 |
קבוצה | A4X Max, A4X | ubuntu-os-accelerator-images |
ubuntu-accelerator-2204-amd64-with-nvidia-580 |
x86 | A4, A3 Ultra, A3 Mega, A3 High (8 יחידות GPU) | ubuntu-os-accelerator-images |
|
ubuntu-accelerator-2204-arm64-with-nvidia-570 |
קבוצה | A4X | ubuntu-os-accelerator-images |
|
ubuntu-accelerator-2204-amd64-with-nvidia-570 |
x86 | A4, A3 Ultra, A3 Mega, A3 High (8 יחידות GPU) | ubuntu-os-accelerator-images |