קובצי אימג' של מערכת ההפעלה ו-Docker

Google Cloud מספק תמונות שמכילות מערכות הפעלה, מסגרות, ספריות ודרייברים נפוצים. Google Cloud הוא מבצע אופטימיזציה של התמונות שהוגדרו מראש כדי לתמוך בעומסי העבודה של בינה מלאכותית (AI) ולמידת מכונה (ML).

במאמר הזה מפורטת סקירה כללית של התמונות שבהן אתם משתמשים כדי לפרוס, לנהל ולהפעיל עומסי עבודה בסביבת AI Hypercomputer.

הסבר על קטגוריות התמונות

התמונות מחולקות לקטגוריות הבאות:

  • ספריות ומסגרות של AI ו-ML: תמונות Docker שמוגדרות מראש עם קבצים בינאריים של ספריות ומסגרות של ML, כדי לפשט את היצירה, האימון והשימוש במודלים של ML. ב-AI Hypercomputer, אפשר להשתמש בתמונות Docker של Deep Learning Software Layer (DLSL) כדי להריץ מודלים של למידת מכונה כמו NeMO ו-MaxText באשכול Google Kubernetes Engine ‏ (GKE).
  • פריסה ותזמור של אשכולות: תמונות של מערכת ההפעלה שבהן אתם משתמשים כדי לפרוס ולנהל את התשתית שעברה אופטימיזציה לביצועים, שבה פועלים עומסי העבודה של ה-AI. אפשר לפרוס את עומסי העבודה של ה-AI באשכולות GKE, באשכולות Slurm או במופעי Compute Engine. מידע נוסף זמין במאמר סקירה כללית על יצירת מכונות וירטואליות ואשכולות. קובצי האימג' של מערכות ההפעלה הבאות זמינים לפריסה של אשכולות או מופעים:

ספריות ו-frameworks של AI ו-ML

Google Cloud מספקת קובצי אימג' של Docker שכוללים חבילות של מסגרות וספריות פופולריות של AI ו-ML. התמונות האלה מספקות את התוכנה שנדרשת כדי לפשט את הפיתוח, האימון והפריסה של מודלים באשכולות שעברו אופטימיזציה ל-AI ופועלים ב-AI Hypercomputer.

תמונות מ-AI ב-JAX

תמונות ה-AI של JAX‏ (JAII, שנקראו בעבר JAX Stable Stack Images) ל-Google Cloud TPU ול-GPU מציעות תמונות Docker מוכנות לשימוש שמכילות את מסגרת JAX, אוסף שנבחר בקפידה של ספריות תואמות והגדרות לתשתית Google Cloud . תמונות JAX AI TPU מוגדרות מראש עם ספריות JAX ועם ספריות TPU. תמונות JAX AI GPU מוגדרות מראש עם ספריות JAX וספריות CUDA/NVIDIA רלוונטיות.

תרשים של תמונת ה-AI של JAX

שכבת החומרה

תמונות AI של JAX ממוקמות מעל שכבת החומרה, שמורכבת מהמאיצים (TPU או GPU) וממכונות ה-VM המשויכות להם. כדי להשתמש בתמונה של JAX AI, צריך להקצות מכונות וירטואליות של TPU או GPU. אפשר לעשות את זה באמצעות TPU API,‏ Compute Engine API או GKE API.

שכבת ה-framework

שכבת ה-framework מספקת כלים וספריות ליצירת עומסי עבודה של ML. תמונות JAX AI מספקות בסיס מוגדר מראש לעומסי עבודה של למידת מכונה שמבוססים על JAX, כולל ספריית הליבה של JAX ותלות חיונית אחרת, כדי להבטיח חוויית פיתוח עקבית ובעלת ביצועים גבוהים.

שכבת LibTPU בתמונה של AI ב-JAX נוצרת במיוחד ומצורפת לגרסה המתאימה של JAX. שימוש בגרסה אחרת של JAX עלול להוביל להתנהגות לא צפויה או לשגיאות.

שכבת ה-CUDA בתמונה של JAX AI כוללת רכיבים שמנוהלים על ידי NVIDIA, כמו תמונה של NGC CUDA Deep Learning, שמשמשת כתמונת הבסיס של תמונת האימון של ה-GPU. קובץ האימג' של ה-GPU מכיל גם את Transformer Engine, ספרייה מותאמת אישית של NVIDIA להאצת מודלים של טרנספורמרים במעבדי GPU של NVIDIA.

יכול להיות שיהיה צורך בחבילות נוספות שספציפיות לאפליקציה, מעבר לאלה שמופיעות בתמונת ה-AI של JAX, כדי להריץ את עומס העבודה הספציפי של למידת המכונה.

ספריות ב-JAX AI Images:

תמונות TPU

פונקציונליות שם החבילה
ספריות או רכיבים מרכזיים
ML Framework JAX ו-JAX lib
LibTPU גרסה יציבה של Cloud LibTPU
ספריית שכבות/מודלים Flax
Checkpointing Orbax
קוונטיזציה Qwix
אופטימיזציות Optax

aqtp

Custom Kernels Tokamax
הגדרה Fiddle
צינור עיבוד נתונים לקלט tf.data

PyGrain array-record

יצירת פרופילים, ניפוי באגים Tensorboard
Utils Common loop utils

מדידת תפוקה טובה של למידת מכונה אוספים של למידת מכונה

כלים ייעודיים לענן
Google Cloud

Google Cloud SDK Google Cloud storage

אבחון

Cloud Accelerator Diagnostics Cloud TPU Diagnostics

תמונות GPU

פונקציונליות שם החבילה
ספריות או רכיבים מרכזיים
ML Framework JAX ו-JAX lib
ספריות NVIDIA CUDA CUDA DL Image
ספריית שכבות/מודלים Flax
Checkpointing Orbax
אופטימיזציות

Optax aqtp TransformerEngine

הגדרה Fiddle
צינור עיבוד נתונים לקלט

tf.data PyGrain array-record

יצירת פרופילים, ניפוי באגים Tensorboard
Utils

Common loop utils ML goodput measurement ML collections

כלים ייעודיים לענן
Google Cloud

Google Cloud SDK Google Cloud storage

אבחון Cloud Accelerator Diagnostics

תמונות נוכחיות ב-JAX AI

תמונות TPU

תמונה מ-AI ב-JAX תאריך הפצה
JAX 0.9.0 Revision 1 2026-02-03
JAX 0.8.2 Revision 1 2026-01-14
JAX 0.8.1 Revision 1 2025-11-21
JAX 0.8.0 Revision 1 2025-10-28
JAX 0.7.2 Revision 1 2025-09-30
JAX 0.7.0 Revision 1 2025-07-29
JAX 0.6.1 Revision 1 2025-06-05
JAX 0.5.2 Revision 2 2025-04-25
JAX 0.5.2 Revision 1 2025-03-17
JAX 0.4.37 Revision 1 2024-12-12
JAX 0.4.35 Revision 1 2024-10-30

תמונות GPU

תמונה מ-AI ב-JAX תאריך הפצה
JAX 0.7.2 עם CUDA DL 25.06 Revision 1 2025-09-30
JAX 0.6.1 עם CUDA DL 25.03 Revision 1 2025-06-05
JAX 0.5.1 עם CUDA DL 25.02 Revision 1 2025-03-17

שכבת האפליקציות

אתם מטמיעים את עומסי העבודה הספציפיים של ה-ML בשכבת האפליקציה, שנמצאת מעל שכבת המסגרת. שכבת האפליקציה מכילה את הקוד, המודלים והלוגיקה הספציפיים לאפליקציה, שנוצרו באמצעות הכלים והספריות שסופקו על ידי שכבת המסגרת.

התמונה הזו מספקת בסיס חזק שנבדק היטב לעומסי עבודה של AI מבוסס-JAX, אבל יכול להיות שתצטרכו להוסיף תלויות ספציפיות לאפליקציה. כשעושים את זה, מומלץ לעשות את זה באופן שממזער את ההפרעה לשכבת הבסיס שהוגדרה מראש, שכוללת את JAX ואת התלות העיקרית שלה. הוספה של יחסי תלות ברמת האפליקציה שסותרים את יחסי התלות הקיימים או מחליפים אותם עלולה לגרום לתופעות לוואי כמו:

  • התנהגויות לא צפויות: יכול להיות שעומסי העבודה של ה-ML יתנהגו בצורה שונה מאשר לפני שהוספתם תלות נוספת לתמונה של JAX AI.
  • ירידה בביצועים: החלפה של ספריות אופטימליות שקשורות ל-JAX עלולה להשפיע לרעה על היתרונות בביצועים שמספקת התמונה מ-AI של JAX
  • בעיות ביציבות: קונפליקטים בין יחסי התלות שהוספתם לבין יחסי התלות של ליבת JAX עלולים לגרום לחוסר יציבות ולשגיאות בזמן הריצה באפליקציה.

קצב פרסום הגרסאות

בתחילה, תמונות JAX AI יסופקו מדי רבעון, והיעד לטווח הקרוב הוא לוח זמנים לפרסום סינכרוני עם כל פרסום של JAX. כך תוכלו ליהנות מהתכונות והשיפורים החדשים ביותר ברגע שהם יהיו זמינים.

תמיכה

כל גרסה של תמונות AI ב-JAX תומכת במחזור חיים מוגבל בזמן. במהלך פרק הזמן הזה, אנחנו מטפלים בקטגוריות ספציפיות של בקשות לשינויים בתמונות AI קיימות של JAX:

  • נקודות חולשה באבטחה: אנחנו נותנים עדיפות לטיפול בנקודות חולשה באבטחה שמתגלות בתמונות הבסיס או בתלות של תמונות Docker של JAX Stable Stack. תמונות מעודכנות יפורסמו כדי לצמצם סיכונים פוטנציאליים.
  • שינויים שוברים: במקרה של שינויים שוברים משמעותיים בספריות או במסגרות הבסיסיות שבהן נעשה שימוש בתמונת ה-AI של JAX,‏ Google Cloudמעריכה ומיישמת את העדכונים הנדרשים כדי לשמור על תאימות. יכול להיות שיהיה צורך ליצור מחדש קובצי אימג' של Docker עם יחסי תלות מעודכנים.

כשמתגלה נקודת חולשה אבטחתית או באג בספרייה בתוך JAII, אנחנו משלבים את הספרייה המעודכנת ב-JAII, ונועלים את כל שאר גרסאות הספרייה כדי לשמור על יציבות כללית. התוצאה היא גרסה חדשה של JAII.

שינוי מינימלי לגרסאות:

אם נמצא באג בחבילה X בגרסה JAX-0.4.30-rev1, נעדכן את X לגרסה הבאה שלה (לדוגמה, גרסה 2.0) וננסה לשמור על כל שאר החבילות ללא שינוי. התוצאה היא גרסה חדשה: JAX-0.4.30-rev2, שתופץ בהקדם האפשרי.

קובצי אימג' של Docker של שכבת התוכנה ללמידה עמוקה (DLSL)

התמונות האלה כוללות את NVIDIA CUDA,‏ NCCL, מסגרת ML ומודל. הם מספקים סביבה מוכנה לשימוש לעומסי עבודה של למידה עמוקה. תמונות ה-Docker של DLSL שנוצרו מראש פועלות בצורה חלקה עם אשכולות GKE, כי אנחנו בודקים ומאמתים את התמונות האלה במהלך בדיקות שחזור ובדיקות רגרסיה פנימיות.

קובצי אימג' של Docker ב-DLSL מספקים את היתרונות הבאים:

  • תוכנה שהוגדרה מראש: קובצי אימג' של DLSL Docker משכפלים את ההגדרה שמשמשת לבדיקות פנימיות של שחזור ובדיקות רגרסיה. התמונות האלה מספקות סביבה שהוגדרה מראש, נבדקה ועברה אופטימיזציה, וכך חוסכות זמן ומאמץ משמעותיים בתהליך ההתקנה וההגדרה.
  • ניהול גרסאות: קובצי אימג' של Docker ב-DLSL מתעדכנים לעיתים קרובות. עדכוני הגרסה האלה מספקים את הגרסה היציבה העדכנית ביותר של מסגרות ודרייברים, והעדכונים גם כוללים תיקונים לפגיעויות באבטחה.
  • תאימות לתשתית: תמונות ה-Docker של DLSL נוצרות ונבדקות כדי לפעול בצורה חלקה עם סוגי המכונות של GPU שזמינים ב-AI Hypercomputer.
  • הוראות להתחלה מהירה: לחלק מתמונות ה-Docker של DLSL מצורפים מתכוני דוגמה שמראים איך להתחיל להשתמש בעומסי העבודה שמשתמשים בתמונות שהוגדרו מראש.

NeMo + PyTorch + NCCL gIB plugin

תמונות ה-Docker האלה מבוססות על תמונת NVIDIA NeMo NGC. הם מכילים את הפלאגין NCCL gIB של Google ומאגדים את כל קובצי ה-NCCL הבינאריים שנדרשים להרצת עומסי עבודה בכל מכונת האצה נתמכת. התמונות האלה כוללות גם כלים כמו gcsfuse ו- gcloud CLI לפריסת עומסי עבודה ב-Google Kubernetes Engine. Google Cloud

גרסת תמונה של DLSL גרסת התלות סדרת מכונות תאריך הפצה תאריך סיום התמיכה שם התמונה של DLSL
nemo25.04-gib1.0.6-A4
  • NeMo NGC:25.04.01
  • NCCL giB plugin: 1.0.6
A4 ‫3 ביולי 2025 ‫3 ביולי 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.04-gib1.0.6-A4
nemo25.04-gib1.0.6-A3U
  • NeMo NGC:25.04.01
  • NCCL giB plugin: 1.0.6
A3 Ultra ‫3 ביולי 2025 ‫3 ביולי 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.04-gib1.0.6-A3U
nemo25.02-gib1.0.5-A4
  • NeMo NGC:25.02
  • NCCL giB plugin: 1.0.5
A4 ‫14 במרץ 2025 ‫14 במרץ 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.02-gib1.0.5-A4
nemo24.07-gib1.0.2-A3U
  • NeMo NGC:24.07
  • NCCL giB plugin: 1.0.2
A3 Ultra ‫2 בפברואר 2025 ‫2 בפברואר 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-gib1.0.2-A3U
nemo24.07-gib1.0.3-A3U
  • NeMo NGC:24.07
  • NCCL giB plugin: 1.0.3
A3 Ultra ‫2 בפברואר 2025 ‫2 בפברואר 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-gib1.0.3-A3U
nemo24.12-gib1.0.3-A3U
  • NeMo NGC:24.12
  • NCCL giB plugin: 1.0.3
A3 Ultra ‫7 בפברואר 2025 ‫7 בפברואר 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.12-gib1.0.3-A3U
nemo24.07-tcpx1.0.5-A3Mega
  • NeMo NGC:24.07
  • GPUDirect-TCPX: 1.0.5
A3 Mega ‫12 במרץ 2025 ‫12 במרץ 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-tcpx1.0.5-A3Mega
nemo24.07-tcpx1.0.5-A3High
  • NeMo NGC:24.07
  • GPUDirect-TCPX: 1.0.5
‫A3 High (8 יחידות GPU) ‫12 במרץ 2025 ‫12 במרץ 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-tcpx1.0.5-A3High

‫NeMo + PyTorch

קובץ אימג' של Docker זה מבוסס על תמונת NVIDIA NeMo NGC וכולל כלים כמו gcsfuse ו- ה-CLI של gcloud לפריסת עומסי עבודה ב-Google Kubernetes Engine. Google Cloud

גרסת תמונה של DLSL גרסת התלות סדרת מכונות תאריך הפצה תאריך סיום התמיכה שם התמונה של DLSL
nemo24.07--A3U NeMo NGC:24.07 A3 Ultra ‫19 בדצמבר 2024 ‫19 בדצמבר 2025 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-A3U
nemo24.07-tcpx1.0.5-A3Mega
  • NeMo NGC:24.07
  • GPUDirect-TCPX: 1.0.5
A3 Mega ‫12 במרץ 2025 ‫12 במרץ 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-tcpx1.0.5-A3Mega
nemo24.07-tcpx1.0.5-A3High
  • NeMo NGC:24.07
  • GPUDirect-TCPX: 1.0.5
‫A3 High (8 יחידות GPU) ‫12 במרץ 2025 ‫12 במרץ 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-tcpx1.0.5-A3High

MaxText + JAX toolbox

קובץ אימג' של Docker זה מבוסס על תמונת NVIDIA JAX toolbox וכוללGoogle Cloud כלים כמו gcsfuse ו- ה-CLI של gcloud לפריסת עומסי עבודה ב-Google Kubernetes Engine.

גרסת תמונה של DLSL גרסת התלות סדרת מכונות תאריך הפצה תאריך סיום התמיכה שם התמונה של DLSL
toolbox-maxtext-2025-01-10-A3U JAX toolbox: maxtext-2025-01-10 A3 Ultra ‫11 במרץ 2025 ‫11 במרץ 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-maxtext-gpu:toolbox-maxtext-2025-01-10-A3U
jax0.5.1-cu12-A3Mega
  • JAX: 0.5.1
  • CUDA: 12.x
  • MaxText: Latest
A3 Mega ‫17 במרץ 2025 ‫17 במרץ 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-gpu-maxtext:jax0.5.1-cu12-A3Mega
jax0.5.1-cu12-A3High
  • JAX: 0.5.1
  • CUDA: 12.x
  • MaxText: Latest
‫A3 High (8 GPUs) ‫17 במרץ 2025 ‫17 במרץ 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-gpu-maxtext:jax0.5.1-cu12-A3High

‫MaxText + JAX stable stack

קובץ האימג' של Docker הזה מבוסס על חבילת JAX stable ועל MaxText. התמונה הזו כוללת גם תלויות כמו dnsutils להרצת עומסי עבודה ב-Google Kubernetes Engine.

גרסת תמונה של DLSL גרסת התלות סדרת מכונות תאריך הפצה תאריך סיום התמיכה שם התמונה של DLSL
jax-maxtext-gpu:jax0.5.1-cuda_dl25.02-rev1-maxtext-20150317
  • JAX Stable stacks:jax0.5.1-cuda_dl25.02-rev1
  • maxtext commit: 54e98c9e62caa426cf5902be068533ddb4fb79f5
A4 ‫17 במרץ 2025 ‫17 במרץ 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-maxtext-gpu:jax0.5.1-cuda_dl25.02-rev1-maxtext-20150317

פריסה ותזמור של אשכולות

תמונות של מערכת הפעלה כוללות את כל רכיבי התוכנה הדרושים לפריסה של מערכת הפעלה במופע של Compute או בצומת GKE. מערכת ההפעלה מנהלת משאבי חומרה בסיסיים, כמו מאיצים ורשתות. כך מסופקים משאבי המחשוב לעומס העבודה של ה-AI.

תמונות של צומתי GKE

‫GKE פורס אשכולות באמצעות תמונות צמתים. קובצי האימג' של הצמתים האלה זמינים למערכות הפעלה שונות, כמו מערכת הפעלה שמותאמת לקונטיינרים, ‏ Ubuntu ו-Windows Server. תמונות הצמתים של מערכת הפעלה שמותאמת לקונטיינרים עם containerd‏ (cos_containerd) שנדרשות לפריסת אשכולות GKE Autopilot כוללות אופטימיזציות לתמיכה בעומסי עבודה של AI ו-ML.

מידע נוסף על תמונות הצמתים האלה זמין במאמר בנושא תמונות צמתים.

קובצי אימג' של מערכת ההפעלה Slurm

אשכולות Slurm פורסים צמתים של מחשוב ובקרה כמכונות ב-Compute Engine.

כדי להקצות אשכולות Slurm שעברו אופטימיזציה באמצעות AI, צריך להשתמש בCluster Toolkit. במהלך פריסת אשכול Slurm, תוכנית האב של האשכול יוצרת באופן אוטומטי תמונת מערכת הפעלה מותאמת אישית שמתקינה את תוכנת המערכת הנדרשת לניהול האשכול ועומסי העבודה בצמתי Slurm. אפשר לשנות את תוכניות הבסיס שמוגדרות כברירת מחדל לפני שמבצעים פריסה שלהן, כדי להתאים אישית חלק מהתוכנות שהתמונות כוללות.

בקטע הבא מפורט סיכום של התוכנות שתרשים האשכול מתקין בצמתי Slurm של A4,‏ A3 Ultra,‏ A3 Mega ו-A3 High (עם 8 יחידות GPU). תרשימי האשכולות הם הרחבה של קובצי האימג' של מערכת ההפעלה Ubuntu LTS Accelerator.

A4X Max

תוכנית ה-A4X Max שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:

  • Ubuntu 24.04 LTS
  • ‫Slurm: גרסה 25.05.2
  • התלות הבאה ב-Slurm:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: גרסה 5.0.x
  • לקוח ושרת NFS
  • דרייברים של NVIDIA מסדרת 580
  • NVIDIA Enroot
  • NVIDIA Pyxis
  • הכלים הבאים של NVIDIA:
    • Data Center GPU Manager (dcgmi)
    • nvidia-container-toolkit: גרסה 1.17.7
    • nvidia-imex
    • nvidia-fabricmanager
  • CUDA Toolkit: גרסה 13.0
  • NCCL Plugin for A4X Max (nccl-gib-a4x-max-arm64)
  • מנהל התקן DOCA-OFED
  • Ops Agent
  • Cloud Storage FUSE

A4X

תוכנית ה-A4X שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:

  • Ubuntu 24.04 LTS
  • ‫Slurm: גרסה 25.05.2
  • התלות הבאה ב-Slurm:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: גרסה 5.0.x
  • לקוח ושרת NFS
  • דרייברים מסדרת NVIDIA 570
  • NVIDIA Enroot
  • NVIDIA Pyxis
  • הכלים הבאים של NVIDIA:
    • Data Center GPU Manager (dcgmi)
    • nvidia-container-toolkit: גרסה 1.17.7
    • nvidia-imex
    • nvidia-fabricmanager
  • CUDA Toolkit: גרסה 12.8
  • פלאגין NCCL ל-A4X‏ (nccl-plugin-gib-arm64)
  • Ops Agent
  • Cloud Storage FUSE

A4

A4 blueprint שזמין ב-GitHub כולל את התוכנות הבאות כברירת מחדל:

  • ‫Ubuntu 22.04 LTS
  • ‫Slurm: גרסה 25.05.2
  • התלות הבאה ב-Slurm:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: הגרסה האחרונה של 4.1.x
  • PMIx: גרסה 4.2.9
  • לקוח ושרת NFS
  • דרייברים מסדרת NVIDIA 570
  • NVIDIA enroot container runtime: version 3.5.0 with post-release bugfix
  • NVIDIA pyxis
  • הכלים הבאים של NVIDIA:
    • Data Center GPU Manager (dcgmi)
    • nvidia-utils-570
    • nvidia-container-toolkit
    • libnvidia-nscq-570
  • CUDA Toolkit: גרסה 12.8
  • תמיכה ב-Infiniband, כולל ibverbs-utils
  • Ops Agent
  • Cloud Storage FUSE

A3 Ultra

תוכנית ה-A3 Ultra שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:

  • ‫Ubuntu 22.04 LTS
  • ‫Slurm: גרסה 24.11.2
  • התלות הבאה ב-Slurm:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: הגרסה האחרונה של 4.1.x
  • PMIx: גרסה 4.2.9
  • לקוח ושרת NFS
  • דרייברים מסדרת NVIDIA 570
  • NVIDIA enroot container runtime: version 3.5.0 with post-release bugfix
  • NVIDIA pyxis
  • הכלים הבאים של NVIDIA:
    • Data Center GPU Manager (dcgmi)
    • libnvidia-cfg1-570-server
    • libnvidia-nscq-570
    • nvidia-compute-utils-570-server
    • nsight-compute
    • nsight-systems
  • CUDA Toolkit: גרסה 12.8
  • תמיכה ב-Infiniband, כולל ibverbs-utils
  • Ops Agent
  • Cloud Storage FUSE

A3 Mega

תוכנית ה-A3 Mega שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:

  • ‫Ubuntu 22.04 LTS
  • ‫Slurm: גרסה 24.11.2
  • התלות הבאה ב-Slurm:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: הגרסה האחרונה של 4.1.x
  • PMIx: גרסה 4.2.9
  • לקוח ושרת NFS
  • דרייברים של NVIDIA מסדרת 550
  • NVIDIA enroot container runtime: version 3.4.1
  • NVIDIA pyxis
  • הכלים הבאים של NVIDIA:
    • Data Center GPU Manager (dcgmi)
    • libnvidia-cfg1-550-server
    • libnvidia-nscq-550
    • nvidia-compute-utils-550-server
    • nsight-compute
    • nsight-systems
  • CUDA Toolkit: version 12.4
  • תמיכה ב-Infiniband, כולל ibverbs-utils
  • ‫TCPXO ל-A3 Mega: קובץ התקנה ספציפי ל-NCCL TCPXO ולמארז הרשת של 1.6Tbps
  • Ops Agent
  • Cloud Storage FUSE

A3 High

Blueprint‏ A3 High (8 GPUs) שזמין ב-GitHub כולל את התוכנות הבאות כברירת מחדל:

  • ‫Ubuntu 22.04 LTS
  • ‫Slurm: גרסה 24.11.2
  • התלות הבאה ב-Slurm:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: הגרסה האחרונה של 4.1.x
  • PMIx: גרסה 4.2.9
  • לקוח ושרת NFS
  • דרייברים מסדרות NVIDIA 535 או 550
  • NVIDIA enroot container runtime: גרסה 3.4.1
  • NVIDIA pyxis
  • הכלים הבאים של NVIDIA:
    • Data Center GPU Manager (dcgmi)
    • libnvidia-cfg1-535/550-server
    • libnvidia-nscq-535/550
    • nvidia-compute-utils-535/550-server
    • nsight-compute
    • nsight-systems
  • CUDA Toolkit: גרסה 12.2 או 12.4
  • תמיכה ב-Infiniband, כולל ibverbs-utils
  • ‫TCPX ל-A3 High (8 GPUs): קובץ התקנה ספציפי ל-NCCL TCPX ‏ (GPUDirect-TCPX) ולמערך הרשת של 800 Gbps ‏ (4 NICs)
  • Ops Agent
  • Cloud Storage FUSE

קובצי אימג' של מערכת ההפעלה של המאיץ

‫AI Hypercomputer מאפשר לכם להקצות מופעי מחשוב בודדים או קבוצות של מופעי מחשוב. אם רוצים ליצור את המקרים האלה, צריך לציין תמונת מערכת הפעלה במהלך יצירת המקרים.

‫Google Cloud מציע חבילה של תמונות של מערכת הפעלה ליצירת אינסטנסים. Google Cloud מציע גם קבוצה מיוחדת של תמונות של מערכת הפעלה עם האצת חומרה לאינסטנסים שעברו אופטימיזציה ל-AI. קובצי האימג' של מערכות ההפעלה האלה כוללים דרייברים מרכזיים לפונקציונליות של GPU ורשת, כמו דרייברים של NVIDIA, דרייברים של Mellanox והתלויות שלהם.

מידע נוסף על כל מערכת הפעלה זמין בדף פרטים על מערכת ההפעלה במאמרי העזרה של Compute Engine.

קובצי אימג' של מערכת ההפעלה עם תמיכה במאיץ זמינים למערכות ההפעלה Rocky Linux ו-Ubuntu LTS.

Rocky Linux accelerator

קובצי האימג' של מערכת ההפעלה Rocky Linux accelerator הבאים זמינים לכל סדרת מכונות:

גרסת OS משפחת תמונות ארכיטקטורה סדרת מכונות פרויקט תמונות
‫Rocky Linux 9 accelerator rocky-linux-9-optimized-gcp-nvidia-580-arm64 קבוצה A4X Max, ‏ A4X rocky-linux-accelerator-cloud
rocky-linux-9-optimized-gcp-nvidia-580 x86 ‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU) rocky-linux-accelerator-cloud
rocky-linux-9-optimized-gcp-nvidia-570-arm64 קבוצה A4X rocky-linux-accelerator-cloud
rocky-linux-9-optimized-gcp-nvidia-570 x86 ‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 GPUs) rocky-linux-accelerator-cloud
מאיץ Rocky Linux 8 rocky-linux-8-optimized-gcp-nvidia-580-arm64 קבוצה A4X Max, ‏ A4X rocky-linux-accelerator-cloud
rocky-linux-8-optimized-gcp-nvidia-580 x86 ‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 GPUs) rocky-linux-accelerator-cloud
rocky-linux-8-optimized-gcp-nvidia-570 x86 ‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU) rocky-linux-accelerator-cloud

‫Ubuntu LTS accelerator

קובצי האימג' של מערכת ההפעלה הבאים של Ubuntu LTS accelerator זמינים לכל סדרת מכונות:

גרסת OS משפחת תמונות ארכיטקטורה סדרת מכונות פרויקט תמונות
‫Ubuntu 24.04 LTS accelerator ubuntu-accelerator-2404-arm64-with-nvidia-580 קבוצה A4X Max, ‏ A4X ubuntu-os-accelerator-images
ubuntu-accelerator-2404-amd64-with-nvidia-580 x86 ‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU) ubuntu-os-accelerator-images
ubuntu-accelerator-2404-arm64-with-nvidia-570 קבוצה A4X ubuntu-os-accelerator-images
ubuntu-accelerator-2404-amd64-with-nvidia-570 x86 ‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU) ubuntu-os-accelerator-images
‫Ubuntu 22.04 LTS accelerator ubuntu-accelerator-2204-arm64-with-nvidia-580 קבוצה A4X Max, ‏ A4X ubuntu-os-accelerator-images
ubuntu-accelerator-2204-amd64-with-nvidia-580 x86 ‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU) ubuntu-os-accelerator-images
ubuntu-accelerator-2204-arm64-with-nvidia-570 קבוצה A4X ubuntu-os-accelerator-images
ubuntu-accelerator-2204-amd64-with-nvidia-570 x86 ‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU) ubuntu-os-accelerator-images

המאמרים הבאים