Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

קובצי אימג' של מערכת ההפעלה ו-Docker

Google Cloud מספק תמונות שמכילות מערכות הפעלה, מסגרות, ספריות ודרייברים נפוצים. Google Cloud הוא מבצע אופטימיזציה של התמונות שהוגדרו מראש כדי לתמוך בעומסי העבודה של בינה מלאכותית (AI) ולמידת מכונה (ML).

במאמר הזה מפורטת סקירה כללית של התמונות שבהן אתם משתמשים כדי לפרוס, לנהל ולהפעיל עומסי עבודה בסביבת AI Hypercomputer.

הסבר על קטגוריות התמונות

התמונות מחולקות לקטגוריות הבאות:

ספריות ומסגרות של AI ו-ML: תמונות Docker שמוגדרות מראש עם קבצים בינאריים של ספריות ומסגרות של ML, כדי לפשט את היצירה, האימון והשימוש במודלים של ML. ב-AI Hypercomputer, אפשר להשתמש בתמונות Docker של Deep Learning Software Layer (DLSL) כדי להריץ מודלים של למידת מכונה כמו NeMO ו-MaxText באשכול Google Kubernetes Engine ‏ (GKE).
פריסה ותזמור של אשכולות: תמונות של מערכת ההפעלה שבהן אתם משתמשים כדי לפרוס ולנהל את התשתית שעברה אופטימיזציה לביצועים, שבה פועלים עומסי העבודה של ה-AI. אפשר לפרוס את עומסי העבודה של ה-AI באשכולות GKE, באשכולות Slurm או במופעי Compute Engine. מידע נוסף זמין במאמר סקירה כללית על יצירת מכונות וירטואליות ואשכולות. קובצי האימג' של מערכות ההפעלה הבאות זמינים לפריסה של אשכולות או מופעים:
- תמונות צומת של GKE: אפשר להשתמש בתמונות האלה כדי לפרוס אשכולות GKE.
- קובצי אימג' של מערכת ההפעלה Slurm: Cluster Toolkit יוצר ופורס את קובצי האימג' האלה, שמתקינים את תוכנת המערכת הדרושה לצמתי Slurm.
- תמונות של מערכת הפעלה של מאיץ: אפשר להשתמש בתמונות האלה כדי ליצור מופעים בודדים או קבוצות של מופעים.

ספריות ו-frameworks של AI ו-ML

Google Cloud מספקת קובצי אימג' של Docker שכוללים חבילות של מסגרות וספריות פופולריות של AI ו-ML. התמונות האלה מספקות את התוכנה שנדרשת כדי לפשט את הפיתוח, האימון והפריסה של מודלים באשכולות שעברו אופטימיזציה ל-AI ופועלים ב-AI Hypercomputer.

תמונות מ-AI ב-JAX

תמונות ה-AI של JAX‏ (JAII, שנקראו בעבר JAX Stable Stack Images) ל-Google Cloud TPU ול-GPU מציעות תמונות Docker מוכנות לשימוש שמכילות את מסגרת JAX, אוסף שנבחר בקפידה של ספריות תואמות והגדרות לתשתית Google Cloud . תמונות JAX AI TPU מוגדרות מראש עם ספריות JAX ועם ספריות TPU. תמונות JAX AI GPU מוגדרות מראש עם ספריות JAX וספריות CUDA/NVIDIA רלוונטיות.

תרשים של תמונת ה-AI של JAX

שכבת החומרה

תמונות AI של JAX ממוקמות מעל שכבת החומרה, שמורכבת מהמאיצים (TPU או GPU) וממכונות ה-VM המשויכות להם. כדי להשתמש בתמונה של JAX AI, צריך להקצות מכונות וירטואליות של TPU או GPU. אפשר לעשות את זה באמצעות TPU API,‏ Compute Engine API או GKE API.

שכבת ה-framework

שכבת ה-framework מספקת כלים וספריות ליצירת עומסי עבודה של ML. תמונות JAX AI מספקות בסיס מוגדר מראש לעומסי עבודה של למידת מכונה שמבוססים על JAX, כולל ספריית הליבה של JAX ותלות חיונית אחרת, כדי להבטיח חוויית פיתוח עקבית ובעלת ביצועים גבוהים.

שכבת LibTPU בתמונה של AI ב-JAX נוצרת במיוחד ומצורפת לגרסה המתאימה של JAX. שימוש בגרסה אחרת של JAX עלול להוביל להתנהגות לא צפויה או לשגיאות.

שכבת ה-CUDA בתמונה של JAX AI כוללת רכיבים שמנוהלים על ידי NVIDIA, כמו תמונה של NGC CUDA Deep Learning, שמשמשת כתמונת הבסיס של תמונת האימון של ה-GPU. קובץ האימג' של ה-GPU מכיל גם את Transformer Engine, ספרייה מותאמת אישית של NVIDIA להאצת מודלים של טרנספורמרים במעבדי GPU של NVIDIA.

יכול להיות שיהיה צורך בחבילות נוספות שספציפיות לאפליקציה, מעבר לאלה שמופיעות בתמונת ה-AI של JAX, כדי להריץ את עומס העבודה הספציפי של למידת המכונה.

ספריות ב-JAX AI Images:

תמונות TPU

פונקציונליות	שם החבילה
*ספריות או רכיבים מרכזיים*
ML Framework	‫JAX ו-JAX lib
LibTPU	גרסה יציבה של Cloud LibTPU
ספריית שכבות/מודלים	Flax
Checkpointing	Orbax
קוונטיזציה	Qwix
אופטימיזציות	Optax aqtp
Custom Kernels	Tokamax
הגדרה	Fiddle
צינור עיבוד נתונים לקלט	tf.data PyGrain array-record
יצירת פרופילים, ניפוי באגים	Tensorboard
Utils	Common loop utils מדידת תפוקה טובה של למידת מכונה אוספים של למידת מכונה
*כלים ייעודיים לענן*
Google Cloud	‫Google Cloud SDK Google Cloud storage
אבחון	Cloud Accelerator Diagnostics Cloud TPU Diagnostics

תמונות GPU

פונקציונליות	שם החבילה
*ספריות או רכיבים מרכזיים*
ML Framework	‫JAX ו-JAX lib
ספריות NVIDIA CUDA	CUDA DL Image
ספריית שכבות/מודלים	Flax
Checkpointing	Orbax
אופטימיזציות	Optax aqtp TransformerEngine
הגדרה	Fiddle
צינור עיבוד נתונים לקלט	‫tf.data PyGrain array-record
יצירת פרופילים, ניפוי באגים	Tensorboard
Utils	Common loop utils ML goodput measurement ML collections
*כלים ייעודיים לענן*
Google Cloud	‫Google Cloud SDK Google Cloud storage
אבחון	Cloud Accelerator Diagnostics

תמונות נוכחיות ב-JAX AI

תמונות TPU

תמונה מ-AI ב-JAX	תאריך הפצה
‫JAX 0.9.0 Revision 1	2026-02-03
JAX 0.8.2 Revision 1	2026-01-14
JAX 0.8.1 Revision 1	2025-11-21
JAX 0.8.0 Revision 1	2025-10-28
JAX 0.7.2 Revision 1	2025-09-30
JAX 0.7.0 Revision 1	2025-07-29
JAX 0.6.1 Revision 1	2025-06-05
JAX 0.5.2 Revision 2	2025-04-25
JAX 0.5.2 Revision 1	2025-03-17
JAX 0.4.37 Revision 1	2024-12-12
JAX 0.4.35 Revision 1	2024-10-30

תמונות GPU

תמונה מ-AI ב-JAX	תאריך הפצה
‫JAX 0.7.2 עם CUDA DL 25.06 Revision 1	2025-09-30
‫JAX 0.6.1 עם CUDA DL 25.03 Revision 1	2025-06-05
‫JAX 0.5.1 עם CUDA DL 25.02 Revision 1	2025-03-17

שכבת האפליקציות

אתם מטמיעים את עומסי העבודה הספציפיים של ה-ML בשכבת האפליקציה, שנמצאת מעל שכבת המסגרת. שכבת האפליקציה מכילה את הקוד, המודלים והלוגיקה הספציפיים לאפליקציה, שנוצרו באמצעות הכלים והספריות שסופקו על ידי שכבת המסגרת.

התמונה הזו מספקת בסיס חזק שנבדק היטב לעומסי עבודה של AI מבוסס-JAX, אבל יכול להיות שתצטרכו להוסיף תלויות ספציפיות לאפליקציה. כשעושים את זה, מומלץ לעשות את זה באופן שממזער את ההפרעה לשכבת הבסיס שהוגדרה מראש, שכוללת את JAX ואת התלות העיקרית שלה. הוספה של יחסי תלות ברמת האפליקציה שסותרים את יחסי התלות הקיימים או מחליפים אותם עלולה לגרום לתופעות לוואי כמו:

התנהגויות לא צפויות: יכול להיות שעומסי העבודה של ה-ML יתנהגו בצורה שונה מאשר לפני שהוספתם תלות נוספת לתמונה של JAX AI.
ירידה בביצועים: החלפה של ספריות אופטימליות שקשורות ל-JAX עלולה להשפיע לרעה על היתרונות בביצועים שמספקת התמונה מ-AI של JAX
בעיות ביציבות: קונפליקטים בין יחסי התלות שהוספתם לבין יחסי התלות של ליבת JAX עלולים לגרום לחוסר יציבות ולשגיאות בזמן הריצה באפליקציה.

קצב פרסום הגרסאות

בתחילה, תמונות JAX AI יסופקו מדי רבעון, והיעד לטווח הקרוב הוא לוח זמנים לפרסום סינכרוני עם כל פרסום של JAX. כך תוכלו ליהנות מהתכונות והשיפורים החדשים ביותר ברגע שהם יהיו זמינים.

תמיכה

כל גרסה של תמונות AI ב-JAX תומכת במחזור חיים מוגבל בזמן. במהלך פרק הזמן הזה, אנחנו מטפלים בקטגוריות ספציפיות של בקשות לשינויים בתמונות AI קיימות של JAX:

נקודות חולשה באבטחה: אנחנו נותנים עדיפות לטיפול בנקודות חולשה באבטחה שמתגלות בתמונות הבסיס או בתלות של תמונות Docker של JAX Stable Stack. תמונות מעודכנות יפורסמו כדי לצמצם סיכונים פוטנציאליים.
שינויים שוברים: במקרה של שינויים שוברים משמעותיים בספריות או במסגרות הבסיסיות שבהן נעשה שימוש בתמונת ה-AI של JAX,‏ Google Cloudמעריכה ומיישמת את העדכונים הנדרשים כדי לשמור על תאימות. יכול להיות שיהיה צורך ליצור מחדש קובצי אימג' של Docker עם יחסי תלות מעודכנים.

כשמתגלה נקודת חולשה אבטחתית או באג בספרייה בתוך JAII, אנחנו משלבים את הספרייה המעודכנת ב-JAII, ונועלים את כל שאר גרסאות הספרייה כדי לשמור על יציבות כללית. התוצאה היא גרסה חדשה של JAII.

שינוי מינימלי לגרסאות:

אם נמצא באג בחבילה X בגרסה JAX-0.4.30-rev1, נעדכן את X לגרסה הבאה שלה (לדוגמה, גרסה 2.0) וננסה לשמור על כל שאר החבילות ללא שינוי. התוצאה היא גרסה חדשה: JAX-0.4.30-rev2, שתופץ בהקדם האפשרי.

קובצי אימג' של Docker של שכבת התוכנה ללמידה עמוקה (DLSL)

התמונות האלה כוללות את NVIDIA CUDA,‏ NCCL, מסגרת ML ומודל. הם מספקים סביבה מוכנה לשימוש לעומסי עבודה של למידה עמוקה. תמונות ה-Docker של DLSL שנוצרו מראש פועלות בצורה חלקה עם אשכולות GKE, כי אנחנו בודקים ומאמתים את התמונות האלה במהלך בדיקות שחזור ובדיקות רגרסיה פנימיות.

קובצי אימג' של Docker ב-DLSL מספקים את היתרונות הבאים:

תוכנה שהוגדרה מראש: קובצי אימג' של DLSL Docker משכפלים את ההגדרה שמשמשת לבדיקות פנימיות של שחזור ובדיקות רגרסיה. התמונות האלה מספקות סביבה שהוגדרה מראש, נבדקה ועברה אופטימיזציה, וכך חוסכות זמן ומאמץ משמעותיים בתהליך ההתקנה וההגדרה.
ניהול גרסאות: קובצי אימג' של Docker ב-DLSL מתעדכנים לעיתים קרובות. עדכוני הגרסה האלה מספקים את הגרסה היציבה העדכנית ביותר של מסגרות ודרייברים, והעדכונים גם כוללים תיקונים לפגיעויות באבטחה.
תאימות לתשתית: תמונות ה-Docker של DLSL נוצרות ונבדקות כדי לפעול בצורה חלקה עם סוגי המכונות של GPU שזמינים ב-AI Hypercomputer.
הוראות להתחלה מהירה: לחלק מתמונות ה-Docker של DLSL מצורפים מתכוני דוגמה שמראים איך להתחיל להשתמש בעומסי העבודה שמשתמשים בתמונות שהוגדרו מראש.

NeMo + PyTorch + NCCL gIB plugin

תמונות ה-Docker האלה מבוססות על תמונת NVIDIA NeMo NGC. הם מכילים את הפלאגין NCCL gIB של Google ומאגדים את כל קובצי ה-NCCL הבינאריים שנדרשים להרצת עומסי עבודה בכל מכונת האצה נתמכת. התמונות האלה כוללות גם כלים כמו gcsfuse ו- gcloud CLI לפריסת עומסי עבודה ב-Google Kubernetes Engine. Google Cloud

גרסת תמונה של DLSL	גרסת התלות	סדרת מכונות	תאריך הפצה	תאריך סיום התמיכה	שם התמונה של DLSL
`nemo25.04-gib1.0.6-A4`	`NeMo NGC:25.04.01` `NCCL giB plugin: 1.0.6`	A4	‫3 ביולי 2025	‫3 ביולי 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.04-gib1.0.6-A4`
`nemo25.04-gib1.0.6-A3U`	`NeMo NGC:25.04.01` `NCCL giB plugin: 1.0.6`	A3 Ultra	‫3 ביולי 2025	‫3 ביולי 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.04-gib1.0.6-A3U`
`nemo25.02-gib1.0.5-A4`	`NeMo NGC:25.02` `NCCL giB plugin: 1.0.5`	A4	‫14 במרץ 2025	‫14 במרץ 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.02-gib1.0.5-A4`
`nemo24.07-gib1.0.2-A3U`	`NeMo NGC:24.07` `NCCL giB plugin: 1.0.2`	A3 Ultra	‫2 בפברואר 2025	‫2 בפברואר 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-gib1.0.2-A3U`
`nemo24.07-gib1.0.3-A3U`	`NeMo NGC:24.07` `NCCL giB plugin: 1.0.3`	A3 Ultra	‫2 בפברואר 2025	‫2 בפברואר 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-gib1.0.3-A3U`
`nemo24.12-gib1.0.3-A3U`	`NeMo NGC:24.12` `NCCL giB plugin: 1.0.3`	A3 Ultra	‫7 בפברואר 2025	‫7 בפברואר 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.12-gib1.0.3-A3U`
`nemo24.07-tcpx1.0.5-A3Mega`	`NeMo NGC:24.07` `GPUDirect-TCPX: 1.0.5`	A3 Mega	‫12 במרץ 2025	‫12 במרץ 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-tcpx1.0.5-A3Mega`
`nemo24.07-tcpx1.0.5-A3High`	`NeMo NGC:24.07` `GPUDirect-TCPX: 1.0.5`	‫A3 High (8 יחידות GPU)	‫12 במרץ 2025	‫12 במרץ 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-tcpx1.0.5-A3High`

‫NeMo + PyTorch

קובץ אימג' של Docker זה מבוסס על תמונת NVIDIA NeMo NGC וכולל כלים כמו gcsfuse ו- ה-CLI של gcloud לפריסת עומסי עבודה ב-Google Kubernetes Engine. Google Cloud

גרסת תמונה של DLSL	גרסת התלות	סדרת מכונות	תאריך הפצה	תאריך סיום התמיכה	שם התמונה של DLSL
`nemo24.07--A3U`	`NeMo NGC:24.07`	A3 Ultra	‫19 בדצמבר 2024	‫19 בדצמבר 2025	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-A3U`
`nemo24.07-tcpx1.0.5-A3Mega`	`NeMo NGC:24.07` `GPUDirect-TCPX: 1.0.5`	A3 Mega	‫12 במרץ 2025	‫12 במרץ 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-tcpx1.0.5-A3Mega`
`nemo24.07-tcpx1.0.5-A3High`	`NeMo NGC:24.07` `GPUDirect-TCPX: 1.0.5`	‫A3 High (8 יחידות GPU)	‫12 במרץ 2025	‫12 במרץ 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-tcpx1.0.5-A3High`

MaxText + JAX toolbox

קובץ אימג' של Docker זה מבוסס על תמונת NVIDIA JAX toolbox וכוללGoogle Cloud כלים כמו gcsfuse ו- ה-CLI של gcloud לפריסת עומסי עבודה ב-Google Kubernetes Engine.

גרסת תמונה של DLSL	גרסת התלות	סדרת מכונות	תאריך הפצה	תאריך סיום התמיכה	שם התמונה של DLSL
`toolbox-maxtext-2025-01-10-A3U`	`JAX toolbox: maxtext-2025-01-10`	A3 Ultra	‫11 במרץ 2025	‫11 במרץ 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-maxtext-gpu:toolbox-maxtext-2025-01-10-A3U`
`jax0.5.1-cu12-A3Mega`	`JAX: 0.5.1` `CUDA: 12.x` `MaxText: Latest`	A3 Mega	‫17 במרץ 2025	‫17 במרץ 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-gpu-maxtext:jax0.5.1-cu12-A3Mega`
`jax0.5.1-cu12-A3High`	`JAX: 0.5.1` `CUDA: 12.x` `MaxText: Latest`	‫A3 High (8 GPUs)	‫17 במרץ 2025	‫17 במרץ 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-gpu-maxtext:jax0.5.1-cu12-A3High`

‫MaxText + JAX stable stack

קובץ האימג' של Docker הזה מבוסס על חבילת JAX stable ועל MaxText. התמונה הזו כוללת גם תלויות כמו dnsutils להרצת עומסי עבודה ב-Google Kubernetes Engine.

גרסת תמונה של DLSL	גרסת התלות	סדרת מכונות	תאריך הפצה	תאריך סיום התמיכה	שם התמונה של DLSL
`jax-maxtext-gpu:jax0.5.1-cuda_dl25.02-rev1-maxtext-20150317`	`JAX Stable stacks:jax0.5.1-cuda_dl25.02-rev1` maxtext commit: `54e98c9e62caa426cf5902be068533ddb4fb79f5`	A4	‫17 במרץ 2025	‫17 במרץ 2026	`us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-maxtext-gpu:jax0.5.1-cuda_dl25.02-rev1-maxtext-20150317`

פריסה ותזמור של אשכולות

תמונות של מערכת הפעלה כוללות את כל רכיבי התוכנה הדרושים לפריסה של מערכת הפעלה במופע של Compute או בצומת GKE. מערכת ההפעלה מנהלת משאבי חומרה בסיסיים, כמו מאיצים ורשתות. כך מסופקים משאבי המחשוב לעומס העבודה של ה-AI.

תמונות של צומתי GKE

‫GKE פורס אשכולות באמצעות תמונות צמתים. קובצי האימג' של הצמתים האלה זמינים למערכות הפעלה שונות, כמו מערכת הפעלה שמותאמת לקונטיינרים, ‏ Ubuntu ו-Windows Server. תמונות הצמתים של מערכת הפעלה שמותאמת לקונטיינרים עם containerd‏ (cos_containerd) שנדרשות לפריסת אשכולות GKE Autopilot כוללות אופטימיזציות לתמיכה בעומסי עבודה של AI ו-ML.

מידע נוסף על תמונות הצמתים האלה זמין במאמר בנושא תמונות צמתים.

קובצי אימג' של מערכת ההפעלה Slurm

אשכולות Slurm פורסים צמתים של מחשוב ובקרה כמכונות ב-Compute Engine.

כדי להקצות אשכולות Slurm שעברו אופטימיזציה באמצעות AI, צריך להשתמש בCluster Toolkit. במהלך פריסת אשכול Slurm, תוכנית האב של האשכול יוצרת באופן אוטומטי תמונת מערכת הפעלה מותאמת אישית שמתקינה את תוכנת המערכת הנדרשת לניהול האשכול ועומסי העבודה בצמתי Slurm. אפשר לשנות את תוכניות הבסיס שמוגדרות כברירת מחדל לפני שמבצעים פריסה שלהן, כדי להתאים אישית חלק מהתוכנות שהתמונות כוללות.

בקטע הבא מפורט סיכום של התוכנות שתרשים האשכול מתקין בצמתי Slurm של A4,‏ A3 Ultra,‏ A3 Mega ו-A3 High (עם 8 יחידות GPU). תרשימי האשכולות הם הרחבה של קובצי האימג' של מערכת ההפעלה Ubuntu LTS Accelerator.

A4X Max

תוכנית ה-A4X Max שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:

Ubuntu 24.04 LTS
‫Slurm: גרסה 25.05.2
התלות הבאה ב-Slurm:
- munge
- mariadb
- libjwt
- lmod
‫Open MPI: גרסה 5.0.x
לקוח ושרת NFS
דרייברים של NVIDIA מסדרת 580
NVIDIA Enroot
NVIDIA Pyxis
הכלים הבאים של NVIDIA:
- Data Center GPU Manager (dcgmi)
- ‫nvidia-container-toolkit: גרסה 1.17.7
- nvidia-imex
- nvidia-fabricmanager
CUDA Toolkit: גרסה 13.0
NCCL Plugin for A4X Max (nccl-gib-a4x-max-arm64)
מנהל התקן DOCA-OFED
Ops Agent
Cloud Storage FUSE

A4X

תוכנית ה-A4X שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:

Ubuntu 24.04 LTS
‫Slurm: גרסה 25.05.2
התלות הבאה ב-Slurm:
- munge
- mariadb
- libjwt
- lmod
‫Open MPI: גרסה 5.0.x
לקוח ושרת NFS
דרייברים מסדרת NVIDIA 570
NVIDIA Enroot
NVIDIA Pyxis
הכלים הבאים של NVIDIA:
- Data Center GPU Manager (dcgmi)
- ‫nvidia-container-toolkit: גרסה 1.17.7
- nvidia-imex
- nvidia-fabricmanager
CUDA Toolkit: גרסה 12.8
פלאגין NCCL ל-A4X‏ (nccl-plugin-gib-arm64)
Ops Agent
Cloud Storage FUSE

A4

‫A4 blueprint שזמין ב-GitHub כולל את התוכנות הבאות כברירת מחדל:

‫Ubuntu 22.04 LTS
‫Slurm: גרסה 25.05.2
התלות הבאה ב-Slurm:
- munge
- mariadb
- libjwt
- lmod
‫Open MPI: הגרסה האחרונה של 4.1.x
‫PMIx: גרסה 4.2.9
לקוח ושרת NFS
דרייברים מסדרת NVIDIA 570
NVIDIA enroot container runtime: version 3.5.0 with post-release bugfix
NVIDIA pyxis
הכלים הבאים של NVIDIA:
- Data Center GPU Manager (dcgmi)
- nvidia-utils-570
- nvidia-container-toolkit
- libnvidia-nscq-570
CUDA Toolkit: גרסה 12.8
תמיכה ב-Infiniband, כולל ibverbs-utils
Ops Agent
Cloud Storage FUSE

A3 Ultra

תוכנית ה-A3 Ultra שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:

‫Ubuntu 22.04 LTS
‫Slurm: גרסה 24.11.2
התלות הבאה ב-Slurm:
- munge
- mariadb
- libjwt
- lmod
‫Open MPI: הגרסה האחרונה של 4.1.x
‫PMIx: גרסה 4.2.9
לקוח ושרת NFS
דרייברים מסדרת NVIDIA 570
NVIDIA enroot container runtime: version 3.5.0 with post-release bugfix
NVIDIA pyxis
הכלים הבאים של NVIDIA:
- Data Center GPU Manager (dcgmi)
- libnvidia-cfg1-570-server
- libnvidia-nscq-570
- nvidia-compute-utils-570-server
- nsight-compute
- nsight-systems
CUDA Toolkit: גרסה 12.8
תמיכה ב-Infiniband, כולל ibverbs-utils
Ops Agent
Cloud Storage FUSE

A3 Mega

תוכנית ה-A3 Mega שזמינה ב-GitHub כוללת כברירת מחדל את התוכנות הבאות:

‫Ubuntu 22.04 LTS
‫Slurm: גרסה 24.11.2
התלות הבאה ב-Slurm:
- munge
- mariadb
- libjwt
- lmod
‫Open MPI: הגרסה האחרונה של 4.1.x
‫PMIx: גרסה 4.2.9
לקוח ושרת NFS
דרייברים של NVIDIA מסדרת 550
‫NVIDIA enroot container runtime: version 3.4.1
NVIDIA pyxis
הכלים הבאים של NVIDIA:
- Data Center GPU Manager (dcgmi)
- libnvidia-cfg1-550-server
- libnvidia-nscq-550
- nvidia-compute-utils-550-server
- nsight-compute
- nsight-systems
CUDA Toolkit: version 12.4
תמיכה ב-Infiniband, כולל ibverbs-utils
‫TCPXO ל-A3 Mega: קובץ התקנה ספציפי ל-NCCL TCPXO ולמארז הרשת של 1.6Tbps
Ops Agent
Cloud Storage FUSE

A3 High

‫Blueprint‏ A3 High (8 GPUs) שזמין ב-GitHub כולל את התוכנות הבאות כברירת מחדל:

‫Ubuntu 22.04 LTS
‫Slurm: גרסה 24.11.2
התלות הבאה ב-Slurm:
- munge
- mariadb
- libjwt
- lmod
‫Open MPI: הגרסה האחרונה של 4.1.x
‫PMIx: גרסה 4.2.9
לקוח ושרת NFS
דרייברים מסדרות NVIDIA 535 או 550
NVIDIA enroot container runtime: גרסה 3.4.1
NVIDIA pyxis
הכלים הבאים של NVIDIA:
- Data Center GPU Manager (dcgmi)
- libnvidia-cfg1-535/550-server
- libnvidia-nscq-535/550
- nvidia-compute-utils-535/550-server
- nsight-compute
- nsight-systems
CUDA Toolkit: גרסה 12.2 או 12.4
תמיכה ב-Infiniband, כולל ibverbs-utils
‫TCPX ל-A3 High (8 GPUs): קובץ התקנה ספציפי ל-NCCL TCPX ‏ (GPUDirect-TCPX) ולמערך הרשת של 800 Gbps ‏ (4 NICs)
Ops Agent
Cloud Storage FUSE

קובצי אימג' של מערכת ההפעלה של המאיץ

‫AI Hypercomputer מאפשר לכם להקצות מופעי מחשוב בודדים או קבוצות של מופעי מחשוב. אם רוצים ליצור את המקרים האלה, צריך לציין תמונת מערכת הפעלה במהלך יצירת המקרים.

‫Google Cloud מציע חבילה של תמונות של מערכת הפעלה ליצירת אינסטנסים. Google Cloud מציע גם קבוצה מיוחדת של תמונות של מערכת הפעלה עם האצת חומרה לאינסטנסים שעברו אופטימיזציה ל-AI. קובצי האימג' של מערכות ההפעלה האלה כוללים דרייברים מרכזיים לפונקציונליות של GPU ורשת, כמו דרייברים של NVIDIA, דרייברים של Mellanox והתלויות שלהם.

מידע נוסף על כל מערכת הפעלה זמין בדף פרטים על מערכת ההפעלה במאמרי העזרה של Compute Engine.

קובצי אימג' של מערכת ההפעלה עם תמיכה במאיץ זמינים למערכות ההפעלה Rocky Linux ו-Ubuntu LTS.

Rocky Linux accelerator

קובצי האימג' של מערכת ההפעלה Rocky Linux accelerator הבאים זמינים לכל סדרת מכונות:

גרסת OS	משפחת תמונות	ארכיטקטורה	סדרת מכונות	פרויקט תמונות
‫Rocky Linux 9 accelerator	`rocky-linux-9-optimized-gcp-nvidia-580-arm64`	קבוצה	A4X Max, ‏ A4X	`rocky-linux-accelerator-cloud`
	`rocky-linux-9-optimized-gcp-nvidia-580`	x86	‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU)	`rocky-linux-accelerator-cloud`
	`rocky-linux-9-optimized-gcp-nvidia-570-arm64`	קבוצה	A4X	`rocky-linux-accelerator-cloud`
	`rocky-linux-9-optimized-gcp-nvidia-570`	x86	‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 GPUs)	`rocky-linux-accelerator-cloud`
מאיץ Rocky Linux 8	`rocky-linux-8-optimized-gcp-nvidia-580-arm64`	קבוצה	A4X Max, ‏ A4X	`rocky-linux-accelerator-cloud`
	`rocky-linux-8-optimized-gcp-nvidia-580`	x86	‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 GPUs)	`rocky-linux-accelerator-cloud`
	`rocky-linux-8-optimized-gcp-nvidia-570`	x86	‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU)	`rocky-linux-accelerator-cloud`

‫Ubuntu LTS accelerator

קובצי האימג' של מערכת ההפעלה הבאים של Ubuntu LTS accelerator זמינים לכל סדרת מכונות:

גרסת OS	משפחת תמונות	ארכיטקטורה	סדרת מכונות	פרויקט תמונות
‫Ubuntu 24.04 LTS accelerator	`ubuntu-accelerator-2404-arm64-with-nvidia-580`	קבוצה	A4X Max, ‏ A4X	`ubuntu-os-accelerator-images`
	`ubuntu-accelerator-2404-amd64-with-nvidia-580`	x86	‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU)	`ubuntu-os-accelerator-images`
	`ubuntu-accelerator-2404-arm64-with-nvidia-570`	קבוצה	A4X	`ubuntu-os-accelerator-images`
	`ubuntu-accelerator-2404-amd64-with-nvidia-570`	x86	‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU)	`ubuntu-os-accelerator-images`
‫Ubuntu 22.04 LTS accelerator	`ubuntu-accelerator-2204-arm64-with-nvidia-580`	קבוצה	A4X Max, ‏ A4X	`ubuntu-os-accelerator-images`
	`ubuntu-accelerator-2204-amd64-with-nvidia-580`	x86	‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU)	`ubuntu-os-accelerator-images`
	`ubuntu-accelerator-2204-arm64-with-nvidia-570`	קבוצה	A4X	`ubuntu-os-accelerator-images`
	`ubuntu-accelerator-2204-amd64-with-nvidia-570`	x86	‫A4, ‏ A3 Ultra, ‏ A3 Mega, ‏ A3 High (8 יחידות GPU)	`ubuntu-os-accelerator-images`

המאמרים הבאים

עיון באפשרויות הצריכה.

קובצי אימג' של מערכת ההפעלה ו-Docker קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

הסבר על קטגוריות התמונות

ספריות ו-frameworks של AI ו-ML

תמונות מ-AI ב-JAX

שכבת החומרה

שכבת ה-framework

ספריות ב-JAX AI Images:

תמונות TPU

תמונות GPU

תמונות נוכחיות ב-JAX AI

תמונות TPU

תמונות GPU

שכבת האפליקציות

קצב פרסום הגרסאות

תמיכה

קובצי אימג' של Docker של שכבת התוכנה ללמידה עמוקה (DLSL)

NeMo + PyTorch + NCCL gIB plugin

‫NeMo + PyTorch

MaxText + JAX toolbox

‫MaxText + JAX stable stack

פריסה ותזמור של אשכולות

תמונות של צומתי GKE

קובצי אימג' של מערכת ההפעלה Slurm

A4X Max

A4X

A4

A3 Ultra

A3 Mega

A3 High

קובצי אימג' של מערכת ההפעלה של המאיץ

Rocky Linux accelerator

‫Ubuntu LTS accelerator

המאמרים הבאים

קובצי אימג' של מערכת ההפעלה ו-Docker