במאמר הזה מפורטים מודלים של NVIDIA GPU שבהם אפשר להשתמש כדי להאיץ למידת מכונה (ML), עיבוד נתונים ועומסי עבודה עתירי גרפיקה במכונות של Compute Engine. במסמך הזה מפורט גם אילו מעבדי GPU מצורפים מראש לסדרות מכונות שעברו אופטימיזציה להאצה, כמו A4X Max, A4X, A4, A3, A2, G4 ו-G2, ואילו מעבדי GPU אפשר לצרף למופעים למטרות כלליות מסוג N1.
במסמך הזה אפשר להשוות בין הביצועים, הזיכרון והתכונות של דגמים שונים של GPU. סקירה מפורטת יותר של משפחת המכונות שעברו אופטימיזציה להאצה, כולל מידע על פלטפורמות CPU, אפשרויות אחסון ויכולות רשת, וגם מידע על סוג המכונה הספציפי שמתאים לעומס העבודה שלכם, זמינה במאמר משפחת מכונות שעברו אופטימיזציה להאצה.
מידע נוסף על GPU ב-Compute Engine זמין במאמר בנושא מידע על GPU.
כדי לראות את האזורים והתחומים שבהם יחידות ה-GPU זמינות ב-Compute Engine, אפשר לעיין במאמר זמינות של יחידות GPU באזורים ובתחומים.
סקירה כללית
Compute Engine מציע סוגים שונים של מכונות כדי לתמוך בעומסי העבודה השונים שלכם.
חלק מסוגי המכונות תומכים בתחנות עבודה וירטואליות (vWS) של NVIDIA RTX. כשיוצרים מכונה וירטואלית שמשתמשת ב-NVIDIA RTX Virtual Workstation, Compute Engine מוסיף באופן אוטומטי רישיון vWS. מידע על התמחור של תחנות עבודה וירטואליות מופיע בדף התמחור של GPU.
| סוגי מכונות עם GPU | |||
|---|---|---|---|
| עומסי עבודה של AI ו-ML | גרפיקה וויזואליזציה | עומסי עבודה אחרים של GPU | |
|
סוגי מכונות מסדרה A שעברו אופטימיזציה לשימוש במאיצים מיועדים לעומסי עבודה של מחשוב עתיר ביצועים (HPC), בינה מלאכותית (AI) ולמידת מכונה (ML).
מודלים מסדרת A מהדורות המאוחרות יותר מתאימים במיוחד לאימון מוקדם ולשיפור של מודלים בסיסיים שכוללים אשכולות גדולים של מאיצים, בעוד שמודלים מסדרת A2 יכולים לשמש לאימון של מודלים קטנים יותר ולהסקת מסקנות במארח יחיד. בסוגי המכונות האלה, מודל ה-GPU מצורף באופן אוטומטי למופע. |
סוגי מכונות מסדרת G שעברו אופטימיזציה לשימוש במאיצים מיועדים לעומסי עבודה כמו עומסי עבודה של סימולציה ב-NVIDIA Omniverse, אפליקציות עתירות גרפיקה, טרנסקוד של סרטונים ומחשבים וירטואליים. סוגי המכונות האלה תומכים ב-NVIDIA RTX Virtual Workstations (vWS).
אפשר להשתמש בסדרת G גם לאימון מודלים קטנים יותר ולהסקת מסקנות במארח יחיד. בסוגי המכונות האלה, מודל ה-GPU מצורף באופן אוטומטי למופע. |
בסוגי מכונות למטרות כלליות מסוג N1, למעט N1 עם ליבת מעבד משותפת ( |
|
|
אפשר לצרף את דגמי ה-GPU הבאים לסוגי מכונות וירטואליות לשימוש כללי מסוג N1:
|
||
אפשר גם להשתמש בכמה סוגים של מכונות GPU ב-AI Hypercomputer. AI Hypercomputer הוא מערכת מחשוב-על שעברה אופטימיזציה כדי לתמוך בעומסי העבודה של בינה מלאכותית (AI) ולמידת מכונה (ML). מומלץ להשתמש באפשרות הזו כדי ליצור תשתית עם הקצאה צפופה ומותאמת לביצועים, שכוללת שילובים של Google Kubernetes Engine (GKE) ומתזמני Slurm.
סדרת מכונות A4X Max ו-A4X
סדרת המכונות A4X Max ו-A4X פועלת בפלטפורמת אקססקייל שמבוססת על ארכיטקטורת NVIDIA בקנה מידה של מתקן, ועברה אופטימיזציה לעומסי עבודה של אימון ML ו-HPC שדורשים הרבה משאבי מחשוב וזיכרון, ומוגבלים על ידי הרשת. ההבדלים העיקריים בין A4X Max לבין A4X הם ברכיבי ה-GPU והרשת. A4X Max מציע גם מופעי Bare Metal, שמאפשרים גישה ישירה לזיכרון ולמעבד של השרת המארח, ללא שכבת ה-hypervisor של Compute Engine.
סוגי מכונות A4X Max (Bare Metal)
סוגי מכונות שעברו אופטימיזציה להאצת A4X Max
משתמשים ב-NVIDIA GB300 Grace Blackwell Ultra Superchips (nvidia-gb300) והם אידיאליים לאימון מודלים בסיסיים ולהצגתם. סוגי המכונות A4X Max זמינים כמכונות Bare Metal.
A4X Max היא פלטפורמה בקנה מידה אקסאסקייל שמבוססת על NVIDIA GB300 NVL72. לכל מכונה יש שני שקעים עם מעבדי NVIDIA Grace עם ליבות Arm Neoverse V2. המעבדים האלה מחוברים לארבע יחידות GPU מסוג NVIDIA B300 Blackwell עם תקשורת מהירה בין שבבים (NVLink-C2C).
| מערכות NVIDIA GB300 Grace Blackwell Ultra Superchips מצורפות | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3e) |
a4x-maxgpu-4g-metal |
144 | 960 | 12,000 | 6 | 3,600 | 4 | 1,116 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סוגי מכונות A4X
סוגי מכונות A4X שעברו אופטימיזציה להאצה
משתמשים ב-Superchips של NVIDIA GB200 Grace Blackwell (nvidia-gb200) והם אידיאליים לאימון מודלים בסיסיים ולהצגתם.
A4X היא פלטפורמה בקנה מידה אקסאסקייל שמבוססת על NVIDIA GB200 NVL72. לכל מכונה יש שני שקעים עם מעבדי NVIDIA Grace עם ליבות Arm Neoverse V2. המעבדים האלה מחוברים לארבע יחידות GPU מסוג NVIDIA B200 Blackwell עם תקשורת מהירה בין שבבים (NVLink-C2C).
| מצורפים שבבי NVIDIA GB200 Grace Blackwell Superchips | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 744 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
A4 machine series
לסוגי המכונות A4 שעברו אופטימיזציה להאצה
מצורפים מעבדי NVIDIA B200 Blackwell GPU
(nvidia-b200), והם אידיאליים לאימון מודלים בסיסיים ולהצגתם.
| מעבדים גרפיים (GPU) של NVIDIA B200 Blackwell מצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר בנושא רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
A3 machine series
למכונות A3 שעברו אופטימיזציה להאצת ביצועים מצורפים מעבדי GPU מסוג NVIDIA H100 SXM או NVIDIA H200 SXM.
סוג המכונה A3 Ultra
סוגי המכונות A3 Ultra
כוללים מעבדי NVIDIA H200 SXM GPU
(nvidia-h200-141gb) מצורפים, ומספקים את ביצועי הרשת הגבוהים ביותר בסדרת A3. סוגי המכונות A3 Ultra מתאימים במיוחד לאימון מודלים בסיסיים ולהצגת מודלים.
| מעבדי GPU של NVIDIA H200 שמצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סוגי המכונות A3 Mega, High ו-Edge
כדי להשתמש ב-NVIDIA H100 SXM GPUs, יש לכם את האפשרויות הבאות:
- A3 Mega: סוגי המכונות האלה כוללים מעבדי GPU מסוג H100 SXM (
nvidia-h100-mega-80gb) והם אידיאליים לעומסי עבודה של אימון והצגה בהיקף גדול. - A3 High: סוגי המכונות האלה כוללים מעבדי GPU מסוג H100 SXM (
nvidia-h100-80gb) והם מתאימים גם למשימות אימון וגם למשימות הגשה. - A3 Edge: סוגי המכונות האלה כוללים כרטיסי GPU מסוג H100 SXM (
nvidia-h100-80gb), מיועדים במיוחד להצגת מודלים וזמינים בקבוצה מוגבלת של אזורים.
A3 Mega
| מעבדי GPU מסוג NVIDIA H100 מצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
| מעבדי GPU מסוג NVIDIA H100 מצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3 Edge
| מעבדי GPU מסוג NVIDIA H100 מצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6,000 | 5 |
|
8 | 640 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סדרת מכונות A2
לסוגי המכונות A2 שממוטבות למאיצים מצורפים מעבדי GPU מסוג NVIDIA A100, והם אידיאליים לכוונון עדין של מודלים, למודלים גדולים ולהסקת מסקנות עם אופטימיזציה של העלויות.
סדרת המכונות A2 כוללת שני סוגים:
- A2 Ultra: לסוגי המכונות האלה יש כרטיסי GPU מסוג A100 80GB (
nvidia-a100-80gb) וכונני SSD מקומיים מצורפים. - A2 Standard: סוגי המכונות האלה כוללים מעבדי GPU מסוג A100 בנפח 40GB
(
nvidia-tesla-a100) שמצורפים אליהם. אפשר גם להוסיף דיסקים מסוג Local SSD כשיוצרים מופע A2 Standard. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.
A2 Ultra
| מצורפים מעבדי GPU של NVIDIA A100 בנפח 80GB | ||||||
|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 Standard
| מצורפים מעבדי GPU של NVIDIA A100 בנפח 40GB | ||||||
|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | יש תמיכה באחסון SSD מקומי | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | כן | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | כן | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | כן | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | כן | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | כן | 100 | 16 | 640 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
G4 machine series
סוגי המכונות G4 שעברו אופטימיזציה להאצה
משתמשים ב
מעבדים גרפיים (GPU) מסוג NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) והם מתאימים לעומסי עבודה של סימולציה ב-NVIDIA Omniverse, לאפליקציות עתירות גרפיקה, לטרנסקוד של וידאו ולמחשבים וירטואליים. סוגי המכונות G4 מספקים גם פתרון בעלות נמוכה לביצוע הסקה של מארח יחיד וכוונון מודלים, בהשוואה לסוגי המכונות מסדרת A.
תכונה מרכזית בסדרת G4 היא תמיכה בתקשורת ישירה בין יחידות GPU (P2P) במכונות עם כמה יחידות GPU (g4-standard-96, g4-standard-192, g4-standard-384). התקשורת הזו מאפשרת ליחידות GPU באותו מופע להחליף נתונים ישירות דרך אפיק PCIe, בלי לערב את מארח ה-CPU. מידע נוסף על תקשורת בין מעבדי G4 GPU peer-to-peer זמין במאמר G4 GPU peer-to-peer communication.
| מעבדי GPU מסוג NVIDIA RTX PRO 6000 שמצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | נפח ה-Titanium SSD המקסימלי שנתמך (GiB)2 | מספר כרטיסי ה-NIC הפיזיים | רוחב פס מקסימלי ברשת (Gbps)3 | מספר יחידות ה-GPU | זיכרון GPU4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1,500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3,000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6,000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1,440 | 12,000 | 2 | 400 | 8 | 768 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2 אפשר להוסיף דיסקים של Titanium SSD כשיוצרים מופע G4. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.
3רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע על רוחב הפס של הרשת
4זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סדרת מכונות G2
לסוגי מכונות G2 שעברו אופטימיזציה להאצה מצורפים מעבדי NVIDIA L4 GPU, והם אידיאליים להסקת מסקנות עם אופטימיזציה של עלויות, לעומסי עבודה של מחשוב עתיר גרפיקה ולעומסי עבודה של מחשוב עתיר ביצועים (HPC).
לכל סוג מכונה G2 יש גם זיכרון שמוגדר כברירת מחדל וטווח זיכרון בהתאמה אישית. טווח הזיכרון המותאם אישית מגדיר את נפח הזיכרון שאפשר להקצות למופע לכל סוג מכונה. אפשר גם להוסיף דיסקים מסוג Local SSD כשיוצרים מופע G2. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.
| מצורפים GPUs מסוג NVIDIA L4 | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון ברירת המחדל של המכונה (GB) | טווח זיכרון מותאם אישית של מכונה (GB) | הנפח המקסימלי של SSD מקומי שנתמך (GiB) | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 עד 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 עד 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 עד 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 עד 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 עד 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 עד 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 עד 216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 עד 432 | 3,000 | 100 | 8 | 192 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
N1 machine series
אפשר לצרף את מודלי ה-GPU הבאים לסוג מכונה N1, למעט סוגי מכונות N1 עם ליבות משותפות.
בניגוד לסוגי המכונות בסדרת המכונות שעברו אופטימיזציה למאיצים, סוגי המכונות N1 לא מגיעים עם מספר מוגדר של מעבדי GPU מצורפים. במקום זאת, מציינים את מספר ה-GPU לצירוף כשיוצרים את המכונה.
במכונות N1 עם פחות יחידות GPU, מספר ה-vCPU המקסימלי מוגבל. באופן כללי, מספר גבוה יותר של מעבדי GPU מאפשר ליצור מכונות עם מספר גבוה יותר של מעבדי vCPU וזיכרון.
מעבדי N1+T4 GPU
אפשר לצרף יחידות NVIDIA T4 GPU למכונות וירטואליות למטרות כלליות מסוג N1 עם הגדרות המכונה הווירטואלית הבאות.
| סוג המאיץ | מספר יחידות ה-GPU | זיכרון GPU1 (GB GDDR6) | מספר ליבות ה-vCPU | זיכרון המכונה (GB) | יש תמיכה באחסון SSD מקומי |
|---|---|---|---|---|---|
nvidia-tesla-t4 או nvidia-tesla-t4-vws
|
1 | 16 | 1 עד 48 | 1 עד 312 | כן |
| 2 | 32 | 1 עד 48 | 1 עד 312 | כן | |
| 4 | 64 | 1 עד 96 | 1 עד 624 | כן |
1זיכרון ה-GPU הוא הזיכרון שזמין במכשיר GPU שאפשר להשתמש בו לאחסון נתונים זמני. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
N1+P4 GPUs
אפשר לצרף יחידות GPU מסוג NVIDIA P4 למכונות למטרות כלליות מסוג N1 עם הגדרות המכונה הבאות.
| סוג המאיץ | מספר יחידות ה-GPU | זיכרון GPU1 (GB GDDR5) | מספר ליבות ה-vCPU | זיכרון המכונה (GB) | יש תמיכה ב-SSD מקומי2 |
|---|---|---|---|---|---|
nvidia-tesla-p4 או nvidia-tesla-p4-vws
|
1 | 8 | 1 עד 24 | 1 עד 156 | כן |
| 2 | 16 | 1 עד 48 | 1 עד 312 | כן | |
| 4 | 32 | 1 עד 96 | 1 עד 624 | כן |
1זיכרון GPU הוא הזיכרון שזמין במכשיר GPU שאפשר להשתמש בו לאחסון נתונים זמני. היא נפרדת מהזיכרון של המופע ומיועדת במיוחד לטיפול בדרישות רוחב הפס הגבוהות של עומסי עבודה עתירי גרפיקה.
2במכונות עם יחידות GPU מסוג NVIDIA P4 שמצורפות אליהן, יש תמיכה בדיסקים מקומיים של SSD רק באזורים us-central1-c ו-northamerica-northeast1-b.
מעבדי GPU מסוג N1+V100
אפשר לצרף יחידות NVIDIA V100 GPU למכונות למטרות כלליות מסוג N1 עם הגדרות המכונה הבאות.
| סוג המאיץ | מספר יחידות ה-GPU | זיכרון GPU1 (GB HBM2) | מספר ליבות ה-vCPU | זיכרון המכונה (GB) | יש תמיכה ב-SSD מקומי2 |
|---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 עד 12 | 1 עד 78 | כן |
| 2 | 32 | 1 עד 24 | 1 עד 156 | כן | |
| 4 | 64 | 1 עד 48 | 1 עד 312 | כן | |
| 8 | 128 | 1 עד 96 | 1 עד 624 | כן |
1זיכרון ה-GPU הוא הזיכרון שזמין במכשיר GPU שאפשר להשתמש בו לאחסון נתונים זמני. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
2במקרים של מכונות וירטואליות עם יחידות GPU מסוג NVIDIA V100 שמצורפות אליהן, אין תמיכה בדיסקים של SSD מקומי ב-us-east1-c.
N1+P100 GPUs
אפשר לצרף יחידות GPU מסוג NVIDIA P100 למכונות למטרות כלליות מסוג N1 עם הגדרות המכונה הבאות.
במקרה של חלק מיחידות ה-GPU מסוג NVIDIA P100, המעבד והזיכרון המקסימליים שזמינים לחלק מהתצורות תלויים באזור שבו פועל משאב ה-GPU.
| סוג המאיץ | מספר יחידות ה-GPU | זיכרון GPU1 (GB HBM2) | תחום (zone) | מספר ליבות ה-vCPU | זיכרון המכונה (GB) | יש תמיכה באחסון SSD מקומי |
|---|---|---|---|---|---|---|
nvidia-tesla-p100 או nvidia-tesla-p100-vws
|
1 | 16 | כל האזורים של P100 | 1 עד 16 | 1 עד 104 | כן |
| 2 | 32 | כל האזורים של P100 | 1 עד 32 | 1 עד 208 | כן | |
| 4 | 64 | us-east1-c, europe-west1-d, europe-west1-b |
1 עד 64 | 1 עד 208 | כן | |
| כל שאר האזורים של P100 | 1 עד 96 | 1 עד 624 | כן |
1זיכרון ה-GPU הוא הזיכרון שזמין במכשיר GPU שאפשר להשתמש בו לאחסון נתונים זמני. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
תרשים השוואה כללי
בטבלה הבאה מתואר גודל הזיכרון של ה-GPU, זמינות התכונות וסוגי עומסי העבודה האידיאליים של דגמי GPU שונים ב-Compute Engine.
| סוג המכונה (דגם ה-GPU) | זיכרון GPU | Interconnect | תמיכה ב-NVIDIA RTX Virtual Workstation (vWS) | השימוש הכי טוב |
|---|---|---|---|---|
| A4X Max (GB300) | 279 GB HBM3e @ 8 TBps | NVLink Full Mesh @ 1,800 GBps | אימון והסקת מסקנות מבוזרים בקנה מידה גדול של מודלים גדולים של שפה (LLM) מסוג MoE, מערכות המלצה ו-HPC | |
| A4X (GB200) | 186GB HBM3e @ 8 TBps | NVLink Full Mesh @ 1,800 GBps | אימון והסקת מסקנות מבוזרים של מודלים גדולים של שפה (LLM), מערכות המלצה ו-HPC בקנה מידה גדול | |
| A4 (B200) | 180GB HBM3e @ 8 TBps | NVLink Full Mesh @ 1,800 GBps | אימון והסקת מסקנות מבוזרים של מודלים גדולים של שפה (LLM), מערכות המלצה ו-HPC בקנה מידה גדול | |
| A3 Ultra (H200) | 141 GB HBM3e @ 4.8 TBps | NVLink Full Mesh @ 900 GBps | מודלים גדולים עם טבלאות נתונים עצומות לאימון של למידת מכונה, הסקה, HPC, BERT, DLRM | |
| A3 Mega, A3 High, A3 Edge (H100) | 80GB HBM3 @ 3.35 TBps | NVLink Full Mesh @ 900 GBps | מודלים גדולים עם טבלאות נתונים עצומות לאימון של למידת מכונה, הסקה, HPC, BERT, DLRM | |
| A2 Ultra (A100 80GB) | 80GB HBM2e @ 1.9 TBps | NVLink Full Mesh @ 600 GBps | מודלים גדולים עם טבלאות נתונים עצומות לאימון של למידת מכונה, הסקה, HPC, BERT, DLRM | |
| A2 Standard (A100 40GB) | 40 GB HBM2 @ 1.6 TBps | NVLink Full Mesh @ 600 GBps | אימון, הסקה ו-HPC של למידת מכונה | |
| G4 (RTX PRO 6000) | 96GB GDDR7 עם ECC @ 1,597GBps | לא רלוונטי | הסקת מסקנות של ML, אימון, תחנות עבודה להדמיה מרחוק, המרת קידוד של סרטונים, HPC | |
| G2 (L4) | 24 GB GDDR6 @ 300 GBps | לא רלוונטי | הסקת מסקנות של ML, אימון, תחנות עבודה להדמיה מרחוק, המרת קידוד של סרטונים, HPC | |
| N1 (T4) | 16GB GDDR6 @ 320 GBps | לא רלוונטי | הסקת מסקנות של למידת מכונה (ML), אימון, תחנות עבודה להדמיה מרחוק, קידוד מחדש של סרטונים | |
| N1 (P4) | 8GB GDDR5 @ 192GBps | לא רלוונטי | תחנות עבודה להדמיה מרחוק, הסקת מסקנות של למידת מכונה (ML) והמרת קידוד של סרטונים | |
| N1 (V100) | 16GB HBM2 @ 900 GBps | NVLink Ring @ 300 GBps | אימון, הסקה ו-HPC של למידת מכונה | |
| N1 (P100) | 16 GB HBM2 @ 732 GBps | לא רלוונטי | אימון של למידת מכונה, הסקה, HPC, תחנות עבודה להדמיה מרחוק |
כדי להשוות את התמחור של GPU עבור הדגמים והאזורים השונים של GPU שזמינים ב-Compute Engine, אפשר לעיין במאמר בנושא תמחור GPU.
ביצועים של ליבת Tensor וליבת CUDA רגילה
בקטעים הבאים מפורטים מדדי הביצועים של כל ארכיטקטורת GPU, מחולקים לליבות CUDA וקטוריות או רגילות ולביצועים של Tensor Core.
Tensor Cores: ביצועי Tensor מתייחסים לתפוקה שמתקבלת מ-Tensor Cores מיוחדים. אלה יחידות חומרה ייעודיות (שנקראות לעיתים קרובות יחידות מטריצה) שנועדו להאיץ את הפעולות הגדולות של הכפלה והצטברות של מטריצות, שמהוות את הבסיס ללמידה עמוקה, לאימון ולהסקת מסקנות.
סוג הביצועים הזה מתאים במיוחד ללמידה עמוקה, למודלים גדולים של שפה (LLM) ולכל עומס עבודה שאפשר לבטא כפעולות של מטריצה צפופה. ליבות Tensor מספקות תפוקה גבוהה משמעותית בהשוואה לליבות CUDA עבור אותו סוג נתונים.
ליבות CUDA וקטוריות או סטנדרטיות: ביצועים וקטוריים מתייחסים לנתוני התפוקה של ליבות CUDA סטנדרטיות. אלה יחידות לשימוש כללי שפועלות באמצעות מודל של הוראה יחידה, ריבוי תהליכים (SIMT), ובדרך כלל מבצעות פעולות על רכיבי נתונים או וקטורים בודדים.
סוג הביצועים הזה מתאים במיוחד לחישובים כלליים, לעיבוד גרפי ולעומסי עבודה שלא כוללים מתמטיקה של מטריצות צפופות.
ארכיטקטורת Blackwell
סוגי המכונות A4X Max, A4X, A4 ו-G4 פועלים על ארכיטקטורת Blackwell של NVIDIA.
Tensor Core
ארכיטקטורת Blackwell של NVIDIA, שמשמשת בסוגי המכונות האלה, כוללת תמיכה ב-Tensor Core לדיוק FP4 ויכולות INT4 מורחבות לביצועים פורצי דרך בהסקת מסקנות של מודלים גדולים.
| סוג המכונה (דגם ה-GPU) | FP64 (TFLOPS) | TF32 (TFLOPS) | מעורב FP16/32 (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) | FP8 (TFLOPS) | FP4 (TFLOPS) |
|---|---|---|---|---|---|---|---|
| A4X Max (GB300) | 1.3 | 2,500 | 5,000 | 330 | 155 | 10,000 | 15,000 |
| A4X (GB200) | 40 | 2,500 | 5,000 | 10,000 | 20,000 | 10,000 | 10,000 |
| A4 (B200) | 40 | 1,100 | 4,500 | 9,000 | - | 9,000 | - |
| G4 (RTX PRO 6000) | 1.8 | 140 | 935.6 | 1,871.2 | - | - | 2,200 |
- בנוסף, המעבדים NVIDIA GB300, GB200, B200 ו-RTX PRO 6000 תומכים בסוג הנתונים
bfloat16לאימון בדיוק מעורב. - מעבדי GPU מסוג NVIDIA GB300, GB200, B200 ו-RTX PRO 6000 תומכים בדלילות מבנית, שיכולה להכפיל את קצב העברת הנתונים של החישובים. ערכי הביצועים בקטע הזה מבוססים על הנחה של כפל מטריצות צפוף – אם משתמשים בדלילות מבנית, הביצועים מוכפלים.
ליבות CUDA רגילות
סוגי המכונות שמשתמשים בארכיטקטורת Blackwell מספקים פעולות FP64 ו-FP32 עם ביצועים גבוהים לעומסי עבודה תובעניים של HPC ו-AI.
במכשירים A4X Max, A4X ו-A4, פעולות FP16 מואצות על ידי ליבות Tensor. ב-G4, הביצועים של FP16 בליבות CUDA רגילות כלולים כי עומסי עבודה של גרפיקה, כמו עיבוד והדמיה, יכולים להפיק תועלת מהדרישות המופחתות של השימוש בזיכרון וברוחב הפס של דיוק FP16, גם כשלא משתמשים בליבות Tensor.
| סוג המכונה (דגם ה-GPU) | FP64 (TFLOPS) | FP32 (TFLOPS) | FP16 (TFLOPS) |
|---|---|---|---|
| A4X Max (GB300) | 1.3 | 80 | - |
| A4X (GB200) | 40 | 80 | - |
| A4 (B200) | 40 | 80 | - |
| G4 (RTX PRO 6000) | 2 | 117 | 117 |
ארכיטקטורות Hopper, Ada Lovelace ו-Ampere
בסדרת A3 נעשה שימוש בארכיטקטורת Hopper, שכוללת מנועים ייעודיים למודלים של טרנספורמרים. בסדרת A2 נעשה שימוש בארכיטקטורת Ampere, שמספקת בסיס מאוזן לאימון ולהסקת מסקנות עם ביצועים גבוהים. סדרת G2 משתמשת בארכיטקטורת Ada Lovelace, שמספקת האצה רב-תכליתית וחסכונית באנרגיה להסקת מסקנות מ-AI, לטרנסקוד של סרטונים ולעומסי עבודה של גרפיקה.
Tensor Core
הארכיטקטורות Hopper, Ada Lovelace ו-Ampere כוללות ליבות Tensor מתקדמות שמאיצות את סוגי הנתונים TF32, FP16, FP8 ו-INT8, ומספקות תפוקה גבוהה לאימון ולמסקנות של דיוק מעורב.
| סוג המכונה (דגם ה-GPU) | FP64 (TFLOPS) | TF32 (TFLOPS) | מעורב FP16/32 (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) | FP8 (TFLOPS) |
|---|---|---|---|---|---|---|
| A3 Ultra (H200) | 67 | 989 | 1,979 | 3,958 | - | 3,958 |
| A3 Mega/High/Edge (H100) | 67 | 989 | 1,979 | 3,958 | - | 3,958 |
| A2 Ultra (A100 80GB) | 19.5 | 156 | 312 | 624 | 1248 | - |
| A2 Standard (A100 40GB) | 19.5 | 156 | 312 | 624 | 1248 | - |
| G2 (L4) | - | 120 | 242 | 485 | - | 485 |
- באימון עם דיוק מעורב, כרטיסי NVIDIA H200, H100, A100 ו-L4 תומכים גם בסוג הנתונים
bfloat16. - מעבדי GPU של NVIDIA מדגמי H200, H100, A100 ו-L4 תומכים בדלילות מבנית, שיכולה להכפיל את קצב העברת הנתונים של החישובים. ערכי הביצועים בקטע הזה מבוססים על הנחה של כפל מטריצות צפוף – אם משתמשים בדלילות מבנית, הביצועים מוכפלים.
ליבות CUDA רגילות
סוגי המכונות שמשתמשים בארכיטקטורות Hopper, Ada Lovelace ו-Ampere מספקים פעולות FP64 ו-FP32 עם ביצועים גבוהים לעומסי עבודה תובעניים של HPC ו-AI.
| סוג המכונה (דגם ה-GPU) | FP64 (TFLOPS) | FP32 (TFLOPS) |
|---|---|---|
| A3 Ultra (H200) | 34 | 67 |
| A3 Mega, High, Edge (H100) | 34 | 67 |
| A2 Ultra (A100 80GB) | 9.7 | 19.5 |
| A2 Standard (A100 40GB) | 9.7 | 19.5 |
| G2 (L4) | 0.5 | 30.3 |
ארכיטקטורות Volta, Pascal ו-Turing
סוגי המכונות N1 משתמשים בארכיטקטורות ה-GPU הבאות:
Tensor Core
ארכיטקטורות Turing ו-Volta של NVIDIA, שזמינות במופעי N1, מספקות תמיכה ב-Tensor Core לפעולות של דיוק מעורב, INT8 ו-INT4, ומציעות האצה בסיסית להסקת מסקנות של למידה עמוקה.
במעבדי ה-GPU האלה הוצגו הדורות הראשונים של ליבות Tensor, שמשמשות בעיקר לאימון FP16 ולכימות INT8 ו-INT4 בהסקת מסקנות. הטבלה הזו לא כוללת את סוגי המכונות N1 (P4) ו-N1 (P100) כי אין להם ליבות Tensor.
| סוג המכונה (דגם ה-GPU) | מעורב FP16/32 (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) |
|---|---|---|---|
| N1 (V100) | 125 | - | - |
| N1 (T4) | 65 | 130 | 260 |
ליבות CUDA רגילות
סוגי המכונות שמשתמשים בארכיטקטורות Volta, Pascal ו-Turing מצוידים בליבות CUDA של FP64 ו-FP32 כדי להאיץ מגוון של עומסי עבודה של HPC ו-AI. במעבדי GPU מסוג P100 ו-P4, הביצועים של FP16 ו-INT8 כלולים גם כדי לתמוך בעומסי עבודה של למידה עמוקה.
| סוג המכונה (דגם ה-GPU) | FP64 (TFLOPS) | FP32 (TFLOPS) | מדדים נוספים |
|---|---|---|---|
| N1 (V100) | 7.8 | 15.7 | - |
| N1 (P100) | 4.7 | 9.3 | FP16: 18.7 TFLOPS |
| N1 (T4) | 0.25 | 8.1 | - |
| N1 (P4) | 0.2 | 5.5 | INT8: 22 TOPS |
מה השלב הבא?
- מידע נוסף על יחידות GPU ב-Compute Engine
- כדאי לבדוק את הזמינות של אזורים ותחומים של GPU.
- חשוב לקרוא את המאמר בנושא רוחב פס ברשת ויחידות GPU.
- פרטי התמחור של יחידות GPU