במאמר הזה מפורטות היכולות וההגדרות של רוחב הפס ברשת למכונות Compute Engine עם מעבדי GPU מצורפים. מידע על רוחב הפס המקסימלי של הרשת, על סידורי כרטיסי רשת (NIC) ועל הגדרות מומלצות של רשת VPC לסוגי מכונות GPU שונים, כולל סדרות A4X Max, A4X, A4, A3, A2, G4, G2 ו-N1. הבנה של ההגדרות האלה יכולה לעזור לכם לשפר את הביצועים של עומסי העבודה המבוזרים ב-Compute Engine.
סקירה כללית
בטבלה הבאה מוצגת השוואה כללית של יכולות הרשת בין סוגי מכונות עם GPU.
| סוג המכונה | דגם ה-GPU | רוחב פס מקסימלי כולל | טכנולוגיית רשת GPU ל-GPU |
|---|---|---|---|
| A4X Max | NVIDIA GB300 Ultra Superchips | 3,600 Gbps | GPUDirect RDMA |
| A4X | שבבי-על NVIDIA GB200 | 2,000 Gbps | GPUDirect RDMA |
| A4 | NVIDIA B200 | 3,600 Gbps | GPUDirect RDMA |
| A3 Ultra | NVIDIA H200 | 3,600 Gbps | GPUDirect RDMA |
| A3 Mega | NVIDIA H100 80GB | 1,800 Gbps | GPUDirect-TCPXO |
| A3 High | NVIDIA H100 80GB | 1,000 Gbps | GPUDirect-TCPX |
| A3 Edge | NVIDIA H100 80GB | 600 Gbps | GPUDirect-TCPX |
| G4 | NVIDIA RTX PRO 6000 | 400 Gbps | לא רלוונטי |
| A2 Standard ו-A2 Ultra | NVIDIA A100 40GB, NVIDIA A100 80GB | 100 Gbps | לא רלוונטי |
| G2 | NVIDIA L4 | 100 Gbps | לא רלוונטי |
| N1 | NVIDIA T4, NVIDIA V100 | 100 Gbps | לא רלוונטי |
| N1 | NVIDIA P100, NVIDIA P4 | 32 Gbps | לא רלוונטי |
פונקציות GPUDirect RDMA ו-MRDMA
בסוגים מסוימים של מכונות שעברו אופטימיזציה לשימוש במאיצים, Google Cloud משתמשים ב-MRDMA כהטמעה של ממשק הרשת לחיבור בין GPU לרשת שתומך ב-GPUDirect RDMA.
GPUDirect RDMA היא טכנולוגיה של NVIDIA שמאפשרת לכרטיס ממשק רשת (NIC) לגשת ישירות לזיכרון GPU דרך PCIe, תוך עקיפת המעבד המארח וזיכרון המערכת. התקשורת ישירה בין כרטיס ה-NIC ל-GPU מפחיתה באופן משמעותי את זמן האחזור של תקשורת GPU ל-GPU בין צמתים.
MRDMA הוא הטמעה של ממשק רשת שמשמש בסוגי המכונות A4X Max, A4X, A4 ו-A3 Ultra כדי לספק יכולות GPUDirect RDMA. MRDMA מבוסס על כרטיסי רשת של NVIDIA ConnectX, וניתן לפרוס אותו באחת מהדרכים הבאות:
- פונקציות וירטואליות (VF) של MRDMA: משמשות בסדרות A3 Ultra, A4 ו-A4X.
- פונקציות פיזיות (PF) של MRDMA: משמשות בסדרת A4X Max.
פונקציות של MRDMA וכלים לניטור רשת
בסוגי המכונות A4X, A4 ו-A3 Ultra מיושמת רשת GPU-to-GPU עם ביצועים גבוהים באמצעות פונקציות וירטואליות (VF) של MRDMA. מכיוון שמדובר בישויות וירטואליות, יכולות מסוימות של מעקב ברמת החומרה מוגבלות בהשוואה לפונקציות פיזיות (PF).
עם MRDMA VFs, מונים של יציאות פיזיות רגילות (כמו אלה שמסתיימים ב-_phy) מופיעים בפלט ethtool -S אבל לא מתעדכנים במהלך פעילות ברשת. זוהי תכונה של ארכיטקטורת MRDMA VF. כדי לעקוב בצורה מדויקת אחרי ביצועי הרשת בממשקים האלה, צריך לעיין ברשומות של טבלת מוני vPort במקום בטבלת מוני היציאות הפיזיות.
סוג המכונה A4X Max משתמש ב-PF של MRDMA. בניגוד לסוגי המכונות שמבוססים על MRDMA VF, A4X Max תומך במגוון המלא של מוני יציאות פיזיות לרשת GPU.
סקירה של מושגים ברשתות לגבי סוגי מכונות עם GPU
השתמש בקטע הבא כדי לסקור את סידור הרשת ומהירות רוחב הפס עבור כל סוג מכונת GPU.
סוגי המכונות A4X Max ו-A4X
סדרות המכונות A4X Max ו-A4X, שמבוססות על ארכיטקטורת NVIDIA Blackwell, מיועדות לעומסי עבודה (workloads) תובעניים, מבוזרים ורחבי היקף של AI. ההבדל העיקרי בין שני סוגי המכונות הוא המאיצים המצורפים והחומרה של הרשת, כפי שמפורט בטבלה הבאה:
| A4X Max machine series | A4X machine series | |
|---|---|---|
| חומרה מצורפת | NVIDIA GB300 Ultra Superchips | שבבי-על NVIDIA GB200 |
| קישור בין יחידות GPU | 4 כרטיסי NVIDIA ConnectX-8 (CX-8) SuperNIC שמספקים רוחב פס של 3,200 Gbps בטופולוגיה של 8 מסילות מיושרות | 4 כרטיסי רשת (NIC) של NVIDIA ConnectX-7 (CX-7) שמספקים רוחב פס של 1,600 Gbps בטופולוגיה של 4 מסילות מיושרות |
| הטמעה של רשת בין מעבדי GPU | פונקציות פיזיות (PF) של MRDMA | פונקציות וירטואליות (VF) של MRDMA |
| רישות לשימוש כללי | 2 כרטיסי רשת חכמים (NIC) מסוג Titanium שמספקים רוחב פס של 400 Gbps | 2 כרטיסי רשת חכמים (NIC) מסוג Titanium שמספקים רוחב פס של 400 Gbps |
| רוחב הפס המקסימלי הכולל של הרשת | 3,600 Gbps | 2,000 Gbps |
ארכיטקטורת רשת רב-שכבתית
מכונות וירטואליות מסוג A4X Max ו-A4X לחישוב משתמשות בארכיטקטורת רשת היררכית מרובת שכבות עם עיצוב מותאם למסילות, כדי לבצע אופטימיזציה של הביצועים עבור סוגים שונים של תקשורת. בטופולוגיה הזו, המכונות מתחברות לכמה מישורי רשת עצמאיים שנקראים מסילות.
- במכונות A4X Max נעשה שימוש בטופולוגיה של 8 מסילות מיושרות, שבה כל אחד מארבעת כרטיסי הרשת ConnectX-8 של 800 Gbps מחובר לשתי מסילות נפרדות של 400 Gbps.
- במקרים של A4X, נעשה שימוש בטופולוגיה של 4 מסילות שמתאימה למסילות, שבה כל אחד מארבעת כרטיסי ה-NIC של ConnectX-7 מתחבר למסילה נפרדת.
שכבות הרשת של סוגי המכונות האלה הן:
תקשורת בתוך הצומת ובתוך תת-הבלוק (NVLink): רשת NVLink מהירה מחברת בין מעבדים גרפיים כדי לאפשר תקשורת עם רוחב פס גבוה וזמן אחזור נמוך. ה-fabric הזה מחבר את כל ה-GPU במכונה אחת ומתפרס על פני תת-בלוק, שמורכב מ-18 מכונות A4X Max או A4X (בסך הכול 72 GPU). כך כל 72 ה-GPU בתת-הבלוק יכולים לתקשר כאילו הם נמצאים בשרת GPU יחיד בקנה מידה גדול.
תקשורת בין תת-בלוקים (כרטיסי רשת ConnectX עם RoCE): כדי להרחיב את עומסי העבודה מעבר לתת-בלוק יחיד, המכונות האלה משתמשות בכרטיסי רשת ConnectX של NVIDIA. כרטיסי ה-NIC האלה משתמשים ב-RDMA over Converged Ethernet (RoCE) כדי לספק תקשורת עם רוחב פס גבוה וזמן אחזור נמוך בין בלוקים משניים, וכך מאפשרים לכם לבנות אשכולות אימון בקנה מידה גדול עם אלפי מעבדי GPU.
רשתות למטרות כלליות (כרטיסי רשת חכמים של Titanium): בנוסף לרשתות ה-GPU הייעודיות, לכל מכונה יש שני כרטיסי רשת חכמים של Titanium, שמספקים רוחב פס משולב של 400 Gbps למשימות רשת כלליות. התנועה הזו כוללת תנועה לאחסון, לניהול ולחיבור לשירותים אחרים או לאינטרנט הציבורי. Google Cloud
ארכיטקטורת A4X Max
ארכיטקטורת A4X Max מבוססת על NVIDIA GB300 Ultra Superchips. תכונה מרכזית בעיצוב הזה היא החיבור הישיר של ארבעה כרטיסי SuperNIC NVIDIA ConnectX-8 (CX-8) במהירות 800 Gbps למעבדי ה-GPU. כרטיסי ה-NIC האלה הם חלק מטופולוגיית רשת עם 8 מסילות מקבילות, שבה כל כרטיס NIC מתחבר לשתי מסילות נפרדות של 400 Gbps. הנתיב הישיר הזה מאפשר RDMA, ומספק רוחב פס גבוה וזמן אחזור נמוך לתקשורת בין GPU באזורי משנה שונים. המכונות הווירטואליות האלה ב-Compute Engine כוללות גם כונני SSD מקומיים בעלי ביצועים גבוהים שמחוברים לכרטיסי ה-NIC של ConnectX-8, וכך עוקפים את אפיק ה-PCIe ומאפשרים גישה מהירה יותר לנתונים.
ארכיטקטורת A4X
ארכיטקטורת A4X משתמשת ב-Superchips של NVIDIA GB200. בהגדרה הזו, ארבעת כרטיסי ה-NIC של NVIDIA ConnectX-7 (CX-7) מחוברים למעבד המארח. ההגדרה הזו מספקת רשתות עם ביצועים גבוהים לתקשורת בין יחידות GPU לבין תת-בלוקים.
הגדרת רשת של ענן וירטואלי פרטי (VPC) ב-A4X Max
כדי להשתמש בכל יכולות הרשת של סוגי המכונות האלה, צריך ליצור רשתות VPC ולצרף אותן למכונות. כדי להשתמש בכל כרטיסי ה-NIC הזמינים, צריך ליצור רשתות VPC באופן הבא:
שתי רשתות VPC רגילות לכרטיסי ה-NIC החכמים של Titanium.
- ב-A4X Max, רשתות ה-VPC האלה משתמשות במנהל ההתקן של Intel IDPF LAN PF.
- ב-A4X, רשתות ה-VPC האלה משתמשות בממשק הרשת Google Virtual NIC (gVNIC).
רשת VPC אחת עם פרופיל רשת RoCE נדרשת עבור כרטיסי ה-NIC של ConnectX כשיוצרים אשכולות של כמה תת-בלוקים מסוג A4X Max או A4X. רשת ה-VPC של RoCE צריכה לכלול תת-רשת אחת לכל מסילת רשת. כלומר, 8 רשתות משנה למופעי A4X Max ו-4 רשתות משנה למופעי A4X. אם משתמשים בתת-בלוק יחיד, אפשר להשמיט את רשת ה-VPC הזו כי רשת ה-NVLink מרובת הצמתים מטפלת בתקשורת ישירה בין יחידות ה-GPU.
הוראות להגדרת הרשתות האלה זמינות במאמר יצירת רשתות VPC במסמכי התיעוד של AI Hypercomputer.
סוגי המכונות A4X Max ו-A4X
A4X Max
| מערכות NVIDIA GB300 Grace Blackwell Ultra Superchips מצורפות | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3e) |
a4x-maxgpu-4g-metal |
144 | 960 | 12,000 | 6 | 3,600 | 4 | 1,116 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
A4X
| מצורפים שבבי NVIDIA GB200 Grace Blackwell Superchips | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 744 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סוגי מכונות A4 ו-A3 Ultra
לסוגי המכונות A4 מצורפים מעבדי GPU מסוג NVIDIA B200, ולסוגי המכונות A3 Ultra מצורפים מעבדי GPU מסוג NVIDIA H200.
סוגי המכונות האלה מספקים שמונה כרטיסי ממשק רשת (NIC) של NVIDIA ConnectX-7 (CX-7) ושני כרטיסי NIC וירטואליים של Google (gVNIC). שמונה כרטיסי ה-NIC של CX-7 מספקים רוחב פס כולל של 3,200 Gbps. כרטיסי ה-NIC האלה מיועדים רק לתקשורת בין GPU ל-GPU עם רוחב פס גבוה, ואי אפשר להשתמש בהם לצרכים אחרים של רשת, כמו גישה לאינטרנט ציבורי. כפי שמתואר בתרשים הבא, כל כרטיס רשת CX-7 מותאם ל-GPU אחד כדי לבצע אופטימיזציה של גישה לזיכרון לא אחיד (NUMA). כל שמונה יחידות ה-GPU יכולות לתקשר במהירות ביניהן באמצעות גשר NVLink שמחבר ביניהן. שני כרטיסי הממשק הנוספים של gVNIC הם כרטיסי NIC חכמים שמספקים רוחב פס נוסף של 400 Gbps לצרכים כלליים של רשת. ביחד, כרטיסי ממשק הרשת מספקים רוחב פס מרבי כולל של 3,600 Gbps למכונות האלה.
הקישוריות בין ה-GPU ל-GPU בביצועים גבוהים במכונות A4 ו-A3 Ultra מיושמת באמצעות פונקציות וירטואליות (VF) של MRDMA לכל אחד משמונת כרטיסי ה-NIC של ConnectX-7.
כדי להשתמש בכמה כרטיסי NIC, צריך ליצור 3 רשתות של ענן וירטואלי פרטי (VPC) באופן הבא:
- שתי רשתות VPC רגילות: כל gVNIC חייב להיות מצורף לרשת VPC אחרת
- רשת VPC אחת של RoCE: כל שמונת מתאמי ה-NIC של CX-7 חולקים את אותה רשת VPC של RoCE
הוראות להגדרת הרשתות האלה זמינות במאמר יצירת רשתות VPC בתיעוד של AI Hypercomputer.
A4
| מעבדים גרפיים (GPU) של NVIDIA B200 Blackwell מצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר בנושא רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
A3 Ultra
| מעבדי GPU של NVIDIA H200 שמצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סוגי המכונות A3 Mega, High ו-Edge
לסוגי המכונות האלה מצורפים כרטיסי GPU מסוג H100. לכל אחד מסוגי המכונות האלה יש מספר קבוע של GPU, מספר קבוע של vCPU וגודל זיכרון קבוע.
- מכונות וירטואליות מסוג A3 עם כרטיס רשת יחיד: במכונות וירטואליות מסוג A3 עם יחידת GPU אחת עד 4 יחידות GPU שמחוברות, זמין רק כרטיס רשת פיזי יחיד.
- מכונות וירטואליות מסוג A3 עם כמה כרטיסי NIC: למכונות וירטואליות מסוג A3 עם 8 יחידות GPU מצורפות, זמינים כמה כרטיסי NIC פיזיים. בסוגי המכונות האלה מסדרת A3, כרטיסי ה-NIC מסודרים באופן הבא באפיק Peripheral Component Interconnect Express (PCIe):
- עבור סוג המכונה A3 Mega: יש אפשרות לסידור של כרטיסי רשת של 8+1. בסידור הזה, 8 כרטיסי NIC חולקים את אותו אוטובוס PCIe, וכרטיס NIC אחד נמצא באוטובוס PCIe נפרד.
- עבור סוג המכונה A3 High: זמין סידור של כרטיסי רשת של 4+1. בסידור הזה, 4 כרטיסי NIC חולקים את אותו אוטובוס PCIe, וכרטיס NIC אחד נמצא באוטובוס PCIe נפרד.
- בסוג המכונה A3 Edge: זמין סידור של כרטיסי רשת של 4+1. בסידור הזה, 4 כרטיסי NIC חולקים את אותו אוטובוס PCIe, וכרטיס NIC אחד נמצא באוטובוס PCIe נפרד. חמשת כרטיסי ה-NIC האלה מספקים רוחב פס כולל של 400 Gbps לכל מכונה וירטואלית.
כרטיסי NIC שמשתפים את אותו אוטובוס PCIe, יש להם יישור NUMA של כרטיס NIC אחד לכל שני מעבדים גרפיים NVIDIA H100. כרטיסי ה-NIC האלה מתאימים במיוחד לתקשורת ייעודית בין יחידות GPU עם רוחב פס גבוה. כרטיס ה-NIC הפיזי שנמצא באפיק PCIe נפרד הוא אידיאלי לצרכים אחרים של רשת. הוראות להגדרת רשתות למכונות וירטואליות מסוג A3 High ו-A3 Edge זמינות במאמר בנושא הגדרת רשתות MTU של מסגרות ג'מבו.
A3 Mega
| מעבדי GPU מסוג NVIDIA H100 מצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
| מעבדי GPU מסוג NVIDIA H100 מצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3 Edge
| מעבדי GPU מסוג NVIDIA H100 מצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | מספר כרטיסי ה-NIC הפיזיים | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6,000 | 5 |
|
8 | 640 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סוגי מכונות A2
לכל סוג מכונה A2 מצורף מספר קבוע של מעבדי GPU מסוג NVIDIA A100 40GB או NVIDIA A100 80 GB. לכל סוג מכונה יש גם מספר קבוע של vCPU וגודל זיכרון.
סדרת מכונות A2 זמינה בשני סוגים:
- A2 Ultra: לסוגי המכונות האלה מצורפים יחידות GPU מסוג A100 בנפח 80GB ודיסקים מקומיים של SSD.
- A2 Standard: לסוגי המכונות האלה מצורפים מעבדי GPU מסוג A100 בנפח 40GB.
A2 Ultra
| מצורפים מעבדי GPU של NVIDIA A100 בנפח 80GB | ||||||
|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | אחסון SSD מקומי מצורף (GiB) | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 Standard
| מצורפים מעבדי GPU של NVIDIA A100 בנפח 40GB | ||||||
|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | יש תמיכה באחסון SSD מקומי | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | כן | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | כן | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | כן | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | כן | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | כן | 100 | 16 | 640 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סוגי מכונות G4
סוגי המכונות G4 שעברו אופטימיזציה להאצה
משתמשים ב
מעבדים גרפיים (GPU) מסוג NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) והם מתאימים לעומסי עבודה של סימולציה ב-NVIDIA Omniverse, לאפליקציות עתירות גרפיקה, לטרנסקוד של וידאו ולמחשבים וירטואליים. סוגי המכונות G4 מספקים גם פתרון בעלות נמוכה לביצוע הסקה של מארח יחיד וכוונון מודלים, בהשוואה לסוגי המכונות מסדרת A.
| מעבדי GPU מסוג NVIDIA RTX PRO 6000 שמצורפים | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון המכונה (GB) | נפח ה-Titanium SSD המקסימלי שנתמך (GiB)2 | מספר כרטיסי ה-NIC הפיזיים | רוחב פס מקסימלי ברשת (Gbps)3 | מספר יחידות ה-GPU | זיכרון GPU4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1,500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3,000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6,000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1,440 | 12,000 | 2 | 400 | 8 | 768 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2 אפשר להוסיף דיסקים של Titanium SSD כשיוצרים מופע G4. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.
3רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע על רוחב הפס של הרשת
4זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סוגי מכונות G2
לסוגי מכונות G2 שעברו אופטימיזציה להאצה מצורפים מעבדי NVIDIA L4 GPU, והם אידיאליים להסקת מסקנות עם אופטימיזציה של עלויות, לעומסי עבודה של מחשוב עתיר גרפיקה ולעומסי עבודה של מחשוב עתיר ביצועים (HPC).
לכל סוג מכונה G2 יש גם זיכרון שמוגדר כברירת מחדל וטווח זיכרון בהתאמה אישית. טווח הזיכרון המותאם אישית מגדיר את נפח הזיכרון שאפשר להקצות למופע לכל סוג מכונה. אפשר גם להוסיף דיסקים מסוג Local SSD כשיוצרים מופע G2. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.
כדי להחיל את קצבי רוחב הפס הגבוהים יותר ברשת (50 Gbps ומעלה) על רוב מופעי ה-GPU, מומלץ להשתמש בממשק רשת וירטואלי של Google (gVNIC). מידע נוסף על יצירת מכונות עם GPU שמשתמשות ב-gVNIC זמין במאמר בנושא יצירת מכונות עם GPU שמשתמשות ברוחבי פס גבוהים יותר.
| מצורפים GPUs מסוג NVIDIA L4 | |||||||
|---|---|---|---|---|---|---|---|
| סוג המכונה | מספר ליבות וירטואליות (vCPU)1 | זיכרון ברירת המחדל של המכונה (GB) | טווח זיכרון מותאם אישית של מכונה (GB) | הנפח המקסימלי של SSD מקומי שנתמך (GiB) | רוחב הפס המקסימלי ברשת (Gbps)2 | מספר יחידות ה-GPU | זיכרון GPU3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 עד 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 עד 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 עד 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 עד 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 עד 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 עד 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 עד 216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 עד 432 | 3,000 | 100 | 8 | 192 |
1vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים.
מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
סוגי מכונות N1 + GPU
במכונות וירטואליות (VM) למטרות כלליות מסוג N1 שמצורפים אליהן מעבדי GPU מסוג T4 ו-V100, אפשר לקבל רוחב פס מקסימלי של עד 100 Gbps, בהתאם לשילוב של מעבד ה-GPU ומספר ליבות ה-vCPU. לגבי כל שאר מכונות ה-GPU מסוג N1, אפשר לעיין במאמר סקירה כללית.
בקטע הבא מוסבר איך לחשב את רוחב הפס המקסימלי ברשת שזמין למופעי T4 ו-V100 על סמך מודל ה-GPU, מספר ה-vCPU ומספר ה-GPU.
פחות מ-5 מעבדים וירטואליים
במקרים של מכונות וירטואליות מסוג T4 ו-V100 עם 5 ליבות וירטואליות או פחות, רוחב הפס המקסימלי ברשת הוא 10 Gbps.
יותר מ-5 מעבדים וירטואליים
במכונות וירטואליות מסוג T4 ו-V100 שיש להן יותר מ-5 ליבות וירטואליות, רוחב הפס המקסימלי ברשת מחושב על סמך מספר הליבות הווירטואליות ויחידות ה-GPU של המכונה הווירטואלית.
כדי להחיל את קצבי רוחב הפס הגבוהים יותר ברשת (50 Gbps ומעלה) על רוב מופעי ה-GPU, מומלץ להשתמש בממשק רשת וירטואלי של Google (gVNIC). מידע נוסף על יצירת מכונות עם GPU שמשתמשות ב-gVNIC זמין במאמר בנושא יצירת מכונות עם GPU שמשתמשות ברוחבי פס גבוהים יותר.
| דגם ה-GPU | מספר יחידות ה-GPU | חישוב רוחב הפס המקסימלי של הרשת |
|---|---|---|
| NVIDIA V100 | 1 | min(vcpu_count * 2, 32) |
| 2 | min(vcpu_count * 2, 32) |
|
| 4 | min(vcpu_count * 2, 50) |
|
| 8 | min(vcpu_count * 2, 100) |
|
| NVIDIA T4 | 1 | min(vcpu_count * 2, 32) |
| 2 | min(vcpu_count * 2, 50) |
|
| 4 | min(vcpu_count * 2, 100) |
הגדרות MTU וסוגי מכונות GPU
כדי להגדיל את תפוקת הרשת, מגדירים ערך גבוה יותר של יחידת שידור מקסימלית (MTU) ברשתות ה-VPC. ערכי MTU גבוהים יותר מגדילים את גודל החבילה ומקטינים את התקורה של כותרת החבילה, מה שמגדיל בתורו את קצב העברת הנתונים של המטען הייעודי.
לסוגי מכונות עם GPU, מומלץ להשתמש בהגדרות ה-MTU הבאות ברשתות ה-VPC.
| סוג מכונה עם GPU | ערך MTU מומלץ (בבייטים) | |
|---|---|---|
| רשת VPC רגילה | רשת VPC של RoCE | |
|
8896 | 8896 |
|
8244 | לא רלוונטי |
|
8896 | לא רלוונטי |
כשמגדירים את ערך ה-MTU, חשוב לשים לב לנקודות הבאות:
- 8192 הוא שני דפים של 4 KB.
- מומלץ להשתמש בערך 8244 במכונות וירטואליות מסוג A3 Mega, A3 High ו-A3 Edge עבור כרטיסי רשת של GPU שמופעל בהם פיצול כותרות.
- משתמשים בערך 8896, אלא אם מצוין אחרת בטבלה.
יצירת מכונות GPU עם רוחב פס גבוה
כדי ליצור מכונות עם GPU שמשתמשות ברוחבי פס גבוהים יותר ברשת, משתמשים באחת מהשיטות הבאות בהתאם לסוג המכונה:
כדי ליצור מכונות A2, G2 ו-N1 שמשתמשות ברוחבי פס גבוהים יותר ברשת, אפשר לעיין במאמר בנושא שימוש ברוחב פס גבוה יותר ברשת למכונות A2, G2 ו-N1. כדי לבדוק או לאמת את מהירות רוחב הפס במכונות האלה, אפשר להשתמש במבחן ההשוואה. מידע נוסף זמין במאמר בנושא בדיקת רוחב פס ברשת.
כדי ליצור מכונות A3 Mega שמשתמשות ברוחבי פס גבוהים יותר ברשת, אפשר לעיין במאמר בנושא פריסת אשכול Slurm של A3 Mega לאימון ML. כדי לבדוק או לאמת את מהירות רוחב הפס במכונות האלה, צריך להשתמש במבחן השוואתי לפי השלבים שמתוארים במאמר בנושא בדיקת רוחב הפס ברשת.
למכונות A3 High ו-A3 Edge שמשתמשות ברוחבי פס גבוהים יותר ברשת, אפשר לעיין במאמר בנושא יצירת מכונה וירטואלית מסוג A3 עם GPUDirect-TCPX מופעל. כדי לבדוק או לאמת את מהירות רוחב הפס במכונות האלה, אפשר להשתמש במבחן ההשוואה. מידע נוסף זמין במאמר בנושא בדיקת רוחב פס ברשת.
בסוגי מכונות אחרים שעברו אופטימיזציה לשימוש במאיצים, לא נדרשת פעולה כדי להשתמש ברוחב פס גבוה יותר ברשת. יצירת מופע כמו שמתואר במסמכים כבר משתמשת ברוחב פס גבוה ברשת. איך יוצרים מכונה וירטואלית עם מעבדי GPU מצורפים
מה השלב הבא?
- מידע נוסף על פלטפורמות GPU
- איך יוצרים מכונות עם מעבדי GPU מצורפים
- מידע נוסף על שימוש ברוחב פס גבוה יותר
- מידע על תמחור של GPU