מכונות GPU ורשתות

במאמר הזה מפורטות היכולות וההגדרות של רוחב הפס ברשת למכונות Compute Engine עם מעבדי GPU מצורפים. מידע על רוחב הפס המקסימלי של הרשת, על סידורי כרטיסי רשת (NIC) ועל הגדרות מומלצות של רשת VPC לסוגי מכונות GPU שונים, כולל סדרות A4X Max,‏ A4X,‏ A4,‏ A3,‏ A2,‏ G4,‏ G2 ו-N1. הבנה של ההגדרות האלה יכולה לעזור לכם לשפר את הביצועים של עומסי העבודה המבוזרים ב-Compute Engine.

סקירה כללית

בטבלה הבאה מוצגת השוואה כללית של יכולות הרשת בין סוגי מכונות עם GPU.

סוג המכונה דגם ה-GPU רוחב פס מקסימלי כולל טכנולוגיית רשת GPU ל-GPU
A4X Max NVIDIA GB300 Ultra Superchips ‫3,600 Gbps GPUDirect RDMA
A4X שבבי-על NVIDIA GB200 ‫2,000 Gbps GPUDirect RDMA
A4 NVIDIA B200 ‫3,600 Gbps GPUDirect RDMA
A3 Ultra NVIDIA H200 ‫3,600 Gbps GPUDirect RDMA
A3 Mega NVIDIA H100 80GB ‫1,800 Gbps GPUDirect-TCPXO
A3 High NVIDIA H100 80GB ‫1,000 Gbps GPUDirect-TCPX
A3 Edge NVIDIA H100 80GB ‫600 Gbps GPUDirect-TCPX
G4 NVIDIA RTX PRO 6000 ‫400 Gbps לא רלוונטי
A2 Standard ו-A2 Ultra NVIDIA A100 40GB, NVIDIA A100 80GB ‫100 Gbps לא רלוונטי
G2 NVIDIA L4 ‫100 Gbps לא רלוונטי
N1 ‫NVIDIA T4, ‏ NVIDIA V100 ‫100 Gbps לא רלוונטי
N1 ‫NVIDIA P100, ‏ NVIDIA P4 ‫32 Gbps לא רלוונטי

פונקציות GPUDirect RDMA ו-MRDMA

בסוגים מסוימים של מכונות שעברו אופטימיזציה לשימוש במאיצים, Google Cloud משתמשים ב-MRDMA כהטמעה של ממשק הרשת לחיבור בין GPU לרשת שתומך ב-GPUDirect RDMA.

GPUDirect RDMA היא טכנולוגיה של NVIDIA שמאפשרת לכרטיס ממשק רשת (NIC) לגשת ישירות לזיכרון GPU דרך PCIe, תוך עקיפת המעבד המארח וזיכרון המערכת. התקשורת ישירה בין כרטיס ה-NIC ל-GPU מפחיתה באופן משמעותי את זמן האחזור של תקשורת GPU ל-GPU בין צמתים.

MRDMA הוא הטמעה של ממשק רשת שמשמש בסוגי המכונות A4X Max,‏ A4X,‏ A4 ו-A3 Ultra כדי לספק יכולות GPUDirect RDMA. ‫MRDMA מבוסס על כרטיסי רשת של NVIDIA ConnectX, וניתן לפרוס אותו באחת מהדרכים הבאות:

  • פונקציות וירטואליות (VF) של MRDMA: משמשות בסדרות A3 Ultra,‏ A4 ו-A4X.
  • פונקציות פיזיות (PF) של MRDMA: משמשות בסדרת A4X Max.

פונקציות של MRDMA וכלים לניטור רשת

בסוגי המכונות A4X,‏ A4 ו-A3 Ultra מיושמת רשת GPU-to-GPU עם ביצועים גבוהים באמצעות פונקציות וירטואליות (VF) של MRDMA. מכיוון שמדובר בישויות וירטואליות, יכולות מסוימות של מעקב ברמת החומרה מוגבלות בהשוואה לפונקציות פיזיות (PF).

עם MRDMA VFs, מונים של יציאות פיזיות רגילות (כמו אלה שמסתיימים ב-_phy) מופיעים בפלט ethtool -S אבל לא מתעדכנים במהלך פעילות ברשת. זוהי תכונה של ארכיטקטורת MRDMA VF. כדי לעקוב בצורה מדויקת אחרי ביצועי הרשת בממשקים האלה, צריך לעיין ברשומות של טבלת מוני vPort במקום בטבלת מוני היציאות הפיזיות.

סוג המכונה A4X Max משתמש ב-PF של MRDMA. בניגוד לסוגי המכונות שמבוססים על MRDMA VF,‏ A4X Max תומך במגוון המלא של מוני יציאות פיזיות לרשת GPU.

סקירה של מושגים ברשתות לגבי סוגי מכונות עם GPU

השתמש בקטע הבא כדי לסקור את סידור הרשת ומהירות רוחב הפס עבור כל סוג מכונת GPU.

סוגי המכונות A4X Max ו-A4X

סדרות המכונות A4X Max ו-A4X, שמבוססות על ארכיטקטורת NVIDIA Blackwell, מיועדות לעומסי עבודה (workloads) תובעניים, מבוזרים ורחבי היקף של AI. ההבדל העיקרי בין שני סוגי המכונות הוא המאיצים המצורפים והחומרה של הרשת, כפי שמפורט בטבלה הבאה:

A4X Max machine series A4X machine series
חומרה מצורפת NVIDIA GB300 Ultra Superchips שבבי-על NVIDIA GB200
קישור בין יחידות GPU ‫4 כרטיסי NVIDIA ConnectX-8 (CX-8) SuperNIC שמספקים רוחב פס של 3,200 Gbps בטופולוגיה של 8 מסילות מיושרות ‫4 כרטיסי רשת (NIC) של NVIDIA ConnectX-7 ‏(CX-7) שמספקים רוחב פס של 1,600 Gbps בטופולוגיה של 4 מסילות מיושרות
הטמעה של רשת בין מעבדי GPU פונקציות פיזיות (PF) של MRDMA פונקציות וירטואליות (VF) של MRDMA
רישות לשימוש כללי ‫2 כרטיסי רשת חכמים (NIC) מסוג Titanium שמספקים רוחב פס של ‎400 Gbps ‫2 כרטיסי רשת חכמים (NIC) מסוג Titanium שמספקים רוחב פס של ‎400 Gbps
רוחב הפס המקסימלי הכולל של הרשת ‫3,600 Gbps ‫2,000 Gbps

ארכיטקטורת רשת רב-שכבתית

מכונות וירטואליות מסוג A4X Max ו-A4X לחישוב משתמשות בארכיטקטורת רשת היררכית מרובת שכבות עם עיצוב מותאם למסילות, כדי לבצע אופטימיזציה של הביצועים עבור סוגים שונים של תקשורת. בטופולוגיה הזו, המכונות מתחברות לכמה מישורי רשת עצמאיים שנקראים מסילות.

  • במכונות A4X Max נעשה שימוש בטופולוגיה של 8 מסילות מיושרות, שבה כל אחד מארבעת כרטיסי הרשת ConnectX-8 של 800 Gbps מחובר לשתי מסילות נפרדות של 400 Gbps.
  • במקרים של A4X, נעשה שימוש בטופולוגיה של 4 מסילות שמתאימה למסילות, שבה כל אחד מארבעת כרטיסי ה-NIC של ConnectX-7 מתחבר למסילה נפרדת.

שכבות הרשת של סוגי המכונות האלה הן:

  • תקשורת בתוך הצומת ובתוך תת-הבלוק (NVLink): רשת NVLink מהירה מחברת בין מעבדים גרפיים כדי לאפשר תקשורת עם רוחב פס גבוה וזמן אחזור נמוך. ה-fabric הזה מחבר את כל ה-GPU במכונה אחת ומתפרס על פני תת-בלוק, שמורכב מ-18 מכונות A4X Max או A4X (בסך הכול 72 GPU). כך כל 72 ה-GPU בתת-הבלוק יכולים לתקשר כאילו הם נמצאים בשרת GPU יחיד בקנה מידה גדול.

  • תקשורת בין תת-בלוקים (כרטיסי רשת ConnectX עם RoCE): כדי להרחיב את עומסי העבודה מעבר לתת-בלוק יחיד, המכונות האלה משתמשות בכרטיסי רשת ConnectX של NVIDIA. כרטיסי ה-NIC האלה משתמשים ב-RDMA over Converged Ethernet ‏ (RoCE) כדי לספק תקשורת עם רוחב פס גבוה וזמן אחזור נמוך בין בלוקים משניים, וכך מאפשרים לכם לבנות אשכולות אימון בקנה מידה גדול עם אלפי מעבדי GPU.

  • רשתות למטרות כלליות (כרטיסי רשת חכמים של Titanium): בנוסף לרשתות ה-GPU הייעודיות, לכל מכונה יש שני כרטיסי רשת חכמים של Titanium, שמספקים רוחב פס משולב של ‎400 Gbps למשימות רשת כלליות. התנועה הזו כוללת תנועה לאחסון, לניהול ולחיבור לשירותים אחרים או לאינטרנט הציבורי. Google Cloud

ארכיטקטורת A4X Max

ארכיטקטורת A4X Max מבוססת על NVIDIA GB300 Ultra Superchips. תכונה מרכזית בעיצוב הזה היא החיבור הישיר של ארבעה כרטיסי SuperNIC‏ NVIDIA ConnectX-8 ‏ (CX-8)‎ במהירות 800 Gbps למעבדי ה-GPU. כרטיסי ה-NIC האלה הם חלק מטופולוגיית רשת עם 8 מסילות מקבילות, שבה כל כרטיס NIC מתחבר לשתי מסילות נפרדות של 400 Gbps. הנתיב הישיר הזה מאפשר RDMA, ומספק רוחב פס גבוה וזמן אחזור נמוך לתקשורת בין GPU באזורי משנה שונים. המכונות הווירטואליות האלה ב-Compute Engine כוללות גם כונני SSD מקומיים בעלי ביצועים גבוהים שמחוברים לכרטיסי ה-NIC של ConnectX-8, וכך עוקפים את אפיק ה-PCIe ומאפשרים גישה מהירה יותר לנתונים.

ארכיטקטורת רשת של A4X Max עם ארבעה כרטיסי רשת לתקשורת GPU ושני כרטיסי רשת Titanium לרשתות כלליות.
איור 1. ארכיטקטורת רשת למארח יחיד של A4X Max

ארכיטקטורת A4X

ארכיטקטורת A4X משתמשת ב-Superchips של NVIDIA GB200. בהגדרה הזו, ארבעת כרטיסי ה-NIC של NVIDIA ConnectX-7 ‏ (CX-7) מחוברים למעבד המארח. ההגדרה הזו מספקת רשתות עם ביצועים גבוהים לתקשורת בין יחידות GPU לבין תת-בלוקים.

ארכיטקטורת רשת של A4X עם ארבעה כרטיסי רשת לתקשורת GPU
      ושני כרטיסי רשת Titanium לרשתות כלליות.
איור 2. ארכיטקטורת רשת למארח A4X יחיד

הגדרת רשת של ענן וירטואלי פרטי (VPC) ב-A4X Max

כדי להשתמש בכל יכולות הרשת של סוגי המכונות האלה, צריך ליצור רשתות VPC ולצרף אותן למכונות. כדי להשתמש בכל כרטיסי ה-NIC הזמינים, צריך ליצור רשתות VPC באופן הבא:

  • שתי רשתות VPC רגילות לכרטיסי ה-NIC החכמים של Titanium.

  • רשת VPC אחת עם פרופיל רשת RoCE נדרשת עבור כרטיסי ה-NIC של ConnectX כשיוצרים אשכולות של כמה תת-בלוקים מסוג A4X Max או A4X. רשת ה-VPC של RoCE צריכה לכלול תת-רשת אחת לכל מסילת רשת. כלומר, 8 רשתות משנה למופעי A4X Max ו-4 רשתות משנה למופעי A4X. אם משתמשים בתת-בלוק יחיד, אפשר להשמיט את רשת ה-VPC הזו כי רשת ה-NVLink מרובת הצמתים מטפלת בתקשורת ישירה בין יחידות ה-GPU.

הוראות להגדרת הרשתות האלה זמינות במאמר יצירת רשתות VPC במסמכי התיעוד של AI Hypercomputer.

סוגי המכונות A4X Max ו-A4X

A4X Max

מערכות NVIDIA GB300 Grace Blackwell Ultra Superchips מצורפות
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) אחסון SSD מקומי מצורף (GiB) מספר כרטיסי ה-NIC הפיזיים רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12,000 6 3,600 4 1,116

1‫vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

A4X

מצורפים שבבי NVIDIA GB200 Grace Blackwell Superchips
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) אחסון SSD מקומי מצורף (GiB) מספר כרטיסי ה-NIC הפיזיים רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU3
(GB HBM3e)
a4x-highgpu-4g 140 884 12,000 6 2,000 4 744

1‫vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

סוגי מכונות A4 ו-A3 Ultra

לסוגי המכונות A4 מצורפים מעבדי GPU מסוג NVIDIA B200, ולסוגי המכונות A3 Ultra מצורפים מעבדי GPU מסוג NVIDIA H200.

סוגי המכונות האלה מספקים שמונה כרטיסי ממשק רשת (NIC) של NVIDIA ConnectX-7 ‏ (CX-7) ושני כרטיסי NIC וירטואליים של Google ‏ (gVNIC). שמונה כרטיסי ה-NIC של CX-7 מספקים רוחב פס כולל של 3,200 Gbps. כרטיסי ה-NIC האלה מיועדים רק לתקשורת בין GPU ל-GPU עם רוחב פס גבוה, ואי אפשר להשתמש בהם לצרכים אחרים של רשת, כמו גישה לאינטרנט ציבורי. כפי שמתואר בתרשים הבא, כל כרטיס רשת CX-7 מותאם ל-GPU אחד כדי לבצע אופטימיזציה של גישה לזיכרון לא אחיד (NUMA). כל שמונה יחידות ה-GPU יכולות לתקשר במהירות ביניהן באמצעות גשר NVLink שמחבר ביניהן. שני כרטיסי הממשק הנוספים של gVNIC הם כרטיסי NIC חכמים שמספקים רוחב פס נוסף של 400 Gbps לצרכים כלליים של רשת. ביחד, כרטיסי ממשק הרשת מספקים רוחב פס מרבי כולל של 3,600 Gbps למכונות האלה.

הקישוריות בין ה-GPU ל-GPU בביצועים גבוהים במכונות A4 ו-A3 Ultra מיושמת באמצעות פונקציות וירטואליות (VF) של MRDMA לכל אחד משמונת כרטיסי ה-NIC של ConnectX-7.

ארכיטקטורת רשת עבור A4 ו-A3 Ultra שבה מוצגים שמונה כרטיסי רשת CX-7 לתקשורת GPU
    ושני gVNIC לרשת כללית.
איור 3. ארכיטקטורת רשת למארח יחיד של A4 או A3 Ultra

כדי להשתמש בכמה כרטיסי NIC, צריך ליצור 3 רשתות של ענן וירטואלי פרטי (VPC) באופן הבא:

  • שתי רשתות VPC רגילות: כל gVNIC חייב להיות מצורף לרשת VPC אחרת
  • רשת VPC אחת של RoCE: כל שמונת מתאמי ה-NIC של CX-7 חולקים את אותה רשת VPC של RoCE

הוראות להגדרת הרשתות האלה זמינות במאמר יצירת רשתות VPC בתיעוד של AI Hypercomputer.

A4

מעבדים גרפיים (GPU) של NVIDIA B200 Blackwell מצורפים
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) אחסון SSD מקומי מצורף (GiB) מספר כרטיסי ה-NIC הפיזיים רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU3
(GB HBM3e)
a4-highgpu-8g 224 3,968 12,000 10 3,600 8 1,440

1‫vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע נוסף על רוחב פס ברשת זמין במאמר בנושא רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

A3 Ultra

מעבדי GPU של NVIDIA H200 שמצורפים
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) אחסון SSD מקומי מצורף (GiB) מספר כרטיסי ה-NIC הפיזיים רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU3
(GB HBM3e)
a3-ultragpu-8g 224 2,952 12,000 10 3,600 8 1128

1‫vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

סוגי המכונות A3 Mega,‏ High ו-Edge

לסוגי המכונות האלה מצורפים כרטיסי GPU מסוג H100. לכל אחד מסוגי המכונות האלה יש מספר קבוע של GPU, מספר קבוע של vCPU וגודל זיכרון קבוע.

  • מכונות וירטואליות מסוג A3 עם כרטיס רשת יחיד: במכונות וירטואליות מסוג A3 עם יחידת GPU אחת עד 4 יחידות GPU שמחוברות, זמין רק כרטיס רשת פיזי יחיד.
  • מכונות וירטואליות מסוג A3 עם כמה כרטיסי NIC: למכונות וירטואליות מסוג A3 עם 8 יחידות GPU מצורפות, זמינים כמה כרטיסי NIC פיזיים. בסוגי המכונות האלה מסדרת A3, כרטיסי ה-NIC מסודרים באופן הבא באפיק Peripheral Component Interconnect Express ‏ (PCIe):
    • עבור סוג המכונה A3 Mega: יש אפשרות לסידור של כרטיסי רשת של 8+1. בסידור הזה, 8 כרטיסי NIC חולקים את אותו אוטובוס PCIe, וכרטיס NIC אחד נמצא באוטובוס PCIe נפרד.
    • עבור סוג המכונה A3 High: זמין סידור של כרטיסי רשת של 4+1. בסידור הזה, 4 כרטיסי NIC חולקים את אותו אוטובוס PCIe, וכרטיס NIC אחד נמצא באוטובוס PCIe נפרד.
    • בסוג המכונה A3 Edge: זמין סידור של כרטיסי רשת של 4+1. בסידור הזה, 4 כרטיסי NIC חולקים את אותו אוטובוס PCIe, וכרטיס NIC אחד נמצא באוטובוס PCIe נפרד. חמשת כרטיסי ה-NIC האלה מספקים רוחב פס כולל של 400 Gbps לכל מכונה וירטואלית.

    כרטיסי NIC שמשתפים את אותו אוטובוס PCIe, יש להם יישור NUMA של כרטיס NIC אחד לכל שני מעבדים גרפיים NVIDIA H100. כרטיסי ה-NIC האלה מתאימים במיוחד לתקשורת ייעודית בין יחידות GPU עם רוחב פס גבוה. כרטיס ה-NIC הפיזי שנמצא באפיק PCIe נפרד הוא אידיאלי לצרכים אחרים של רשת. הוראות להגדרת רשתות למכונות וירטואליות מסוג A3 High ו-A3 Edge זמינות במאמר בנושא הגדרת רשתות MTU של מסגרות ג'מבו.

A3 Mega

מעבדי GPU מסוג NVIDIA H100 מצורפים
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) אחסון SSD מקומי מצורף (GiB) מספר כרטיסי ה-NIC הפיזיים רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU3
(GB HBM3)
a3-megagpu-8g 208 1,872 6,000 9 ‫1,800 8 640

A3 High

מעבדי GPU מסוג NVIDIA H100 מצורפים
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) אחסון SSD מקומי מצורף (GiB) מספר כרטיסי ה-NIC הפיזיים רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1,500 1 50 2 160
a3-highgpu-4g 104 936 3,000 1 100 4 320
a3-highgpu-8g 208 1,872 6,000 5 1,000 8 640

A3 Edge

מעבדי GPU מסוג NVIDIA H100 מצורפים
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) אחסון SSD מקומי מצורף (GiB) מספר כרטיסי ה-NIC הפיזיים רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU3
(GB HBM3)
a3-edgegpu-8g 208 1,872 6,000 5
  • ‫600: for asia-south1 and northamerica-northeast2
  • ‫400: לכל שאר אזורי A3 Edge
8 640

1‫vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

סוגי מכונות A2

לכל סוג מכונה A2 מצורף מספר קבוע של מעבדי GPU מסוג NVIDIA A100 40GB או NVIDIA A100 80 GB. לכל סוג מכונה יש גם מספר קבוע של vCPU וגודל זיכרון.

סדרת מכונות A2 זמינה בשני סוגים:

  • ‫A2 Ultra: לסוגי המכונות האלה מצורפים יחידות GPU מסוג A100 בנפח 80GB ודיסקים מקומיים של SSD.
  • ‫A2 Standard: לסוגי המכונות האלה מצורפים מעבדי GPU מסוג A100 בנפח 40GB.

A2 Ultra

מצורפים מעבדי GPU של NVIDIA A100 בנפח 80GB
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) אחסון SSD מקומי מצורף (GiB) רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1,500 50 4 320
a2-ultragpu-8g 96 1,360 3,000 100 8 640

A2 Standard

מצורפים מעבדי GPU של NVIDIA A100 בנפח 40GB
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) יש תמיכה באחסון SSD מקומי רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU‏3
(GB HBM2)
a2-highgpu-1g 12 85 כן 24 1 40
a2-highgpu-2g 24 170 כן 32 2 80
a2-highgpu-4g 48 340 כן 50 4 160
a2-highgpu-8g 96 680 כן 100 8 320
a2-megagpu-16g 96 1,360 כן 100 16 640

1‫vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

סוגי מכונות G4

סוגי המכונות G4 שעברו אופטימיזציה להאצה משתמשים ב מעבדים גרפיים (GPU) מסוג NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) והם מתאימים לעומסי עבודה של סימולציה ב-NVIDIA Omniverse, לאפליקציות עתירות גרפיקה, לטרנסקוד של וידאו ולמחשבים וירטואליים. סוגי המכונות G4 מספקים גם פתרון בעלות נמוכה לביצוע הסקה של מארח יחיד וכוונון מודלים, בהשוואה לסוגי המכונות מסדרת A.

מעבדי GPU מסוג NVIDIA RTX PRO 6000 שמצורפים
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון המכונה (GB) נפח ה-Titanium SSD המקסימלי שנתמך (GiB)2 מספר כרטיסי ה-NIC הפיזיים רוחב פס מקסימלי ברשת (Gbps)3 מספר יחידות ה-GPU זיכרון GPU‏4
(GB GDDR7)
g4-standard-48 48 180 1,500 1 50 1 96
g4-standard-96 96 360 3,000 1 100 2 192
g4-standard-192 192 720 6,000 1 200 4 384
g4-standard-384 384 1,440 12,000 2 400 8 768

1‫vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2 אפשר להוסיף דיסקים של Titanium SSD כשיוצרים מופע G4. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.
‫3רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע על רוחב הפס של הרשת
‫4זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

סוגי מכונות G2

לסוגי מכונות G2 שעברו אופטימיזציה להאצה מצורפים מעבדי NVIDIA L4 GPU, והם אידיאליים להסקת מסקנות עם אופטימיזציה של עלויות, לעומסי עבודה של מחשוב עתיר גרפיקה ולעומסי עבודה של מחשוב עתיר ביצועים (HPC).

לכל סוג מכונה G2 יש גם זיכרון שמוגדר כברירת מחדל וטווח זיכרון בהתאמה אישית. טווח הזיכרון המותאם אישית מגדיר את נפח הזיכרון שאפשר להקצות למופע לכל סוג מכונה. אפשר גם להוסיף דיסקים מסוג Local SSD כשיוצרים מופע G2. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.

כדי להחיל את קצבי רוחב הפס הגבוהים יותר ברשת (50 Gbps ומעלה) על רוב מופעי ה-GPU, מומלץ להשתמש בממשק רשת וירטואלי של Google‏ (gVNIC). מידע נוסף על יצירת מכונות עם GPU שמשתמשות ב-gVNIC זמין במאמר בנושא יצירת מכונות עם GPU שמשתמשות ברוחבי פס גבוהים יותר.

מצורפים GPUs מסוג NVIDIA L4
סוג המכונה מספר ליבות וירטואליות (vCPU)1 זיכרון ברירת המחדל של המכונה (GB) טווח זיכרון מותאם אישית של מכונה (GB) הנפח המקסימלי של SSD מקומי שנתמך (GiB) רוחב הפס המקסימלי ברשת (Gbps)2 מספר יחידות ה-GPU זיכרון GPU‏3 (GB GDDR6)
g2-standard-4 4 16 ‫16 עד 32 375 10 1 24
g2-standard-8 8 32 ‫32 עד 54 375 16 1 24
g2-standard-12 12 48 ‫48 עד 54 375 16 1 24
g2-standard-16 16 64 ‫54 עד 64 375 32 1 24
g2-standard-24 24 96 ‫96 עד 108 750 32 2 48
g2-standard-32 32 128 ‫96 עד 128 375 32 1 24
g2-standard-48 48 192 ‫192 עד 216 1,500 50 4 96
g2-standard-96 96 384 ‫384 עד 432 3,000 100 8 192

1‫vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
2רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
3זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הוא נפרד מהזיכרון של המופע ומיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

סוגי מכונות N1 + GPU

במכונות וירטואליות (VM) למטרות כלליות מסוג N1 שמצורפים אליהן מעבדי GPU מסוג T4 ו-V100, אפשר לקבל רוחב פס מקסימלי של עד 100 Gbps, בהתאם לשילוב של מעבד ה-GPU ומספר ליבות ה-vCPU. לגבי כל שאר מכונות ה-GPU מסוג N1, אפשר לעיין במאמר סקירה כללית.

בקטע הבא מוסבר איך לחשב את רוחב הפס המקסימלי ברשת שזמין למופעי T4 ו-V100 על סמך מודל ה-GPU, מספר ה-vCPU ומספר ה-GPU.

פחות מ-5 מעבדים וירטואליים

במקרים של מכונות וירטואליות מסוג T4 ו-V100 עם 5 ליבות וירטואליות או פחות, רוחב הפס המקסימלי ברשת הוא 10 Gbps.

יותר מ-5 מעבדים וירטואליים

במכונות וירטואליות מסוג T4 ו-V100 שיש להן יותר מ-5 ליבות וירטואליות, רוחב הפס המקסימלי ברשת מחושב על סמך מספר הליבות הווירטואליות ויחידות ה-GPU של המכונה הווירטואלית.

כדי להחיל את קצבי רוחב הפס הגבוהים יותר ברשת (50 Gbps ומעלה) על רוב מופעי ה-GPU, מומלץ להשתמש בממשק רשת וירטואלי של Google‏ (gVNIC). מידע נוסף על יצירת מכונות עם GPU שמשתמשות ב-gVNIC זמין במאמר בנושא יצירת מכונות עם GPU שמשתמשות ברוחבי פס גבוהים יותר.

דגם ה-GPU מספר יחידות ה-GPU חישוב רוחב הפס המקסימלי של הרשת
NVIDIA V100 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 32)
4 min(vcpu_count * 2, 50)
8 min(vcpu_count * 2, 100)
NVIDIA T4 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 50)
4 min(vcpu_count * 2, 100)

הגדרות MTU וסוגי מכונות GPU

כדי להגדיל את תפוקת הרשת, מגדירים ערך גבוה יותר של יחידת שידור מקסימלית (MTU) ברשתות ה-VPC. ערכי MTU גבוהים יותר מגדילים את גודל החבילה ומקטינים את התקורה של כותרת החבילה, מה שמגדיל בתורו את קצב העברת הנתונים של המטען הייעודי.

לסוגי מכונות עם GPU, מומלץ להשתמש בהגדרות ה-MTU הבאות ברשתות ה-VPC.

סוג מכונה עם GPU ערך MTU מומלץ (בבייטים)
רשת VPC רגילה רשת VPC של RoCE
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
8896 8896
  • A3 Mega
  • A3 High
  • A3 Edge
8244 לא רלוונטי
  • A2 Standard
  • A2 Ultra
  • G4
  • G2
  • סוגי מכונות N1 שתומכים ב-GPU
8896 לא רלוונטי

כשמגדירים את ערך ה-MTU, חשוב לשים לב לנקודות הבאות:

  • ‫8192 הוא שני דפים של 4 KB.
  • מומלץ להשתמש בערך 8244 במכונות וירטואליות מסוג A3 Mega,‏ A3 High ו-A3 Edge עבור כרטיסי רשת של GPU שמופעל בהם פיצול כותרות.
  • משתמשים בערך 8896, אלא אם מצוין אחרת בטבלה.

יצירת מכונות GPU עם רוחב פס גבוה

כדי ליצור מכונות עם GPU שמשתמשות ברוחבי פס גבוהים יותר ברשת, משתמשים באחת מהשיטות הבאות בהתאם לסוג המכונה:

מה השלב הבא?