בדף הזה מוסבר איך להגדיל את מידת הניצול ולהקטין את העלויות באמצעות הפעלת כרטיסי GPU מרובי-מופעים. בעזרת ההגדרה הזו, אתם מחלקים מעבד גרפי (GPU) מסוג NVIDIA GB200, B200, H200, H100, A100 או RTX PRO 6000 כדי לשתף GPU יחיד בין כמה קונטיינרים ב-Google Kubernetes Engine (GKE).
לפני שקוראים את הדף הזה, חשוב לוודא שמכירים את המושגים של Kubernetes כמו Pods, nodes, deployments ו-namespaces, וגם את המושגים של GKE כמו node pools, autoscaling ו-auto-provisioning.
מבוא
Kubernetes מקצה GPU מלא אחד לכל קונטיינר, גם אם הקונטיינר צריך רק חלק מה-GPU בשביל העומס שלו. זה עלול להוביל לבזבוז משאבים ולחריגה מהתקציב, במיוחד אם אתם משתמשים ב-GPU חזקים מהדור האחרון. כדי לשפר את השימוש ב-GPU, מעבדי GPU מרובי-מופעים מאפשרים לחלק GPU נתמך יחיד לעד שבעה חלקים. אפשר להקצות כל פרוסה למאגר אחד בצומת באופן עצמאי, עד שבעה מאגרים לכל GPU. יחידות GPU מרובות מופעים מספקות בידוד חומרה בין עומסי העבודה, ואיכות שירות (QoS) עקבית וצפויה לכל הקונטיינרים שפועלים ב-GPU.
במקרה של אפליקציות CUDA®, יחידות GPU מרובות מופעים הן שקופות ברובן. כל מחיצת GPU מופיעה כמשאב GPU רגיל, ומודל התכנות נשאר ללא שינוי.
מידע נוסף על יחידות GPU מרובות מופעים זמין במדריך למשתמש של NVIDIA בנושא יחידות GPU מרובות מופעים.
יחידות GPU נתמכות
סוגי ה-GPU הבאים תומכים ב-GPU מרובה מופעים:
- NVIDIA GB200 (גרסה 1.33.0-gke.1636000 ואילך)
- NVIDIA B200 (180GB) (גרסה 1.32.2-gke.1586000 ואילך)
- NVIDIA H200 (141GB)
- NVIDIA H100 (80GB)
- NVIDIA A100 (80GB)
- NVIDIA A100 (40GB)
- NVIDIA RTX PRO 6000 (גרסה 1.34.0-gke.1662000 ואילך)
חלוקת GPU לכמה מופעים במקביל
כל אחד מה-GPU מסוג GB200, B200, H200, H100 ו-A100 מורכב משבע יחידות חישוב ושמונה יחידות זיכרון, שאפשר לחלק למקרים של GPU בגדלים שונים. כדי להגדיר את גודל המחיצות של ה-GPU, משתמשים בתחביר הבא:
[compute]g.[memory]gb. לדוגמה, גודל מחיצת GPU של 1g.5gb מתייחס למכונת GPU עם יחידת חישוב אחת (שביעית ממעבדי הסטרימינג ב-GPU) ויחידת זיכרון אחת (5 GB). אפשר לציין את גודל המחיצה של ה-GPU כשפורסים עומס עבודה של Autopilot או כשיוצרים אשכול רגיל.
בטבלת החלוקה למחיצות במדריך למשתמש של NVIDIA בנושא GPU רב-מופע, מפורטים כל הגדלים השונים של מחיצות GPU, יחד עם כמות משאבי החישוב והזיכרון שזמינים בכל מחיצת GPU. בטבלה מוצג גם מספר מופעי ה-GPU לכל גודל מחיצה שאפשר ליצור ב-GPU.
בטבלה הבאה מפורטים גדלי המחיצות ש-GKE תומך בהם:
| גודל המחיצה | מכונות וירטואליות עם GPU |
|---|---|
GPU: NVIDIA GB200 (nvidia-gb200) |
|
1g.23gb |
7 |
1g.47gb |
4 |
2g.47gb |
3 |
3g.93gb |
2 |
4g.93gb |
1 |
7g.186gb |
1 |
GPU: NVIDIA B200 (nvidia-b200) |
|
1g.23gb |
7 |
1g.45gb |
4 |
2g.45gb |
3 |
3g.90gb |
2 |
4g.90gb |
1 |
7g.180gb |
1 |
מעבד גרפי: NVIDIA H200 (141GB) (nvidia-h200-141gb) |
|
1g.18gb |
7 |
1g.35gb |
4 |
2g.35gb |
3 |
3g.71gb |
2 |
4g.71gb |
1 |
7g.141gb |
1 |
GPU: NVIDIA H100 (80GB) (nvidia-h100-80gb and nvidia-h100-mega-80gb) |
|
1g.10gb |
7 |
1g.20gb |
4 |
2g.20gb |
3 |
3g.40gb |
2 |
7g.80gb |
1 |
GPU: NVIDIA A100 (80GB) (nvidia-a100-80gb) |
|
1g.10gb |
7 |
2g.20gb |
3 |
3g.40gb |
2 |
7g.80gb |
1 |
GPU: NVIDIA A100 (40GB) (nvidia-tesla-a100) |
|
1g.5gb |
7 |
2g.10gb |
3 |
3g.20gb |
2 |
7g.40gb |
1 |
GPU: NVIDIA RTX PRO 6000 (nvidia-rtx-pro-6000) |
|
1g.24gb |
4 |
2g.48gb |
2 |
4g.96gb |
1 |
כל GPU בכל צומת במאגר הצמתים מחולק באותו אופן. לדוגמה, נניח שיש מאגר צמתים עם שני צמתים, ארבע יחידות GPU בכל צומת וגודל מחיצה של 1g.5gb. GKE יוצר שבע מחיצות בגודל 1g.5gb בכל GPU. מכיוון שיש ארבעה GPU בכל צומת, יש 28
1g.5gb מחיצות GPU זמינות בכל צומת. מכיוון שיש שני צמתים במאגר הצמתים, בסך הכול זמינים 56 מחיצות של יחידות GPU בכל מאגר הצמתים.1g.5gb
כדי ליצור אשכול GKE Standard עם יותר מסוג אחד של מחיצת GPU, צריך ליצור כמה מאגרי צמתים. לדוגמה, אם רוצים צמתים עם מחיצות GPU בגודל 1g.5gb ו-3g.20gb באשכול, צריך ליצור שתי קבוצות של צמתים: אחת עם גודל מחיצת ה-GPU שמוגדר ל-1g.5gb, והשנייה עם 3g.20gb.
באשכול GKE Autopilot, המערכת יוצרת באופן אוטומטי צמתים עם הגדרת המחיצות הנכונה כשיוצרים עומסי עבודה שנדרשים בהם גדלים שונים של מחיצות.
כל צומת מסומן בגודל של מחיצות ה-GPU שזמינות בצומת. התוויות האלה מאפשרות לעומסי עבודה לטרגט צמתים עם גודל המחיצה של ה-GPU שדרוש להם. לדוגמה, בצומת עם 1g.5gb מכונות וירטואליות של GPU, התווית של הצומת היא:
cloud.google.com/gke-gpu-partition-size=1g.5gb
איך זה עובד
כדי להשתמש ב-GPU עם כמה מופעים, מבצעים את המשימות הבאות:
- יצירת אשכול עם מעבדי GPU מרובי-מופעים מופעלים.
- התקנה ידנית של מנהלי התקנים
- בודקים כמה משאבי GPU יש בצומת.
- פריסת קונטיינרים באמצעות יחידות GPU עם כמה מופעים.
תמחור
יחידות GPU מרובות מופעים זמינות רק ביחידות GPU מסוג GB200, B200, H200, H100, A100 ו-RTX PRO 6000, והן כפופות לתמחור המתאים של ה-GPU בנוסף לכל מוצר אחר שמשמש להפעלת עומסי העבודה. אפשר לצרף רק יחידות GPU שלמות לצמתים באשכול לצורך חלוקה למחיצות. למידע על תמחור של יחידות GPU, אפשר לעיין בדף תמחור של יחידות GPU.
מגבלות
- לא מומלץ להשתמש במחיצות GPU מרובות מופעים עם GKE לעומסי עבודה לא מהימנים.
- יש תמיכה מלאה בהקצאה אוטומטית של מחיצות GPU ובהתאמה אוטומטית של נפח האחסון (autoscaling) ב-GKE מגרסה 1.20.7-gke.400 ואילך. בגרסאות קודמות, רק מאגרי צמתים עם צומת אחד לפחות יכולים להתרחב אוטומטית על סמך הביקוש לגדלים ספציפיים של מחיצות GPU מעומסי עבודה.
- מדדי ניצול של GPU (לדוגמה,
duty_cycle) לא זמינים עבור GPU עם כמה מופעים במקביל. - התכונה 'כמה מופעים במקביל' מפצלת GPU פיזי למופעים נפרדים, שכל אחד מהם מבודד מהאחרים ברמת החומרה. קונטיינר שמשתמש במכונת GPU עם כמה מופעים במקביל יכול לגשת רק למשאבי ה-CPU והזיכרון שזמינים למכונה הזו.
- כל Pod יכול לצרוך עד מופע אחד של GPU כמה מופעים במקביל.
לפני שמתחילים
לפני שמתחילים, חשוב לוודא שביצעתם את הפעולות הבאות:
- מפעילים את ממשק Google Kubernetes Engine API. הפעלת Google Kubernetes Engine API
- אם רוצים להשתמש ב-CLI של Google Cloud למשימה הזו, צריך להתקין ואז להפעיל את ה-CLI של gcloud. אם התקנתם בעבר את ה-CLI של gcloud, מריצים את הפקודה
gcloud components updateכדי לקבל את הגרסה העדכנית. יכול להיות שגרסאות קודמות של ה-CLI של gcloud לא יתמכו בהרצת הפקודות שמופיעות במסמך הזה.
- ב-Autopilot, יש תמיכה ב-GPU מרובה מופעים ב-GKE בגרסה 1.29.3-gke.1093000 ואילך.
- צריך לוודא שיש לכם מכסת GPU מסוג NVIDIA A100 מספקת. איך מבקשים להגדיל את המכסות
- אם רוצים להשתמש ב-GPU עם כמה מופעים במקביל ב-Autopilot, אפשר לקרוא מידע נוסף על שימוש ב-GPU עם Autopilot במאמר פריסת עומסי עבודה של GPU ב-Autopilot.
- GKE מקצה את מחלקת המחשוב
Acceleratorלכל עומסי העבודה של GPU עם כמה מופעים במקביל באשכולות Autopilot.
יצירת אשכול עם הפעלת מעבדי GPU מרובי-מופעים
אם אתם משתמשים ב-GKE Standard, אתם צריכים להפעיל GPU מרובה מופעים באשכול. באשכולות Autopilot שמופעלת בהם גרסה 1.29.3-gke.1093000 ואילך, כרטיסי GPU מרובי-מופעים מופעלים כברירת מחדל. כדי להשתמש ביחידות GPU מרובות מופעים ב-Autopilot, אפשר לעיין בקטע פריסת קונטיינרים באמצעות יחידות GPU מרובות מופעים בדף הזה.
כשיוצרים אשכול רגיל עם מעבדי GPU מרובי-מופעים, צריך לציין את gpuPartitionSize יחד עם acceleratorType ו-acceleratorCount.
הערך של acceleratorType חייב להיות אחד מהערכים הבאים:
nvidia-gb200nvidia-b200nvidia-h200-141gbnvidia-h100-80gbnvidia-a100-80gbnvidia-tesla-a100nvidia-rtx-pro-6000
בדוגמה הבאה מוצג איך ליצור אשכול GKE עם צומת אחד ושבע מחיצות GPU בגודל 1g.5gb בצומת. בשלבים האחרים בדף הזה נעשה שימוש בגודל מחיצת GPU של 1g.5gb, שיוצר שבע מחיצות בכל GPU. אפשר גם להשתמש באחד מגודלי החלוקה של ה-GPU שצוינו קודם.
אפשר להשתמש ב-Google Cloud CLI או ב-Terraform.
gcloud
יוצרים אשכול עם יחידות GPU מרובות מופעים:
gcloud container clusters create CLUSTER_NAME \
--project=PROJECT_ID \
--location CONTROL_PLANE_LOCATION \
--cluster-version=CLUSTER_VERSION \
--accelerator type=nvidia-tesla-a100,count=1,gpu-partition-size=1g.5gb,gpu-driver-version=DRIVER_VERSION \
--machine-type=a2-highgpu-1g \
--num-nodes=1
מחליפים את מה שכתוב בשדות הבאים:
-
CLUSTER_NAME: השם של האשכול החדש. -
PROJECT_ID: מזהה הפרויקט ב- Google Cloud . -
CONTROL_PLANE_LOCATION: המיקום של מישור הבקרה של האשכול ב-Compute Engine. מציינים אזור לאשכולות אזוריים או אזור זמין לאשכולות אזוריים. -
CLUSTER_VERSION: הגרסה צריכה להיות1.19.7-gke.2503ואילך. -
DRIVER_VERSION: גרסת הדרייבר של NVIDIA להתקנה. יכול להיות אחת מהאפשרויות הבאות:-
default: התקנת גרסת ברירת המחדל של הדרייבר לגרסת GKE. -
latest: התקנת הגרסה האחרונה של מנהל ההתקן שזמינה לגרסת GKE שלכם. האפשרות הזו זמינה רק לצמתים שמשתמשים במערכת הפעלה שמותאמת לקונטיינרים. -
disabled: דילוג על התקנה אוטומטית של מנהל התקן. חובה להתקין מנהל התקן באופן ידני אחרי שיוצרים את האשכול. אם לא מציינים אתgpu-driver-version, זו אפשרות ברירת המחדל.
-
Terraform
כדי ליצור אשכול עם כרטיסי GPU מרובים שמופעלים באמצעות Terraform, אפשר לעיין בדוגמה הבאה:
מידע נוסף על שימוש ב-Terraform זמין במאמר תמיכה ב-Terraform ל-GKE.
התחברות לאשכול
מגדירים את kubectl כדי להתחבר לאשכול שנוצר:
gcloud container clusters get-credentials CLUSTER_NAME
התקנת מנהלי התקנים
אם בחרתם להשבית את ההתקנה האוטומטית של מנהל ההתקן כשיוצרים את האשכול, או אם אתם מריצים גרסת GKE מוקדמת יותר מ-1.27.2-gke.1200, אתם צריכים להתקין ידנית מנהל התקן תואם של NVIDIA אחרי שהיצירה מסתיימת. כדי להשתמש ב-GPU עם כמה מופעים, צריך דרייבר NVIDIA בגרסה 450.80.02 ואילך.
אחרי התקנת הדרייבר, מופעל מצב GPU מרובה מופעים. אם התקנתם דרייברים באופן אוטומטי, הצמתים יופעלו מחדש כשהתוסף של מכשיר ה-GPU יתחיל ליצור מחיצות GPU. אם התקנתם מנהלי התקנים באופן ידני, הצמתים יופעלו מחדש כשההתקנה של מנהל ההתקן תושלם. ההפעלה מחדש עשויה להימשך כמה דקות.
בודקים כמה משאבי GPU יש בצומת
מריצים את הפקודה הבאה כדי לוודא שהקיבולת והמספר של משאבי nvidia.com/gpu שניתן להקצות הם 7:
kubectl describe nodes
זה הפלט מהפקודה:
...
Capacity:
...
nvidia.com/gpu: 7
Allocatable:
...
nvidia.com/gpu: 7
פריסת קונטיינרים באמצעות GPU עם כמה מופעים
אפשר לפרוס עד קונטיינר אחד לכל מכשיר GPU עם כמה מופעים במקביל בצומת. בדוגמה הזו, עם גודל מחיצה של 1g.5gb, יש שבע מחיצות GPU מרובות מופעים שזמינות בצומת. לכן אפשר לפרוס עד שבעה קונטיינרים שמבקשים יחידות GPU בצומת הזה.
הנה דוגמה שמפעילה את מאגר התגים cuda:11.0.3-base-ubi7 ומריצה את הפקודה nvidia-smi כדי להדפיס את ה-UUID של ה-GPU במאגר התגים. בדוגמה הזו יש שבעה מאגרי תגים, וכל מאגר תגים מקבל מחיצה אחת של GPU. בדוגמה הזו, גם בורר הצמתים cloud.google.com/gke-gpu-partition-size מוגדר לטרגוט צמתים עם מחיצות GPU 1g.5gb.
שומרים את קובץ המניפסט לדוגמה הבא בשם
cuda-simple.yaml:טייס אוטומטי
apiVersion: apps/v1 kind: Deployment metadata: name: cuda-simple spec: replicas: 7 selector: matchLabels: app: cuda-simple template: metadata: labels: app: cuda-simple spec: nodeSelector: cloud.google.com/gke-gpu-partition-size: 1g.5gb cloud.google.com/gke-accelerator: nvidia-tesla-a100 cloud.google.com/gke-accelerator-count: "1" containers: - name: cuda-simple image: nvidia/cuda:11.0.3-base-ubi7 command: - bash - -c - | /usr/local/nvidia/bin/nvidia-smi -L; sleep 300 resources: limits: nvidia.com/gpu: 1
קובץ המניפסט הזה:
- שליחת בקשה לסוג ה-GPU
nvidia-tesla-a100על ידי הגדרת בורר הצמתיםcloud.google.com/gke-accelerator. - פיצול ה-GPU לגודל המחיצה
1g.5gb. - מצרפים GPU יחיד לצומת על ידי הגדרת
cloud.google.com/gke-accelerator-countnode selector.
רגילה
apiVersion: apps/v1 kind: Deployment metadata: name: cuda-simple spec: replicas: 7 selector: matchLabels: app: cuda-simple template: metadata: labels: app: cuda-simple spec: nodeSelector: cloud.google.com/gke-gpu-partition-size: 1g.5gb containers: - name: cuda-simple image: nvidia/cuda:11.0.3-base-ubi7 command: - bash - -c - | /usr/local/nvidia/bin/nvidia-smi -L; sleep 300 resources: limits: nvidia.com/gpu: 1
קובץ המניפסט הזה:
- בקשה ל-GPU יחיד עם גודל מחיצה של
1g.5gb.
- שליחת בקשה לסוג ה-GPU
מחילים את קובץ המניפסט לדוגמה על האשכול:
kubectl apply -f cuda-simple.yamlמוודאים שכל שבעת ה-Pods פועלים:
kubectl get podsזה הפלט מהפקודה:
NAME READY STATUS RESTARTS AGE cuda-simple-849c47f6f6-4twr2 1/1 Running 0 7s cuda-simple-849c47f6f6-8cjrb 1/1 Running 0 7s cuda-simple-849c47f6f6-cfp2s 1/1 Running 0 7s cuda-simple-849c47f6f6-dts6g 1/1 Running 0 7s cuda-simple-849c47f6f6-fk2bs 1/1 Running 0 7s cuda-simple-849c47f6f6-kcv52 1/1 Running 0 7s cuda-simple-849c47f6f6-pjljc 1/1 Running 0 7sכדי לראות את ה-UUID של ה-GPU, משתמשים בשם של כל Pod מהפקודה הקודמת:
kubectl logs cuda-simple-849c47f6f6-4twr2זה הפלט מהפקודה:
GPU 0: A100-SXM4-40GB (UUID: GPU-45eafa61-be49-c331-f8a2-282736687ab1) MIG 1g.5gb Device 0: (UUID: MIG-GPU-45eafa61-be49-c331-f8a2-282736687ab1/11/0)
המאמרים הבאים
- מידע נוסף על יחידות GPU
- איך מגדירים שיתוף זמן במעבדים גרפיים
- מידע נוסף על ריבוי דיירים באשכול
- מידע נוסף על שיטות מומלצות לשימוש ב-multi-tenancy בארגונים