‫Google משתמשת בטכנולוגיית AI כדי לתרגם תוכן לשפה המועדפת עליך. בתרגומים כאלו עשויות להיות שגיאות.

הכנת תשתית GKE לעומסי עבודה של DRA

רגילה

במאמר הזה נסביר איך להגדיר באופן ידני את התשתית של Google Kubernetes Engine ‏ (GKE) כדי לתמוך בהקצאת משאבים דינמית (DRA). שלבי ההגדרה כוללים יצירה של מאגרי צמתים שמשתמשים ב-GPU והתקנה של דרייברים של DRA.

המסמך הזה מיועד לאדמינים של פלטפורמות שרוצים ליצור תשתית עם מכשירי חומרה מיוחדים שמפעילים של אפליקציות יכולים להשתמש בהם בעומסי עבודה.

מגבלות

ההגבלות הבאות חלות:

מגבלות של DRA ב-GKE
מגבלות ספציפיות למכשיר, שחלות בלי קשר לשימוש ב-DRA: עומסי עבודה של GPU באשכולות רגילים

לפני שמתחילים

לפני שמתחילים, חשוב לוודא שביצעתם את הפעולות הבאות:

מפעילים את ממשק Google Kubernetes Engine API.

הפעלת Google Kubernetes Engine API

כדי להשתמש ב-CLI של Google Cloud למשימה הזו, צריך להתקין ואז להפעיל את gcloud CLI. אם התקנתם בעבר את ה-CLI של gcloud, מריצים את הפקודה gcloud components update כדי לקבל את הגרסה העדכנית. יכול להיות שגרסאות קודמות של ה-CLI של gcloud לא יתמכו בהרצת הפקודות שמופיעות במסמך הזה.
הערה: אם כבר התקנתם את ה-CLI של gcloud, הקפידו להגדיר את compute/region המאפיין. אם אתם משתמשים בעיקר באשכולות אזוריים, עליכם להגדיר את compute/zone במקום זאת. אם מגדירים מיקום ברירת מחדל, אפשר להימנע משגיאות ב-CLI של gcloud כמו השגיאה הבאה: One of [--zone, --region] must be supplied: Please specify location. יכול להיות שתצטרכו לציין את המיקום בפקודות מסוימות אם המיקום של האשכול שונה מברירת המחדל שהגדרתם.

אשכול GKE Standard שפועלת בו גרסה 1.35 ואילך. אפשר גם ליצור אשכול אזורי.
מתקינים את Helm. אם אתם משתמשים ב-Cloud Shell, ‏ Helm כבר מותקן.

יצירת מאגר צמתים ב-GKE עם יחידות GPU

בקטע הזה מוסבר איך ליצור מאגר צמתים של GPU ולהתקין את מנהלי ההתקנים המתאימים של DRA. השלבים בקטע הזה רלוונטיים רק למאגרי צמתים שיוצרים באופן ידני. כדי ליצור מאגר צמתים של GPU שתומך ב-DRA, צריך לבצע את הפעולות הבאות:

השבתת ההתקנה האוטומטית של מנהל התקן ל-GPU: מציינים את האפשרות gpu-driver-version=disabled בדגל --accelerator.
השבתת הפלאגין של מכשיר ה-GPU: מוסיפים את התווית של הצומת gke-no-default-nvidia-gpu-device-plugin=true למאגר הצמתים.
מריצים את DRA driver DaemonSet: מוסיפים את התווית nvidia.com/gpu.present=true node לצומת.
הגדרת שינוי גודל אוטומטי: כדי להשתמש בשינוי גודל אוטומטי של אשכול במאגר הצמתים, מוסיפים את תווית הצומת cloud.google.com/gke-nvidia-gpu-dra-driver=true למאגר הצמתים. הכלי Cluster Autoscaler משתמש בתווית הצומת הזו כדי לזהות צמתים שמריצים את מנהל ההתקן של DRA עבור מעבדי GPU.

כדי ליצור ולהגדיר מאגרי צמתים של GPU, פועלים לפי השלבים הבאים:

יוצרים מאגר צמתים של GPU. הפקודות הבאות יוצרות מאגרי צמתים עם הגדרות שונות:

יוצרים מאגר צמתים עם מכונת g2-standard-24 שיש לה שני מעבדי L4 GPU:
```
gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
    --machine-type="g2-standard-24" \
    --accelerator="type=nvidia-l4,count=2,gpu-driver-version=disabled" \
    --num-nodes="1" \
    --node-labels=gke-no-default-nvidia-gpu-device-plugin=true,nvidia.com/gpu.present=true
```
מחליפים את מה שכתוב בשדות הבאים:
- ‫NODEPOOL_NAME: שם למאגר הצמתים.
- ‫CLUSTER_NAME: השם של האשכול.
- ‫CONTROL_PLANE_LOCATION: האזור או האזור של מישור הבקרה של האשכול, למשל us-central1 או us-central1-a.
- ‫NODE_LOCATION1,NODE_LOCATION2,...: רשימה מופרדת בפסיקים של אזורים באותו אזור כמו מישור הבקרה, שבהם ייצרו צמתים. בוחרים אזורים שבהם יש זמינות של GPU.

יוצרים מאגר צמתים עם שינוי גודל אוטומטי עם a2-ultragpu-1g מכונות, שלכל אחת מהן יש מעבד GPU אחד מסוג NVIDIA A100 ‏ (80 GB):

gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
    --enable-autoscaling \
    --max-nodes=5 \
    --machine-type="a2-ultragpu-1g" \
    --accelerator="type=nvidia-a100-80gb,count=1,gpu-driver-version=disabled" \
    --num-nodes="1" \
    --node-labels=gke-no-default-nvidia-gpu-device-plugin=true,nvidia.com/gpu.present=true,cloud.google.com/gke-nvidia-gpu-dra-driver=true

התקנה ידנית של דרייברים של NVIDIA GPU.
התקנת מנהלי התקנים של DRA

התקנת מנהלי התקנים של DRA

מושכים ומעדכנים את תרשים Helm שמכיל את הדרייבר של NVIDIA DRA:
```
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \
    && helm repo update
```

מתקינים את דרייבר ה-GPU של NVIDIA DRA בגרסה 25.8.0 או בגרסה מתקדמת יותר:

helm install nvidia-dra-driver-gpu nvidia/nvidia-dra-driver-gpu \
    --version="25.8.0" --create-namespace --namespace=nvidia-dra-driver-gpu \
    --set nvidiaDriverRoot="/home/kubernetes/bin/nvidia/" \
    --set gpuResourcesEnabledOverride=true \
    --set resources.computeDomains.enabled=false \
    --set kubeletPlugin.priorityClassName="" \
    --set 'kubeletPlugin.tolerations[0].key=nvidia.com/gpu' \
    --set 'kubeletPlugin.tolerations[0].operator=Exists' \
    --set 'kubeletPlugin.tolerations[0].effect=NoSchedule'

בצמתים של Ubuntu, מציינים את נתיב הספרייה "/opt/nvidia" בדגל --set nvidiaDriverRoot.

בדיקה שהתשתית מוכנה ל-DRA

מוודאים שרכיבי ה-Pod של מנהל ההתקן של DRA פועלים:

kubectl get pods -n nvidia-dra-driver-gpu

הפלט אמור להיראות כך:

NAME                                         READY   STATUS    RESTARTS   AGE
nvidia-dra-driver-gpu-kubelet-plugin-52cdm   1/1     Running   0          46s

מוודאים שברשימת ה-ResourceSlice מופיעים מכשירי החומרה שהוספתם:

kubectl get resourceslices -o yaml