Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הגדרת התאמה אוטומטית לעומס (autoscaling) לעומסי עבודה של LLM במעבדי GPU באמצעות Google Kubernetes Engine ‏(GKE)

טייס אוטומטי רגילה

בדף הזה מוסבר איך להגדיר את התשתית שלכם להרחבה אוטומטית באמצעות Horizontal Pod Autoscaler‏ (HPA) של GKE כדי לפרוס את מודל השפה הגדול (LLM) של Gemma עם מסגרת ההגשה Text Generation Interface‏ (TGI) מבית Hugging Face.

מידע נוסף על בחירת מדדים להתאמה אוטומטית לעומס זמין במאמר שיטות מומלצות להתאמה אוטומטית לעומס של עומסי עבודה של מודלים גדולים של שפה (LLM) באמצעות GPU ב-GKE.

לפני שמתחילים

לפני שמתחילים, חשוב לוודא שביצעתם את הפעולות הבאות:

מפעילים את ממשק ה-API של Google Kubernetes Engine.

הפעלת Google Kubernetes Engine API

אם רוצים להשתמש ב-CLI של Google Cloud למשימה הזו, צריך להתקין ואז להפעיל את ה-CLI של gcloud. אם התקנתם בעבר את ה-CLI של gcloud, מריצים את הפקודה gcloud components update כדי לקבל את הגרסה העדכנית. יכול להיות שגרסאות קודמות של ה-CLI של gcloud לא יתמכו בהרצת הפקודות שמופיעות במסמך הזה.
הערה: אם כבר התקנתם את ה-CLI של gcloud, הקפידו להגדיר את compute/region המאפיין. אם אתם משתמשים בעיקר באשכולות אזוריים, הגדירו במקום זאת את compute/zone. אם מגדירים מיקום ברירת מחדל, אפשר להימנע משגיאות ב-CLI של gcloud כמו השגיאה הבאה: One of [--zone, --region] must be supplied: Please specify location. יכול להיות שתצטרכו לציין את המיקום בפקודות מסוימות אם המיקום של האשכול שונה מברירת המחדל שהגדרתם.

כדאי לעיין בתהליך העבודה במאמר Serve Gemma open models using GPUs on GKE with Hugging Face TGI.

התאמה אוטומטית של הקיבולת באמצעות מדדי שרת

אתם יכולים להשתמש במדדי הביצועים הספציפיים לעומס העבודה שמופקים על ידי שרת ההיקש של TGI כדי לכוון את ההתאמה האוטומטית לעומס של ה-Pods. מידע נוסף על המדדים האלה זמין במאמר מדדים של השרת.

כדי להגדיר התאמה אוטומטית לעומס של מדדים מותאמים אישית באמצעות מדדי שרת, בצע את השלבים הבאים:

ייצוא המדדים משרת ה-TGI אל Cloud Monitoring. אתם משתמשים בשירות המנוהל של Google Cloud ל-Prometheus, שמפשט את הפריסה וההגדרה של כלי האיסוף של Prometheus. השירות המנוהל של Google Cloud ל-Prometheus מופעל כברירת מחדל באשכול GKE. אפשר גם להפעיל אותו באופן ידני.

במניפסט לדוגמה שבהמשך מוצג איך להגדיר את הגדרת המשאב PodMonitoring כדי להנחות את השירות המנוהל של Google Cloud ל-Prometheus לבצע סקראפינג של מדדים מה-Pods במרווחי זמן חוזרים של 15 שניות:
```
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: gemma-pod-monitoring
spec:
  selector:
    matchLabels:
      app: gemma-server
  endpoints:
  - port: 8000
    interval: 15s
```
מתקינים את Custom Metrics Stackdriver Adapter. המתאם הזה מאפשר לבקר HPA לראות את המדד המותאם אישית שייצאתם ל-Monitoring. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.

בדוגמה הבאה אפשר לראות איך להתקין את המתאם:
```
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/production/adapter_new_resource_model.yaml
```
מגדירים את משאב ה-HPA שמבוסס על מדד מותאם אישית. פריסת משאב HPA שמבוסס על המדד המותאם אישית המועדף. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.

בוחרים באחת מהכרטיסיות הבאות כדי לראות דוגמאות לאופן ההגדרה של משאב HorizontalPodAutoscaler במניפסט:
גודל התור
בדוגמה הזו נעשה שימוש במדדי השרת של tgi_queue_size TGI, שמייצגים את מספר הבקשות בתור.

כדי לקבוע את ערך הסף הנכון של גודל התור ל-HPA, אפשר לעיין במאמר בנושא שיטות מומלצות להתאמה אוטומטית לעומס (automatic scaling) של עומסי עבודה של היקש של LLM באמצעות GPU.
```
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: gemma-server
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: tgi-gemma-deployment
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: Pods
    pods:
      metric:
        name: prometheus.googleapis.com|tgi_queue_size|gauge
      target:
        type: AverageValue
        averageValue:  $HPA_AVERAGEVALUE_TARGET
```
גודל אצווה
בדוגמה הזו נעשה שימוש במדד השרת tgi_batch_size TGI, שמייצג את מספר הבקשות באצווה הנוכחית.

כדי לקבוע את ערך הסף הנכון של גודל האצווה ל-HPA, אפשר לעיין במאמר שיטות מומלצות להתאמה אוטומטית לעומס של עומסי עבודה של היקש של LLM באמצעות GPU.
```
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: gemma-server
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: tgi-gemma-deployment
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: Pods
    pods:
      metric:
        name: prometheus.googleapis.com|tgi_batch_current_size|gauge
      target:
        type: AverageValue
        averageValue:  $HPA_AVERAGEVALUE_TARGET
```

שינוי אוטומטי של קנה מידה באמצעות מדדי GPU

אתם יכולים להשתמש במדדי השימוש והביצועים שמופקים מה-GPU כדי להפעיל התאמה אוטומטית לעומס (automatic scaling) של ה-Pods. מידע נוסף על המדדים האלה זמין במאמר מדדי GPU.

כדי להגדיר התאמה אוטומטית לעומס של מדדים מותאמים אישית באמצעות מדדי GPU, פועלים לפי השלבים הבאים:

ייצוא מדדי ה-GPU אל Cloud Monitoring. אם מדדי המערכת מופעלים באשכול GKE, מדד השימוש ב-GPU נשלח אוטומטית אל Cloud Monitoring דרך מדד המערכת container/accelerator/duty_cycle, כל 60 שניות.
- כדי ללמוד איך להפעיל מדדי מערכת של GKE, אפשר לעיין במאמר בנושא הגדרת איסוף מדדים.
- כדי להגדיר איסוף מנוהל, אפשר לעיין במאמר תחילת העבודה עם איסוף מנוהל במסמכי התיעוד של השירות המנוהל של Google Cloud ל-Prometheus.
- טכניקות נוספות למעקב אחרי ביצועי עומסי העבודה של ה-GPU ב-GKE מפורטות במאמר הפעלת מעבדי GPU במאגרי צמתים רגילים ב-GKE.
במניפסט הבא לדוגמה אפשר לראות איך מגדירים את הגדרת המשאב PodMonitoring כדי להטמיע מדדים מעומס העבודה של NVIDIA DCGM:
```
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: nvidia-dcgm-exporter-for-hpa
  namespace: gke-managed-system
  labels:
    app.kubernetes.io/name: nvidia-dcgm-exporter
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  selector:
    matchLabels:
      app.kubernetes.io/name: gke-managed-dcgm-exporter
  endpoints:
    - port: metrics
      interval: 15s
      metricRelabeling:
        - action: keep
          sourceLabels: [__name__]
        - action: replace
          sourceLabels: [__name__]
          targetLabel: __name__
          regex: DCGM_FI_DEV_GPU_UTIL
          replacement: dcgm_fi_dev_gpu_util
```
בקוד, חשוב לשנות את שם המדד של DCGM שבו רוצים להשתמש ב-HPA לאותיות קטנות. הסיבה לכך היא בעיה ידועה שבה HPA לא פועל עם שמות מדדים חיצוניים באותיות רישיות. במקרים שבהם לא נעשה שימוש ב-DCGM exporter מנוהל, צריך לוודא שההגדרות metadata.namespace ו-spec.selector.matchLabels של ה-HPA זהות להגדרות של ה-DCGM exporter.ההתאמה המדויקת הזו חיונית כדי שה-HPA יוכל לגלות מדדים מותאמים אישית ולבצע עליהם שאילתות.
מתקינים את Custom Metrics Stackdriver Adapter. המתאם הזה מאפשר לבקר HPA לראות את המדד המותאם אישית שייצאתם ל-Monitoring. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.

בדוגמה הבאה אפשר לראות איך להריץ את ההתקנה:
```
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/production/adapter_new_resource_model.yaml
```

מגדירים את משאב ה-HPA שמבוסס על מדד מותאם אישית. פריסת משאב HPA על סמך מדד מותאם אישית מועדף. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.

מגדירים יעד ערך ממוצע ל-HPA כדי להפעיל את ההתאמה האוטומטית לעומס (automatic scaling). אפשר לעשות את זה באופן ניסיוני. לדוגמה, אפשר ליצור עומס הולך וגובר על השרת ולבדוק איפה השימוש ב-GPU מגיע לשיא. חשוב לשים לב לסבילות של HPA, שמוגדרת כברירת מחדל לטווח של 0.1 ללא פעולה סביב ערך היעד כדי למנוע תנודות.
מומלץ להשתמש בכלי locust-load-inference לבדיקה. אפשר גם ליצור לוח בקרה מותאם אישית ב-Cloud Monitoring כדי להציג את התנהגות המדד.

בוחרים באחת מהכרטיסיות האלה כדי לראות דוגמה לאופן ההגדרה של משאב HorizontalPodAutoscaler במניפסט:

דיוטי סייקל (Duty cycle) (מערכת GKE)

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: gemma-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: tgi-gemma-deployment
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: External
    external:
      metric:
        name: kubernetes.io|container|accelerator|duty_cycle
        selector:
          matchLabels:
            resource.labels.container_name: inference-server
            resource.labels.namespace_name: default
      target:
        type: AverageValue
        averageValue:  $HPA_AVERAGEVALUE_TARGET

דיוטי סייקל (DCGM)

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: gemma-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: tgi-gemma-deployment
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: External
    external:
      metric:
        name: prometheus.googleapis.com|dcgm_fi_dev_gpu_util|unknown
        selector:
          matchLabels:
            metric.labels.exported_container: inference-server
            metric.labels.exported_namespace: default
      target:
        type: AverageValue
        averageValue:  $HPA_AVERAGEVALUE_TARGET

המאמרים הבאים

איך מבצעים אופטימיזציה של התאמה אוטומטית לעומס של Pod על סמך מדדים מ-Cloud Monitoring
מידע נוסף על התאמה אופקית של קבוצות Pod לעומס זמין במסמכי התיעוד של Kubernetes בקוד פתוח.

הגדרת התאמה אוטומטית לעומס (autoscaling) לעומסי עבודה של LLM במעבדי GPU באמצעות Google Kubernetes Engine ‏(GKE) קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.