הגדרת התאמה אוטומטית לעומס (autoscaling) לעומסי עבודה של LLM במעבדי GPU באמצעות Google Kubernetes Engine ‏(GKE)

בדף הזה מוסבר איך להגדיר את התשתית שלכם להרחבה אוטומטית באמצעות Horizontal Pod Autoscaler‏ (HPA) של GKE כדי לפרוס את מודל השפה הגדול (LLM) של Gemma עם מסגרת ההגשה Text Generation Interface‏ (TGI) מבית Hugging Face.

מידע נוסף על בחירת מדדים להתאמה אוטומטית לעומס זמין במאמר שיטות מומלצות להתאמה אוטומטית לעומס של עומסי עבודה של מודלים גדולים של שפה (LLM) באמצעות GPU ב-GKE.

לפני שמתחילים

לפני שמתחילים, חשוב לוודא שביצעתם את הפעולות הבאות:

  • מפעילים את ממשק ה-API של Google Kubernetes Engine.
  • הפעלת Google Kubernetes Engine API
  • אם רוצים להשתמש ב-CLI של Google Cloud למשימה הזו, צריך להתקין ואז להפעיל את ה-CLI של gcloud. אם התקנתם בעבר את ה-CLI של gcloud, מריצים את הפקודה gcloud components update כדי לקבל את הגרסה העדכנית. יכול להיות שגרסאות קודמות של ה-CLI של gcloud לא יתמכו בהרצת הפקודות שמופיעות במסמך הזה.

התאמה אוטומטית של הקיבולת באמצעות מדדי שרת

אתם יכולים להשתמש במדדי הביצועים הספציפיים לעומס העבודה שמופקים על ידי שרת ההיקש של TGI כדי לכוון את ההתאמה האוטומטית לעומס של ה-Pods. מידע נוסף על המדדים האלה זמין במאמר מדדים של השרת.

כדי להגדיר התאמה אוטומטית לעומס של מדדים מותאמים אישית באמצעות מדדי שרת, בצע את השלבים הבאים:

  1. ייצוא המדדים משרת ה-TGI אל Cloud Monitoring. אתם משתמשים בשירות המנוהל של Google Cloud ל-Prometheus, שמפשט את הפריסה וההגדרה של כלי האיסוף של Prometheus. השירות המנוהל של Google Cloud ל-Prometheus מופעל כברירת מחדל באשכול GKE. אפשר גם להפעיל אותו באופן ידני.

    במניפסט לדוגמה שבהמשך מוצג איך להגדיר את הגדרת המשאב PodMonitoring כדי להנחות את השירות המנוהל של Google Cloud ל-Prometheus לבצע סקראפינג של מדדים מה-Pods במרווחי זמן חוזרים של 15 שניות:

    apiVersion: monitoring.googleapis.com/v1
    kind: PodMonitoring
    metadata:
      name: gemma-pod-monitoring
    spec:
      selector:
        matchLabels:
          app: gemma-server
      endpoints:
      - port: 8000
        interval: 15s
    
  2. מתקינים את Custom Metrics Stackdriver Adapter. המתאם הזה מאפשר לבקר HPA לראות את המדד המותאם אישית שייצאתם ל-Monitoring. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.

    בדוגמה הבאה אפשר לראות איך להתקין את המתאם:

    kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/production/adapter_new_resource_model.yaml
    
  3. מגדירים את משאב ה-HPA שמבוסס על מדד מותאם אישית. פריסת משאב HPA שמבוסס על המדד המותאם אישית המועדף. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.

    בוחרים באחת מהכרטיסיות הבאות כדי לראות דוגמאות לאופן ההגדרה של משאב HorizontalPodAutoscaler במניפסט:

    גודל התור

    בדוגמה הזו נעשה שימוש במדדי השרת של tgi_queue_size TGI, שמייצגים את מספר הבקשות בתור.

    כדי לקבוע את ערך הסף הנכון של גודל התור ל-HPA, אפשר לעיין במאמר בנושא שיטות מומלצות להתאמה אוטומטית לעומס (automatic scaling) של עומסי עבודה של היקש של LLM באמצעות GPU.

    apiVersion: autoscaling/v2
    kind: HorizontalPodAutoscaler
    metadata:
      name: gemma-server
    spec:
      scaleTargetRef:
        apiVersion: apps/v1
        kind: Deployment
        name: tgi-gemma-deployment
      minReplicas: 1
      maxReplicas: 5
      metrics:
      - type: Pods
        pods:
          metric:
            name: prometheus.googleapis.com|tgi_queue_size|gauge
          target:
            type: AverageValue
            averageValue:  $HPA_AVERAGEVALUE_TARGET
    

    גודל אצווה

    בדוגמה הזו נעשה שימוש במדד השרת tgi_batch_size TGI, שמייצג את מספר הבקשות באצווה הנוכחית.

    כדי לקבוע את ערך הסף הנכון של גודל האצווה ל-HPA, אפשר לעיין במאמר שיטות מומלצות להתאמה אוטומטית לעומס של עומסי עבודה של היקש של LLM באמצעות GPU.

    apiVersion: autoscaling/v2
    kind: HorizontalPodAutoscaler
    metadata:
      name: gemma-server
    spec:
      scaleTargetRef:
        apiVersion: apps/v1
        kind: Deployment
        name: tgi-gemma-deployment
      minReplicas: 1
      maxReplicas: 5
      metrics:
      - type: Pods
        pods:
          metric:
            name: prometheus.googleapis.com|tgi_batch_current_size|gauge
          target:
            type: AverageValue
            averageValue:  $HPA_AVERAGEVALUE_TARGET
    

שינוי אוטומטי של קנה מידה באמצעות מדדי GPU

אתם יכולים להשתמש במדדי השימוש והביצועים שמופקים מה-GPU כדי להפעיל התאמה אוטומטית לעומס (automatic scaling) של ה-Pods. מידע נוסף על המדדים האלה זמין במאמר מדדי GPU.

כדי להגדיר התאמה אוטומטית לעומס של מדדים מותאמים אישית באמצעות מדדי GPU, פועלים לפי השלבים הבאים:

  1. ייצוא מדדי ה-GPU אל Cloud Monitoring. אם מדדי המערכת מופעלים באשכול GKE, מדד השימוש ב-GPU נשלח אוטומטית אל Cloud Monitoring דרך מדד המערכת container/accelerator/duty_cycle, כל 60 שניות.

    במניפסט הבא לדוגמה אפשר לראות איך מגדירים את הגדרת המשאב PodMonitoring כדי להטמיע מדדים מעומס העבודה של NVIDIA DCGM:

    apiVersion: monitoring.googleapis.com/v1
    kind: PodMonitoring
    metadata:
      name: nvidia-dcgm-exporter-for-hpa
      namespace: gke-managed-system
      labels:
        app.kubernetes.io/name: nvidia-dcgm-exporter
        app.kubernetes.io/part-of: google-cloud-managed-prometheus
    spec:
      selector:
        matchLabels:
          app.kubernetes.io/name: gke-managed-dcgm-exporter
      endpoints:
        - port: metrics
          interval: 15s
          metricRelabeling:
            - action: keep
              sourceLabels: [__name__]
            - action: replace
              sourceLabels: [__name__]
              targetLabel: __name__
              regex: DCGM_FI_DEV_GPU_UTIL
              replacement: dcgm_fi_dev_gpu_util
    

    בקוד, חשוב לשנות את שם המדד של DCGM שבו רוצים להשתמש ב-HPA לאותיות קטנות. הסיבה לכך היא בעיה ידועה שבה HPA לא פועל עם שמות מדדים חיצוניים באותיות רישיות. במקרים שבהם לא נעשה שימוש ב-DCGM exporter מנוהל, צריך לוודא שההגדרות metadata.namespace ו-spec.selector.matchLabels של ה-HPA זהות להגדרות של ה-DCGM exporter.ההתאמה המדויקת הזו חיונית כדי שה-HPA יוכל לגלות מדדים מותאמים אישית ולבצע עליהם שאילתות.

  2. מתקינים את Custom Metrics Stackdriver Adapter. המתאם הזה מאפשר לבקר HPA לראות את המדד המותאם אישית שייצאתם ל-Monitoring. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.

    בדוגמה הבאה אפשר לראות איך להריץ את ההתקנה:

    kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/production/adapter_new_resource_model.yaml
    
  3. מגדירים את משאב ה-HPA שמבוסס על מדד מותאם אישית. פריסת משאב HPA על סמך מדד מותאם אישית מועדף. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.

    • מגדירים יעד ערך ממוצע ל-HPA כדי להפעיל את ההתאמה האוטומטית לעומס (automatic scaling). אפשר לעשות את זה באופן ניסיוני. לדוגמה, אפשר ליצור עומס הולך וגובר על השרת ולבדוק איפה השימוש ב-GPU מגיע לשיא. חשוב לשים לב לסבילות של HPA, שמוגדרת כברירת מחדל לטווח של 0.1 ללא פעולה סביב ערך היעד כדי למנוע תנודות.
    • מומלץ להשתמש בכלי locust-load-inference לבדיקה. אפשר גם ליצור לוח בקרה מותאם אישית ב-Cloud Monitoring כדי להציג את התנהגות המדד.

    בוחרים באחת מהכרטיסיות האלה כדי לראות דוגמה לאופן ההגדרה של משאב HorizontalPodAutoscaler במניפסט:

    דיוטי סייקל (Duty cycle) (מערכת GKE)

    apiVersion: autoscaling/v2
    kind: HorizontalPodAutoscaler
    metadata:
      name: gemma-hpa
    spec:
      scaleTargetRef:
        apiVersion: apps/v1
        kind: Deployment
        name: tgi-gemma-deployment
      minReplicas: 1
      maxReplicas: 5
      metrics:
      - type: External
        external:
          metric:
            name: kubernetes.io|container|accelerator|duty_cycle
            selector:
              matchLabels:
                resource.labels.container_name: inference-server
                resource.labels.namespace_name: default
          target:
            type: AverageValue
            averageValue:  $HPA_AVERAGEVALUE_TARGET
    

    דיוטי סייקל (DCGM)

    apiVersion: autoscaling/v2
    kind: HorizontalPodAutoscaler
    metadata:
      name: gemma-hpa
    spec:
      scaleTargetRef:
        apiVersion: apps/v1
        kind: Deployment
        name: tgi-gemma-deployment
      minReplicas: 1
      maxReplicas: 5
      metrics:
      - type: External
        external:
          metric:
            name: prometheus.googleapis.com|dcgm_fi_dev_gpu_util|unknown
            selector:
              matchLabels:
                metric.labels.exported_container: inference-server
                metric.labels.exported_namespace: default
          target:
            type: AverageValue
            averageValue:  $HPA_AVERAGEVALUE_TARGET
    

המאמרים הבאים