בדף הזה מוסבר איך להגדיר את התשתית שלכם להרחבה אוטומטית באמצעות Horizontal Pod Autoscaler (HPA) של GKE כדי לפרוס את מודל השפה הגדול (LLM) של Gemma עם מסגרת ההגשה Text Generation Interface (TGI) מבית Hugging Face.
מידע נוסף על בחירת מדדים להתאמה אוטומטית לעומס זמין במאמר שיטות מומלצות להתאמה אוטומטית לעומס של עומסי עבודה של מודלים גדולים של שפה (LLM) באמצעות GPU ב-GKE.
לפני שמתחילים
לפני שמתחילים, חשוב לוודא שביצעתם את הפעולות הבאות:
- מפעילים את ממשק ה-API של Google Kubernetes Engine. הפעלת Google Kubernetes Engine API
- אם רוצים להשתמש ב-CLI של Google Cloud למשימה הזו, צריך להתקין ואז להפעיל את ה-CLI של gcloud. אם התקנתם בעבר את ה-CLI של gcloud, מריצים את הפקודה
gcloud components updateכדי לקבל את הגרסה העדכנית. יכול להיות שגרסאות קודמות של ה-CLI של gcloud לא יתמכו בהרצת הפקודות שמופיעות במסמך הזה.
- כדאי לעיין בתהליך העבודה במאמר Serve Gemma open models using GPUs on GKE with Hugging Face TGI.
התאמה אוטומטית של הקיבולת באמצעות מדדי שרת
אתם יכולים להשתמש במדדי הביצועים הספציפיים לעומס העבודה שמופקים על ידי שרת ההיקש של TGI כדי לכוון את ההתאמה האוטומטית לעומס של ה-Pods. מידע נוסף על המדדים האלה זמין במאמר מדדים של השרת.
כדי להגדיר התאמה אוטומטית לעומס של מדדים מותאמים אישית באמצעות מדדי שרת, בצע את השלבים הבאים:
ייצוא המדדים משרת ה-TGI אל Cloud Monitoring. אתם משתמשים בשירות המנוהל של Google Cloud ל-Prometheus, שמפשט את הפריסה וההגדרה של כלי האיסוף של Prometheus. השירות המנוהל של Google Cloud ל-Prometheus מופעל כברירת מחדל באשכול GKE. אפשר גם להפעיל אותו באופן ידני.
במניפסט לדוגמה שבהמשך מוצג איך להגדיר את הגדרת המשאב PodMonitoring כדי להנחות את השירות המנוהל של Google Cloud ל-Prometheus לבצע סקראפינג של מדדים מה-Pods במרווחי זמן חוזרים של 15 שניות:
apiVersion: monitoring.googleapis.com/v1 kind: PodMonitoring metadata: name: gemma-pod-monitoring spec: selector: matchLabels: app: gemma-server endpoints: - port: 8000 interval: 15sמתקינים את Custom Metrics Stackdriver Adapter. המתאם הזה מאפשר לבקר HPA לראות את המדד המותאם אישית שייצאתם ל-Monitoring. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.
בדוגמה הבאה אפשר לראות איך להתקין את המתאם:
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/production/adapter_new_resource_model.yamlמגדירים את משאב ה-HPA שמבוסס על מדד מותאם אישית. פריסת משאב HPA שמבוסס על המדד המותאם אישית המועדף. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.
בוחרים באחת מהכרטיסיות הבאות כדי לראות דוגמאות לאופן ההגדרה של משאב HorizontalPodAutoscaler במניפסט:
גודל התור
בדוגמה הזו נעשה שימוש במדדי השרת של
tgi_queue_sizeTGI, שמייצגים את מספר הבקשות בתור.כדי לקבוע את ערך הסף הנכון של גודל התור ל-HPA, אפשר לעיין במאמר בנושא שיטות מומלצות להתאמה אוטומטית לעומס (automatic scaling) של עומסי עבודה של היקש של LLM באמצעות GPU.
apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: gemma-server spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: tgi-gemma-deployment minReplicas: 1 maxReplicas: 5 metrics: - type: Pods pods: metric: name: prometheus.googleapis.com|tgi_queue_size|gauge target: type: AverageValue averageValue: $HPA_AVERAGEVALUE_TARGETגודל אצווה
בדוגמה הזו נעשה שימוש במדד השרת
tgi_batch_sizeTGI, שמייצג את מספר הבקשות באצווה הנוכחית.כדי לקבוע את ערך הסף הנכון של גודל האצווה ל-HPA, אפשר לעיין במאמר שיטות מומלצות להתאמה אוטומטית לעומס של עומסי עבודה של היקש של LLM באמצעות GPU.
apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: gemma-server spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: tgi-gemma-deployment minReplicas: 1 maxReplicas: 5 metrics: - type: Pods pods: metric: name: prometheus.googleapis.com|tgi_batch_current_size|gauge target: type: AverageValue averageValue: $HPA_AVERAGEVALUE_TARGET
שינוי אוטומטי של קנה מידה באמצעות מדדי GPU
אתם יכולים להשתמש במדדי השימוש והביצועים שמופקים מה-GPU כדי להפעיל התאמה אוטומטית לעומס (automatic scaling) של ה-Pods. מידע נוסף על המדדים האלה זמין במאמר מדדי GPU.
כדי להגדיר התאמה אוטומטית לעומס של מדדים מותאמים אישית באמצעות מדדי GPU, פועלים לפי השלבים הבאים:
ייצוא מדדי ה-GPU אל Cloud Monitoring. אם מדדי המערכת מופעלים באשכול GKE, מדד השימוש ב-GPU נשלח אוטומטית אל Cloud Monitoring דרך מדד המערכת
container/accelerator/duty_cycle, כל 60 שניות.- כדי ללמוד איך להפעיל מדדי מערכת של GKE, אפשר לעיין במאמר בנושא הגדרת איסוף מדדים.
- כדי להגדיר איסוף מנוהל, אפשר לעיין במאמר תחילת העבודה עם איסוף מנוהל במסמכי התיעוד של השירות המנוהל של Google Cloud ל-Prometheus.
- טכניקות נוספות למעקב אחרי ביצועי עומסי העבודה של ה-GPU ב-GKE מפורטות במאמר הפעלת מעבדי GPU במאגרי צמתים רגילים ב-GKE.
במניפסט הבא לדוגמה אפשר לראות איך מגדירים את הגדרת המשאב PodMonitoring כדי להטמיע מדדים מעומס העבודה של NVIDIA DCGM:
apiVersion: monitoring.googleapis.com/v1 kind: PodMonitoring metadata: name: nvidia-dcgm-exporter-for-hpa namespace: gke-managed-system labels: app.kubernetes.io/name: nvidia-dcgm-exporter app.kubernetes.io/part-of: google-cloud-managed-prometheus spec: selector: matchLabels: app.kubernetes.io/name: gke-managed-dcgm-exporter endpoints: - port: metrics interval: 15s metricRelabeling: - action: keep sourceLabels: [__name__] - action: replace sourceLabels: [__name__] targetLabel: __name__ regex: DCGM_FI_DEV_GPU_UTIL replacement: dcgm_fi_dev_gpu_utilבקוד, חשוב לשנות את שם המדד של DCGM שבו רוצים להשתמש ב-HPA לאותיות קטנות. הסיבה לכך היא בעיה ידועה שבה HPA לא פועל עם שמות מדדים חיצוניים באותיות רישיות. במקרים שבהם לא נעשה שימוש ב-DCGM exporter מנוהל, צריך לוודא שההגדרות
metadata.namespaceו-spec.selector.matchLabelsשל ה-HPA זהות להגדרות של ה-DCGM exporter.ההתאמה המדויקת הזו חיונית כדי שה-HPA יוכל לגלות מדדים מותאמים אישית ולבצע עליהם שאילתות.מתקינים את Custom Metrics Stackdriver Adapter. המתאם הזה מאפשר לבקר HPA לראות את המדד המותאם אישית שייצאתם ל-Monitoring. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.
בדוגמה הבאה אפשר לראות איך להריץ את ההתקנה:
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/production/adapter_new_resource_model.yamlמגדירים את משאב ה-HPA שמבוסס על מדד מותאם אישית. פריסת משאב HPA על סמך מדד מותאם אישית מועדף. פרטים נוספים זמינים במאמר בנושא שינוי אוטומטי של מספר העותקים של הפודים במאמרי העזרה של השירות המנוהל של Google Cloud ל-Prometheus.
- מגדירים יעד ערך ממוצע ל-HPA כדי להפעיל את ההתאמה האוטומטית לעומס (automatic scaling). אפשר לעשות את זה באופן ניסיוני. לדוגמה, אפשר ליצור עומס הולך וגובר על השרת ולבדוק איפה השימוש ב-GPU מגיע לשיא. חשוב לשים לב לסבילות של HPA, שמוגדרת כברירת מחדל לטווח של 0.1 ללא פעולה סביב ערך היעד כדי למנוע תנודות.
- מומלץ להשתמש בכלי locust-load-inference לבדיקה. אפשר גם ליצור לוח בקרה מותאם אישית ב-Cloud Monitoring כדי להציג את התנהגות המדד.
בוחרים באחת מהכרטיסיות האלה כדי לראות דוגמה לאופן ההגדרה של משאב HorizontalPodAutoscaler במניפסט:
דיוטי סייקל (Duty cycle) (מערכת GKE)
apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: gemma-hpa spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: tgi-gemma-deployment minReplicas: 1 maxReplicas: 5 metrics: - type: External external: metric: name: kubernetes.io|container|accelerator|duty_cycle selector: matchLabels: resource.labels.container_name: inference-server resource.labels.namespace_name: default target: type: AverageValue averageValue: $HPA_AVERAGEVALUE_TARGETדיוטי סייקל (DCGM)
apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: gemma-hpa spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: tgi-gemma-deployment minReplicas: 1 maxReplicas: 5 metrics: - type: External external: metric: name: prometheus.googleapis.com|dcgm_fi_dev_gpu_util|unknown selector: matchLabels: metric.labels.exported_container: inference-server metric.labels.exported_namespace: default target: type: AverageValue averageValue: $HPA_AVERAGEVALUE_TARGET
המאמרים הבאים
- איך מבצעים אופטימיזציה של התאמה אוטומטית לעומס של Pod על סמך מדדים מ-Cloud Monitoring
- מידע נוסף על התאמה אופקית של קבוצות Pod לעומס זמין במסמכי התיעוד של Kubernetes בקוד פתוח.