במאמר הזה מוסבר איך הפריסה של Google Kubernetes Engine יכולה להשתמש בשירות מנוהל של Google Cloud ל-Prometheus כדי לאסוף מדדים מ-llm-d. llm-d מורכב מרכיבים רבים, כולל GKE Inference Gateway ו-vLLM.
מידע על איסוף מדדים מ-GKE Inference Gateway ומ-vLLM זמין במאמרים הבאים:
- GKE Inference Gateway
- vLLM. משתמשים בהגדרות של המשאב PodMonitoring שמתואר במסמך הזה.
ההוראות במסמכים האלה רלוונטיות רק אם אתם משתמשים ב אוסף מנוהל עם שירות מנוהל ל-Prometheus. אם אתם משתמשים באיסוף שהוטמע באופן עצמאי, כדאי לעיין במסמכי התיעוד של llm-d.
אחרי שמגדירים את GKE Inference Gateway ואת vLLM, אפשר לגשת למרכז בקרה מוגדר מראש ב-Cloud Monitoring כדי לראות את המדדים.
דרישות מוקדמות
כדי לאסוף מדדים מ-llm-d באמצעות שירות מנוהל ל-Prometheus ואיסוף מנוהל, הפריסה צריכה לעמוד בדרישות הבאות:
- האשכול צריך להריץ את Google Kubernetes Engine בגרסה 1.28.15-gke.2475000 ואילך.
- צריך להפעיל את השירות המנוהל ל-Prometheus עם איסוף מנוהל. מידע נוסף זמין במאמר תחילת השימוש באוסף מנוהל.
בנוסף, צריך לשנות את ההגדרה של משאב PodMonitoring עבור vLLM. משתמשים בהגדרה הבאה:
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
name: llm-d-metrics
spec:
selector:
matchLabels:
llm-d.ai/model: ms-pd-llm-d-modelservice
endpoints:
- port: 8200
interval: 10s
path: /metrics
targetLabels:
fromPod:
- from: llm-d.ai/role
to: role
metadata:
- pod
- container
- node
- top_level_controller_name
- top_level_controller_type
הצגת מרכזי בקרה
השילוב עם Cloud Monitoring כולל את לוח הבקרה llm-d Prometheus Overview. לוחות הבקרה מותקנים באופן אוטומטי כשמגדירים את השילוב. אפשר גם לראות תצוגות מקדימות סטטיות של מרכזי בקרה בלי להתקין את האינטגרציה.
כדי לראות מרכז בקרה שהותקן:
-
במסוף Google Cloud , עוברים לדף Dashboards:
אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שכותרת המשנה שלה היא Monitoring.
- לוחצים על הכרטיסייה רשימת מרכזי בקרה.
- בוחרים בקטגוריה שילובים.
- לוחצים על השם של מרכז הבקרה, לדוגמה, llm-d Prometheus Overview.
כדי לראות תצוגה מקדימה סטטית של מרכז הבקרה:
-
נכנסים לדף
Integrations במסוף Google Cloud :
אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שכותרת המשנה שלה היא Monitoring.
- לוחצים על המסנן Kubernetes Engine של פלטפורמת הפריסה.
- מאתרים את השילוב llm-d ולוחצים על הצגת פרטים.
- לוחצים על הכרטיסייה מרכזי בקרה.