llm-d

במאמר הזה מוסבר איך הפריסה של Google Kubernetes Engine יכולה להשתמש בשירות מנוהל של Google Cloud ל-Prometheus כדי לאסוף מדדים מ-llm-d. ‏llm-d מורכב מרכיבים רבים, כולל GKE Inference Gateway ו-vLLM.

מידע על איסוף מדדים מ-GKE Inference Gateway ומ-vLLM זמין במאמרים הבאים:

ההוראות במסמכים האלה רלוונטיות רק אם אתם משתמשים ב אוסף מנוהל עם שירות מנוהל ל-Prometheus. אם אתם משתמשים באיסוף שהוטמע באופן עצמאי, כדאי לעיין במסמכי התיעוד של llm-d.

אחרי שמגדירים את GKE Inference Gateway ואת vLLM, אפשר לגשת למרכז בקרה מוגדר מראש ב-Cloud Monitoring כדי לראות את המדדים.

דרישות מוקדמות

כדי לאסוף מדדים מ-llm-d באמצעות שירות מנוהל ל-Prometheus ואיסוף מנוהל, הפריסה צריכה לעמוד בדרישות הבאות:

  • האשכול צריך להריץ את Google Kubernetes Engine בגרסה ‎1.28.15-gke.2475000 ואילך.
  • צריך להפעיל את השירות המנוהל ל-Prometheus עם איסוף מנוהל. מידע נוסף זמין במאמר תחילת השימוש באוסף מנוהל.

בנוסף, צריך לשנות את ההגדרה של משאב PodMonitoring עבור vLLM. משתמשים בהגדרה הבאה:

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: llm-d-metrics
spec:
  selector:
    matchLabels:
      llm-d.ai/model: ms-pd-llm-d-modelservice
  endpoints:
  - port: 8200
    interval: 10s
    path: /metrics
  targetLabels:
    fromPod:
    - from: llm-d.ai/role
      to: role
    metadata:
    - pod
    - container
    - node
    - top_level_controller_name
    - top_level_controller_type

הצגת מרכזי בקרה

השילוב עם Cloud Monitoring כולל את לוח הבקרה llm-d Prometheus Overview. לוחות הבקרה מותקנים באופן אוטומטי כשמגדירים את השילוב. אפשר גם לראות תצוגות מקדימות סטטיות של מרכזי בקרה בלי להתקין את האינטגרציה.

כדי לראות מרכז בקרה שהותקן:

  1. במסוף Google Cloud , עוברים לדף  Dashboards:

    מעבר אל מרכזי בקרה

    אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שכותרת המשנה שלה היא Monitoring.

  2. לוחצים על הכרטיסייה רשימת מרכזי בקרה.
  3. בוחרים בקטגוריה שילובים.
  4. לוחצים על השם של מרכז הבקרה, לדוגמה, llm-d Prometheus Overview.

כדי לראות תצוגה מקדימה סטטית של מרכז הבקרה:

  1. נכנסים לדף  Integrations במסוף Google Cloud :

    עוברים אל Integrations

    אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שכותרת המשנה שלה היא Monitoring.

  2. לוחצים על המסנן Kubernetes Engine של פלטפורמת הפריסה.
  3. מאתרים את השילוב llm-d ולוחצים על הצגת פרטים.
  4. לוחצים על הכרטיסייה מרכזי בקרה.