למה חשוב שאשכולות GKE יעמדו בדרישות של AI
תוכנית התאימות של AI ב-Kubernetes מגדירה תקן לאשכולות Kubernetes כדי להבטיח שהם יכולים להריץ עומסי עבודה של AI ו-ML בצורה מהימנה ויעילה. הגדרת אשכול Kubernetes ל-AI/ML יכולה להיות מורכבת. התהליך הזה כולל בדרך כלל ניווט בין גרסאות ספציפיות של דרייברים, גרסאות API ופתרונות אפשריים לבאגים לא צפויים.
פלטפורמה תואמת כמו GKE מיועדת לטפל במורכבויות הבסיסיות האלה בשבילכם, ומספקת דרך מההגדרה ועד לפריסה. אם תבנו על גרסה תואמת של GKE, תוכלו להיות בטוחים שהסביבה שלכם מותאמת לקריטריונים כמו:
- יכולת הרחבה: הרחבה או צמצום של עומסי העבודה של AI/ML בצורה יעילה בהתאם לביקוש.
- ביצועים: מפיקים את המרב מהחומרה, כולל מעבדי GPU ו-TPU.
- ניידות: אפשר להריץ את אפליקציות ה-AI/ML בכל אשכול תואם של Kubernetes עם שינויים מינימליים.
- יכולת פעולה הדדית: שילוב עם כלים ומסגרות אחרים בסביבה העסקית של AI/ML.
איך יוצרים אשכול GKE שתואם ל-AI
כדי ליצור אשכול GKE שתואם ל-AI, צריך לבצע את הפעולות הבאות:
- כדי לראות את רשימת הגרסאות התואמות, אפשר לעיין ב
ai-conformanceמאגר GitHub. - יוצרים אשכול GKE במצב רגיל שפועל בגרסה תואמת, כמו 1.34.0-gke.1662000 ואילך.
- מפעילים את Gateway API באשכול.
האשכול שלכם עומד עכשיו בדרישות החובה לתאימות ל-AI ב-Kubernetes.
מה הופך את GKE לפלטפורמה תואמת ל-Kubernetes AI
GKE מנהל את הדרישות הבסיסיות לתאימות ל-AI, כך שאתם לא צריכים לעשות זאת. בטבלה הבאה מודגשות כמה מהתכונות העיקריות האלה לעומסי עבודה של AI/ML. חלק מהתכונות האלה מופעלות כברירת מחדל, אבל אחרות, כמו Kueue לתזמון של קבוצות משימות, הן תוספות אופציונליות שאפשר להתקין כדי לשפר את עומסי העבודה של AI/ML.
תוכנית התאימות של Kubernetes AI מתוכננת להתפתח עם הסביבה העסקית של AI/ML.
הדרישות מתעדכנות עם כל מהדורת משנה של Kubernetes, בהתאם למצב האקוסיסטם. כדי לראות את כל הדרישות לגרסה משנית ספציפית, אפשר לעיין בקובץ docs/AIConformance-MINOR_VERSION.yaml במאגר GitHub ai-conformance, כאשר MINOR_VERSION היא הגרסה הספציפית שלכם, למשל v1.34.
| דרישה | |
|---|---|
| הקצאת משאבים דינמית (DRA) | מאפשרת בקשות גמישות ומפורטות יותר למשאבים, מעבר לספירות. מידע נוסף זמין במאמר מידע על הקצאת משאבים דינמית. |
| Kubernetes Gateway API | השירות הזה מספק ניהול מתקדם של תעבורת נתונים לשירותי הסקת מסקנות, ומאפשר יכולות כמו פיצול תעבורת נתונים לפי משקל וניתוב מבוסס-כותרות. מידע נוסף זמין במאמר מידע על GKE Gateway API. |
| תזמון קבוצתי | התכונה הזו מבטיחה תזמון של עומסי עבודה מבוזרים של AI, כך שכל המשימות יתבצעו או שאף אחת מהן לא תתבצע. GKE מאפשר התקנה והפעלה מוצלחת של לפחות פתרון אחד לתזמון קבוצתי. דוגמה מופיעה במאמר פריסת מערכת אצווה באמצעות Kueue. |
| התאמה אוטומטית של גודל האשכול למאיצים | הצמתים בקבוצות הצמתים שכוללות סוגים ספציפיים של מאיצים עוברים הגדלה והקטנה בהתאם ל-Pods בהמתנה שמבקשים את המאיצים האלה. למידע נוסף: |
| Horizontal Pod Autoscaler (HPA) למאיצים | פועל בצורה תקינה עבור קבוצות Pod שמשתמשות במאיצים, כולל היכולת לשנות את גודל קבוצות ה-Pod האלה על סמך מדדים מותאמים אישית שרלוונטיים לעומסי עבודה של AI/ML. מידע נוסף זמין במאמרים הבאים: |
| מדדי ביצועים של תוכנית ההאצה | התכונה חושפת מדדי ביצועים ברמת פירוט גבוהה באמצעות נקודת קצה של מדדים בפורמט סטנדרטי שניתן לקריאה על ידי מכונה. מידע נוסף זמין במאמרים הבאים: |
| מעקב סטנדרטי | מספקת מערכת ניטור שיכולה לגלות מדדים מעומסי עבודה שחושפים אותם בפורמט סטנדרטי (לדוגמה, פורמט החשיפה של Prometheus) ולאסוף אותם. מידע נוסף זמין במאמר יכולת צפייה ב-GKE. |
| תמיכה באופרטורים של AI | צריך להוכיח שאפשר להתקין בפלטפורמה לפחות אופרטור AI מורכב אחד עם הגדרת משאב מותאם אישית (CRD), ושהוא פועל בצורה מהימנה. מידע נוסף זמין במאמר יצירת פלטפורמה ללמידת מכונה באמצעות Kubeflow ו-Ray ב-Google Kubernetes Engine. |
המאמרים הבאים
- במאגר התאימות של AI ב-Kubernetes אפשר לקבל פרטים נוספים על התוכנית.
- מומלץ לקרוא את המאמר מבוא לעומסי עבודה של AI/ML ב-GKE.
- מידע נוסף על הסקת מסקנות של מודלים של AI ב-GKE ודוגמאות להסקת מסקנות
- דוגמה לאימון מודל ב-GPU במצב GKE Standard