‫Google משתמשת בטכנולוגיית AI כדי לתרגם תוכן לשפה המועדפת עליך. בתרגומים כאלו עשויות להיות שגיאות.

מידע על התאמה ל-AI ב-GKE

רגילה

במאמר הזה נסביר מהי תוכנית התאימות של Kubernetes AI, למה היא חשובה לעומסי העבודה של AI/ML ב-Google Kubernetes Engine‏ (GKE), ואיך אפשר להגדיר אשכולות GKE תואמים.

למה חשוב שאשכולות GKE יעמדו בדרישות של AI

תוכנית התאימות של AI ב-Kubernetes מגדירה תקן לאשכולות Kubernetes כדי להבטיח שהם יכולים להריץ עומסי עבודה של AI ו-ML בצורה מהימנה ויעילה. הגדרת אשכול Kubernetes ל-AI/ML יכולה להיות מורכבת. התהליך הזה כולל בדרך כלל ניווט בין גרסאות ספציפיות של דרייברים, גרסאות API ופתרונות אפשריים לבאגים לא צפויים.

פלטפורמה תואמת כמו GKE מיועדת לטפל במורכבויות הבסיסיות האלה בשבילכם, ומספקת דרך מההגדרה ועד לפריסה. אם תבנו על גרסה תואמת של GKE, תוכלו להיות בטוחים שהסביבה שלכם מותאמת לקריטריונים כמו:

יכולת הרחבה: הרחבה או צמצום של עומסי העבודה של AI/ML בצורה יעילה בהתאם לביקוש.
ביצועים: מפיקים את המרב מהחומרה, כולל מעבדי GPU ו-TPU.
ניידות: אפשר להריץ את אפליקציות ה-AI/ML בכל אשכול תואם של Kubernetes עם שינויים מינימליים.
יכולת פעולה הדדית: שילוב עם כלים ומסגרות אחרים בסביבה העסקית של AI/ML.

איך יוצרים אשכול GKE שתואם ל-AI

כדי ליצור אשכול GKE שתואם ל-AI, צריך לבצע את הפעולות הבאות:

כדי לראות את רשימת הגרסאות התואמות, אפשר לעיין בai-conformance מאגר GitHub.
יוצרים אשכול GKE במצב רגיל שפועל בגרסה תואמת, כמו 1.34.0-gke.1662000 ואילך.
מפעילים את Gateway API באשכול.

האשכול שלכם עומד עכשיו בדרישות החובה לתאימות ל-AI ב-Kubernetes.

מה הופך את GKE לפלטפורמה תואמת ל-Kubernetes AI

‫GKE מנהל את הדרישות הבסיסיות לתאימות ל-AI, כך שאתם לא צריכים לעשות זאת. בטבלה הבאה מודגשות כמה מהתכונות העיקריות האלה לעומסי עבודה של AI/ML. חלק מהתכונות האלה מופעלות כברירת מחדל, אבל אחרות, כמו Kueue לתזמון של קבוצות משימות, הן תוספות אופציונליות שאפשר להתקין כדי לשפר את עומסי העבודה של AI/ML.

תוכנית התאימות של Kubernetes AI מתוכננת להתפתח עם הסביבה העסקית של AI/ML. הדרישות מתעדכנות עם כל מהדורת משנה של Kubernetes, בהתאם למצב האקוסיסטם. כדי לראות את כל הדרישות לגרסה משנית ספציפית, אפשר לעיין בקובץ docs/AIConformance-MINOR_VERSION.yaml במאגר GitHub‏ ai-conformance, כאשר MINOR_VERSION היא הגרסה הספציפית שלכם, למשל v1.34.

דרישה
הקצאת משאבים דינמית (DRA)	מאפשרת בקשות גמישות ומפורטות יותר למשאבים, מעבר לספירות. מידע נוסף זמין במאמר מידע על הקצאת משאבים דינמית.
Kubernetes Gateway API	השירות הזה מספק ניהול מתקדם של תעבורת נתונים לשירותי הסקת מסקנות, ומאפשר יכולות כמו פיצול תעבורת נתונים לפי משקל וניתוב מבוסס-כותרות. מידע נוסף זמין במאמר מידע על GKE Gateway API.
תזמון קבוצתי	התכונה הזו מבטיחה תזמון של עומסי עבודה מבוזרים של AI, כך שכל המשימות יתבצעו או שאף אחת מהן לא תתבצע. ‫GKE מאפשר התקנה והפעלה מוצלחת של לפחות פתרון אחד לתזמון קבוצתי. דוגמה מופיעה במאמר פריסת מערכת אצווה באמצעות Kueue.
התאמה אוטומטית של גודל האשכול למאיצים	הצמתים בקבוצות הצמתים שכוללות סוגים ספציפיים של מאיצים עוברים הגדלה והקטנה בהתאם ל-Pods בהמתנה שמבקשים את המאיצים האלה. למידע נוסף: מידע על התאמה אוטומטית של גודל האשכול ב-GKE מידע על ComputeClasses בהתאמה אישית
‫Horizontal Pod Autoscaler‏ (HPA) למאיצים	פועל בצורה תקינה עבור קבוצות Pod שמשתמשות במאיצים, כולל היכולת לשנות את גודל קבוצות ה-Pod האלה על סמך מדדים מותאמים אישית שרלוונטיים לעומסי עבודה של AI/ML. מידע נוסף זמין במאמרים הבאים: הגדרת התאמה אוטומטית לעומס עבודה (autoscaling) לעומסי עבודה של LLM ביחידות GPU. הגדרת התאמה אוטומטית לעומס (autoscaling) לעומסי עבודה של LLM ב-TPU.
מדדי ביצועים של תוכנית ההאצה	התכונה חושפת מדדי ביצועים ברמת פירוט גבוהה באמצעות נקודת קצה של מדדים בפורמט סטנדרטי שניתן לקריאה על ידי מכונה. מידע נוסף זמין במאמרים הבאים: מעקב אחר ביצועי עומס העבודה של צומת GPU. ניראות ומדדים של עומסי עבודה ב-TPU.
מעקב סטנדרטי	מספקת מערכת ניטור שיכולה לגלות מדדים מעומסי עבודה שחושפים אותם בפורמט סטנדרטי (לדוגמה, פורמט החשיפה של Prometheus) ולאסוף אותם. מידע נוסף זמין במאמר יכולת צפייה ב-GKE.
תמיכה באופרטורים של AI	צריך להוכיח שאפשר להתקין בפלטפורמה לפחות אופרטור AI מורכב אחד עם הגדרת משאב מותאם אישית (CRD), ושהוא פועל בצורה מהימנה. מידע נוסף זמין במאמר יצירת פלטפורמה ללמידת מכונה באמצעות Kubeflow ו-Ray ב-Google Kubernetes Engine.

המאמרים הבאים

במאגר התאימות של AI ב-Kubernetes אפשר לקבל פרטים נוספים על התוכנית.
מומלץ לקרוא את המאמר מבוא לעומסי עבודה של AI/ML ב-GKE.
מידע נוסף על הסקת מסקנות של מודלים של AI ב-GKE ודוגמאות להסקת מסקנות
דוגמה לאימון מודל ב-GPU במצב GKE Standard

מידע על התאמה ל-AI ב-GKE קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

למה חשוב שאשכולות GKE יעמדו בדרישות של AI

איך יוצרים אשכול GKE שתואם ל-AI

מה הופך את GKE לפלטפורמה תואמת ל-Kubernetes AI

המאמרים הבאים

מידע על התאמה ל-AI ב-GKE