בדף הזה יש סקירה כללית של Google Kubernetes Engine (GKE) לעומסי עבודה של AI/ML. GKE הוא הטמעה מנוהלת על ידי Google של פלטפורמת תזמור הקונטיינרים בקוד פתוח Kubernetes.
Google Kubernetes Engine מספקת פלטפורמה מדרגית, גמישה וחסכונית להרצת כל עומסי העבודה שלכם בקונטיינרים, כולל אפליקציות של בינה מלאכותית (AI) ולמידת מכונה (AI/ML). בין אם אתם מאמנים מודלים גדולים בסיסיים, משרתים בקשות הסקה בהיקף גדול או בונים פלטפורמת AI מקיפה, GKE מציע את השליטה והביצועים שאתם צריכים.
הדף הזה מיועד למומחים בתחום הנתונים וה-AI, לארכיטקטים של Cloud, למפעילים ולמפתחים שמחפשים פתרון Kubernetes מנוהל, אוטומטי וניתן להרחבה להרצת עומסי עבודה של AI/ML. מידע נוסף על תפקידים נפוצים זמין במאמר תפקידים נפוצים של משתמשים ומשימות ב-GKE.
איך מתחילים להשתמש בעומסי עבודה של AI/ML ב-GKE
אפשר להתחיל להשתמש ב-GKE תוך דקות באמצעות התוכנית החינמית של GKE, שמאפשרת להתחיל להשתמש ב-Kubernetes בלי לשלם על ניהול האשכול.
- כדאי לנסות את המדריכים לתחילת העבודה הבאים:
- הסקת מסקנות ב-GKE: פריסת מודל שפה גדול (LLM) של AI ב-GKE להסקת מסקנות באמצעות ארכיטקטורה מוגדרת מראש.
- אימון ב-GKE: פריסת מודל לאימון AI ב-GKE ואחסון החיזויים ב-Cloud Storage.
- מומלץ לקרוא את המאמר מידע על אפשרויות השימוש במאיצים לעומסי עבודה של AI/ML, שכולל הנחיות ומקורות מידע לתכנון ולקבלת מאיצים (GPU ו-TPU) לפלטפורמה שלכם.
תרחישים נפוצים לדוגמה
GKE מספק פלטפורמה מאוחדת שיכולה לתמוך בכל עומסי העבודה (workloads) של AI.
- פיתוח פלטפורמת AI: צוותי פלטפורמה בארגונים יכולים להשתמש ב-GKE כדי לפתח פלטפורמה סטנדרטית עם מספר דיירים, שתענה על מגוון רחב של צרכים.
- מילוי בקשה באופן מיידי עם זמן אחזור נמוך: למפתחים שיוצרים אפליקציות של AI גנרטיבי, GKE עם Inference Gateway מספק את הניתוב האופטימלי ואת ההתאמה האוטומטית לעומס שנדרשים כדי לספק חוויית משתמש רספונסיבית תוך שליטה בעלויות.
בחירת הפלטפורמה המתאימה לעומס העבודה של AI/ML
Google Cloud מציעה מגוון מוצרי תשתית AI לתמיכה בתהליך הלמידה שלכם, החל ממוצרים מנוהלים לחלוטין ועד למוצרים שניתנים להגדרה מלאה. הבחירה בפלטפורמה הנכונה תלויה בצרכים הספציפיים שלכם מבחינת שליטה, גמישות ורמת ניהול.
כדאי לבחור ב-GKE כשרוצים שליטה מלאה, ניידות ויכולת ליצור פלטפורמת AI מותאמת אישית עם ביצועים גבוהים.
- שליטה בגמישות בתשתית: אתם צריכים רמה גבוהה של שליטה בתשתית, להשתמש בצינורות מותאמים אישית או לבצע התאמות אישיות ברמת ליבת המערכת.
- אימון והסקת מסקנות בקנה מידה גדול: אתם רוצים לאמן מודלים גדולים מאוד או להפעיל מודלים עם השהיה מינימלית, באמצעות ההתאמה לקנה מידה והביצועים הגבוהים של GKE.
- יעילות עלויות בהיקף גדול: אתם רוצים לתת עדיפות לאופטימיזציה של עלויות באמצעות השילוב של GKE עם מכונות וירטואליות מסוג Spot ומכונות וירטואליות מסוג Flex-start, כדי לנהל את העלויות בצורה יעילה.
- ניידות ותקנים פתוחים: אתם רוצים להימנע מנעילת ספק ולהריץ את עומסי העבודה שלכם בכל מקום באמצעות Kubernetes, וכבר יש לכם מומחיות ב-Kubernetes או אסטרטגיית מרובה עננים (multi-cloud).
אפשר גם לנסות את האפשרויות הבאות:
| שירותGoogle Cloud | למי זה מתאים |
|---|---|
| Vertex AI | פלטפורמה מנוהלת מקצה לקצה שמאיצה את הפיתוח ומפחיתה את הצורך בניהול התשתית. מתאים לצוותים שמתמקדים ב-MLOps ובקיצור הזמן להפקת ערך. מידע נוסף זמין בסרטון בחירה בין GKE באירוח עצמי לבין Vertex AI מנוהל לאירוח מודלים של AI. |
| Cloud Run | פלטפורמה ללא שרת (serverless) לעומסי עבודה (workloads) של הסקת מסקנות בקונטיינרים, שאפשר להקטין את גודלם לאפס. מתאים לאפליקציות מבוססות-אירועים ולהצגת מודלים קטנים יותר בצורה חסכונית. לניתוח השוואתי מעמיק, ראו GKE ו-Cloud Run. |
איך GKE מפעיל עומסי עבודה של AI/ML
GKE מציע חבילה של רכיבים ייעודיים שמפשטים ומאיצים כל שלב במחזור החיים של AI/ML, החל מהדרכה בקנה מידה גדול ועד להסקת מסקנות עם השהיה נמוכה.
בטבלה הבאה מפורטות תכונות של GKE שתומכות בעומסי עבודה של AI/ML או ביעדים תפעוליים.
| עומס עבודה או פעולה של AI/ML | איך GKE תומך בכם | תכונות עיקריות |
|---|---|---|
| הסקת מסקנות והצגה | אופטימיזציה להצגת מודלים של AI באופן גמיש, עם זמן אחזור נמוך, תפוקה גבוהה ויעילות בעלויות. |
|
| אימון ושיפור | השירות מספק את יכולות ההרחבה והתיאום שנדרשות כדי לאמן ביעילות מודלים גדולים מאוד, תוך מזעור העלויות. |
|
| פיתוח מאוחד של AI/ML | תמיכה מנוהלת ב-Ray, framework של קוד פתוח להתאמה לעומס (scaling) של אפליקציות Python מבוזרות. |
|
המאמרים הבאים
- כדי לעיין באוספים הנרחבים שלנו של מדריכים רשמיים, הדרכות ומקורות מידע אחרים להרצת עומסי עבודה של AI/ML ב-GKE, אפשר להיכנס לפורטל של תזמור AI/ML ב-GKE.
- מידע על טכניקות להשגת מאיצי מחשוב, כמו מעבדי GPU או TPU, לעומסי עבודה של AI/ML ב-GKE
- מידע על הסקת מסקנות של מודלים של AI/ML ב-GKE
- מידע נוסף על Ray ב-GKE
- ב-GKE AI Labs אפשר לעיין בדוגמאות ניסיוניות לשימוש ב-GKE כדי להאיץ את היוזמות שלכם בתחום ה-AI/ML.
- הצגת פרטים של עומסי העבודה של AI/ML ב- Google Cloud console, כולל משאבים כמו JobSets, RayJobs, PyTorchJobs ו-Deployments (פריסה) להצגת מסקנות.