מבוא לעומסי עבודה של AI/ML ב-GKE

בדף הזה יש סקירה כללית של Google Kubernetes Engine ‏ (GKE) לעומסי עבודה של AI/ML. ‫GKE הוא הטמעה מנוהלת על ידי Google של פלטפורמת תזמור הקונטיינרים בקוד פתוח Kubernetes.

Google Kubernetes Engine מספקת פלטפורמה מדרגית, גמישה וחסכונית להרצת כל עומסי העבודה שלכם בקונטיינרים, כולל אפליקציות של בינה מלאכותית (AI) ולמידת מכונה (AI/ML). בין אם אתם מאמנים מודלים גדולים בסיסיים, משרתים בקשות הסקה בהיקף גדול או בונים פלטפורמת AI מקיפה, GKE מציע את השליטה והביצועים שאתם צריכים.

הדף הזה מיועד למומחים בתחום הנתונים וה-AI, לארכיטקטים של Cloud, למפעילים ולמפתחים שמחפשים פתרון Kubernetes מנוהל, אוטומטי וניתן להרחבה להרצת עומסי עבודה של AI/ML. מידע נוסף על תפקידים נפוצים זמין במאמר תפקידים נפוצים של משתמשים ומשימות ב-GKE.

איך מתחילים להשתמש בעומסי עבודה של AI/ML ב-GKE

אפשר להתחיל להשתמש ב-GKE תוך דקות באמצעות התוכנית החינמית של GKE, שמאפשרת להתחיל להשתמש ב-Kubernetes בלי לשלם על ניהול האשכול.

  1. תחילת העבודה ב Google Cloud מסוף

  2. כדאי לנסות את המדריכים לתחילת העבודה הבאים:
    • הסקת מסקנות ב-GKE: פריסת מודל שפה גדול (LLM) של AI ב-GKE להסקת מסקנות באמצעות ארכיטקטורה מוגדרת מראש.
    • אימון ב-GKE: פריסת מודל לאימון AI ב-GKE ואחסון החיזויים ב-Cloud Storage.
  3. מומלץ לקרוא את המאמר מידע על אפשרויות השימוש במאיצים לעומסי עבודה של AI/ML, שכולל הנחיות ומקורות מידע לתכנון ולקבלת מאיצים (GPU ו-TPU) לפלטפורמה שלכם.

תרחישים נפוצים לדוגמה

‫GKE מספק פלטפורמה מאוחדת שיכולה לתמוך בכל עומסי העבודה (workloads) של AI.

  • פיתוח פלטפורמת AI: צוותי פלטפורמה בארגונים יכולים להשתמש ב-GKE כדי לפתח פלטפורמה סטנדרטית עם מספר דיירים, שתענה על מגוון רחב של צרכים.
  • מילוי בקשה באופן מיידי עם זמן אחזור נמוך: למפתחים שיוצרים אפליקציות של AI גנרטיבי, ‏ GKE עם Inference Gateway מספק את הניתוב האופטימלי ואת ההתאמה האוטומטית לעומס שנדרשים כדי לספק חוויית משתמש רספונסיבית תוך שליטה בעלויות.

בחירת הפלטפורמה המתאימה לעומס העבודה של AI/ML

Google Cloud מציעה מגוון מוצרי תשתית AI לתמיכה בתהליך הלמידה שלכם, החל ממוצרים מנוהלים לחלוטין ועד למוצרים שניתנים להגדרה מלאה. הבחירה בפלטפורמה הנכונה תלויה בצרכים הספציפיים שלכם מבחינת שליטה, גמישות ורמת ניהול.

שיטה מומלצת:

כדאי לבחור ב-GKE כשרוצים שליטה מלאה, ניידות ויכולת ליצור פלטפורמת AI מותאמת אישית עם ביצועים גבוהים.

  • שליטה בגמישות בתשתית: אתם צריכים רמה גבוהה של שליטה בתשתית, להשתמש בצינורות מותאמים אישית או לבצע התאמות אישיות ברמת ליבת המערכת.
  • אימון והסקת מסקנות בקנה מידה גדול: אתם רוצים לאמן מודלים גדולים מאוד או להפעיל מודלים עם השהיה מינימלית, באמצעות ההתאמה לקנה מידה והביצועים הגבוהים של GKE.
  • יעילות עלויות בהיקף גדול: אתם רוצים לתת עדיפות לאופטימיזציה של עלויות באמצעות השילוב של GKE עם מכונות וירטואליות מסוג Spot ומכונות וירטואליות מסוג Flex-start, כדי לנהל את העלויות בצורה יעילה.
  • ניידות ותקנים פתוחים: אתם רוצים להימנע מנעילת ספק ולהריץ את עומסי העבודה שלכם בכל מקום באמצעות Kubernetes, וכבר יש לכם מומחיות ב-Kubernetes או אסטרטגיית מרובה עננים (multi-cloud).

אפשר גם לנסות את האפשרויות הבאות:

שירותGoogle Cloud למי זה מתאים
Vertex AI פלטפורמה מנוהלת מקצה לקצה שמאיצה את הפיתוח ומפחיתה את הצורך בניהול התשתית. מתאים לצוותים שמתמקדים ב-MLOps ובקיצור הזמן להפקת ערך. מידע נוסף זמין בסרטון בחירה בין GKE באירוח עצמי לבין Vertex AI מנוהל לאירוח מודלים של AI.
Cloud Run פלטפורמה ללא שרת (serverless) לעומסי עבודה (workloads) של הסקת מסקנות בקונטיינרים, שאפשר להקטין את גודלם לאפס. מתאים לאפליקציות מבוססות-אירועים ולהצגת מודלים קטנים יותר בצורה חסכונית. לניתוח השוואתי מעמיק, ראו GKE ו-Cloud Run.

איך GKE מפעיל עומסי עבודה של AI/ML

‫GKE מציע חבילה של רכיבים ייעודיים שמפשטים ומאיצים כל שלב במחזור החיים של AI/ML, החל מהדרכה בקנה מידה גדול ועד להסקת מסקנות עם השהיה נמוכה.

בתרשים הבא, GKE נמצא ב- Google Cloudויכול להשתמש באפשרויות שונות של אחסון בענן (כמו Cloud Storage FUSE ו-Managed Lustre) ובאפשרויות שונות של תשתית ענן (כמו Cloud TPU ומעבדים גרפיים ל-Cloud). ‫GKE גם עובד עם תוכנות ועם מסגרות קוד פתוח ללמידה עמוקה (כמו JAX או TensorFlow), לניהול למידת מכונה (כמו Jupyter או Ray) ולהסקת מסקנות של LLM (כמו vLLM או NVIDIA Dynamo).
איור 1: GKE כפלטפורמה מנוהלת וניתנת להרחבה לעומסי עבודה של AI/ML.

בטבלה הבאה מפורטות תכונות של GKE שתומכות בעומסי עבודה של AI/ML או ביעדים תפעוליים.

עומס עבודה או פעולה של AI/ML איך GKE תומך בכם תכונות עיקריות
הסקת מסקנות והצגה אופטימיזציה להצגת מודלים של AI באופן גמיש, עם זמן אחזור נמוך, תפוקה גבוהה ויעילות בעלויות.
  • גמישות מאיץ: GKE תומך ב-GPU וב-TPU להיקש.
  • GKE Inference Gateway: שער מודע למודל שמספק ניתוב חכם ואיזון עומסים במיוחד לעומסי עבודה של הסקת מסקנות מ-AI.
  • GKE Inference Quickstart: כלי שמפשט את ניתוח הביצועים והפריסה על ידי מתן קבוצה של פרופילים עם מדדים למודלים פופולריים של AI.
  • GKE Autopilot: מצב הפעלה של GKE שמבצע אוטומציה של פעולות באשכולות ושל התאמת גודל הקיבולת, וכך מצמצם את התקורה.
אימון ושיפור השירות מספק את יכולות ההרחבה והתיאום שנדרשות כדי לאמן ביעילות מודלים גדולים מאוד, תוך מזעור העלויות.
  • הפעלה מהירה יותר של צמתים: אופטימיזציה שנועדה במיוחד לעומסי עבודה (workloads) של GPU, ומקצרת את זמני ההפעלה של הצמתים בעד 80%.
  • מצב הקצאת משאבים עם הפעלה גמישה שמבוסס על Dynamic Workload Scheduler: משפר את היכולת שלכם להשיג מאיצי GPU ו-TPU נדירים לעומסי עבודה של אימון לטווח קצר.
  • Kueue: מערכת תורים של משימות ב-Kubernetes, שמאפשרת לנהל הקצאת משאבים, תזמון, ניהול מכסות ותעדוף של עומסי עבודה באצווה.
  • TPU multislice: ארכיטקטורת חומרה ורשת שמאפשרת לכמה חלקי TPU לתקשר ביניהם ברשת של מרכז הנתונים (DCN) כדי לבצע אימון בקנה מידה גדול.
פיתוח מאוחד של AI/ML תמיכה מנוהלת ב-Ray, ‏ framework של קוד פתוח להתאמה לעומס (scaling) של אפליקציות Python מבוזרות.
  • Ray on GKE add-on: מפשטת את תשתית Kubernetes, ומאפשרת לכם לשנות את קנה המידה של עומסי עבודה כמו עיבוד מקדים של נתונים בקנה מידה גדול, אימון מבוזר ומילוי בקשה באופן מיידי עם שינויים מינימליים בקוד.

המאמרים הבאים