מבוא לעומסי עבודה של AI/ML ב-GKE

בדף הזה יש סקירה כללית של Google Kubernetes Engine ‏ (GKE) לעומסי עבודה של AI/ML. ‫GKE הוא הטמעה מנוהלת של Google של פלטפורמת תזמור הקונטיינרים Kubernetes בקוד פתוח.

Google Kubernetes Engine מספק פלטפורמה גמישה, חסכונית וניתנת להתאמה להרצת כל עומסי העבודה שלכם במכולות, כולל אפליקציות של בינה מלאכותית (AI) ולמידת מכונה (ML). בין אם אתם מאמנים מודלים גדולים של AI, משרתים בקשות הסקה בהיקף גדול או בונים פלטפורמת AI מקיפה, GKE מציע את השליטה והביצועים שאתם צריכים.

הדף הזה מיועד למומחים בתחום הנתונים וה-AI, לארכיטקטים של Cloud, לאופרטורים ולמפתחים שמחפשים פתרון Kubernetes מנוהל, אוטומטי וניתן להרחבה להפעלת עומסי עבודה של AI/ML. מידע נוסף על תפקידים נפוצים זמין במאמר תפקידים נפוצים של משתמשים ומשימות ב-GKE.

איך מתחילים להשתמש בעומסי עבודה של AI/ML ב-GKE

אפשר להתחיל להשתמש ב-GKE תוך דקות באמצעות התוכנית החינמית של GKE, שמאפשרת להתחיל להשתמש ב-Kubernetes בלי לשלם על ניהול האשכולות.

  1. תחילת העבודה ב Google Cloud מסוף

  2. כדאי לנסות את המדריכים לתחילת העבודה הבאים:
    • הסקת מסקנות ב-GKE: פריסת מודל שפה גדול (LLM) של AI ב-GKE להסקת מסקנות באמצעות ארכיטקטורה מוגדרת מראש.
    • אימון ב-GKE: פריסת מודל לאימון AI ב-GKE ואחסון התחזיות ב-Cloud Storage.
  3. מומלץ לקרוא את המאמר מידע על אפשרויות הצריכה של מאיצים לעומסי עבודה של AI/ML, שכולל הנחיות ומשאבים לתכנון ולקבלת מאיצים (GPU ו-TPU) לפלטפורמה שלכם.

תרחישים נפוצים לדוגמה

‫GKE מספק פלטפורמה מאוחדת שיכולה לתמוך בכל עומסי העבודה של ה-AI.

  • יצירת פלטפורמת AI: צוותי פלטפורמה בארגונים יכולים להשתמש ב-GKE כדי ליצור פלטפורמה סטנדרטית עם מספר דיירים, שתענה על מגוון רחב של צרכים.
  • הצגה אונליין עם השהיה נמוכה: למפתחים שיוצרים אפליקציות מבוססות-AI גנרטיבי, ‏ GKE עם Inference Gateway מספק את הניתוב המותאם ואת ההתאמה האוטומטית של גודל המשאבים שנדרשים כדי לספק חוויית משתמש רספונסיבית תוך שליטה בעלויות.

בחירת הפלטפורמה המתאימה לעומס העבודה של AI/ML

‫Google Cloud מציעה מגוון מוצרי תשתית AI לתמיכה בתהליך הלמידה של מכונה, החל ממוצרים מנוהלים לחלוטין ועד למוצרים שניתנים להגדרה מלאה. הבחירה בפלטפורמה הנכונה תלויה בצרכים הספציפיים שלכם מבחינת שליטה, גמישות ורמת ניהול.

שיטה מומלצת:

כדאי לבחור ב-GKE כשרוצים שליטה מלאה, ניידות ויכולת ליצור פלטפורמת AI מותאמת אישית עם ביצועים גבוהים.

  • שליטה בגמישות בתשתית: אתם צריכים רמה גבוהה של שליטה בתשתית, להשתמש בצינורות נתונים מותאמים אישית או לבצע התאמות אישיות ברמת ליבת מערכת ההפעלה.
  • אימון והסקת מסקנות בקנה מידה גדול: אתם רוצים לאמן מודלים גדולים מאוד או להפעיל מודלים עם השהיה מינימלית, באמצעות יכולות ההתאמה של GKE והביצועים הגבוהים שלו.
  • יעילות עלויות בהיקף גדול: אתם רוצים לתעדף אופטימיזציה של עלויות באמצעות השילוב של GKE עם מכונות וירטואליות מסוג Spot ומכונות וירטואליות מסוג Flex-start, כדי לנהל את העלויות בצורה יעילה.
  • ניידות ותקנים פתוחים: אתם רוצים להימנע מנעילת ספק ולהריץ את עומסי העבודה שלכם בכל מקום באמצעות Kubernetes, וכבר יש לכם מומחיות ב-Kubernetes או אסטרטגיה מרובת עננים.

אפשר גם לנסות את האפשרויות הבאות:

שירותGoogle Cloud מתאים במיוחד ל
Vertex AI פלטפורמה מנוהלת מקצה לקצה שמאיצה את הפיתוח ומפחיתה את הצורך בניהול התשתית. מתאים לצוותים שמתמקדים ב-MLOps ובקיצור הזמן להפקת ערך. מידע נוסף זמין בסרטון בחירה בין GKE באירוח עצמי לבין מודלים של AI באירוח מנוהל ב-Vertex AI.
Cloud Run פלטפורמה ללא שרת (serverless) לעומסי עבודה של הסקת מסקנות בקונטיינרים, שאפשר להגדיל את הקיבולת שלהם עד לאפס. מתאים לאפליקציות מבוססות-אירועים ולהצגת מודלים קטנים יותר בצורה חסכונית. לניתוח השוואתי מעמיק, ראו GKE ו-Cloud Run.

איך GKE מפעיל עומסי עבודה של AI/ML

‫GKE מציע חבילה של רכיבים ייעודיים שמפשטים ומאיצים כל שלב במחזור החיים של AI/ML, החל מהדרכה בקנה מידה גדול ועד להסקת מסקנות עם השהיה נמוכה.

בתרשים הבא, GKE נמצא בתוך Google Cloudויכול להשתמש באפשרויות שונות של אחסון בענן (כמו Cloud Storage FUSE ו-Managed Lustre) ובאפשרויות שונות של תשתית ענן (כמו Cloud TPU ו-Cloud GPU). ‫GKE פועל גם עם תוכנות ועם מסגרות קוד פתוח ללמידה עמוקה (כמו JAX או TensorFlow), לניהול ML (כמו Jupyter או Ray) ולהיקש של LLM (כמו vLLM או NVIDIA Dynamo).
איור 1: GKE כפלטפורמה מנוהלת וניתנת להרחבה לעומסי עבודה של AI/ML.

בטבלה הבאה מפורטות תכונות GKE שתומכות בעומסי העבודה של AI/ML או ביעדים התפעוליים שלכם.

עומס עבודה או פעולה של AI/ML איך GKE תומך בכם תכונות עיקריות
הסקת מסקנות והצגה אופטימיזציה להצגת מודלים של AI באופן גמיש, עם זמן אחזור נמוך, תפוקה גבוהה ויעילות בעלויות.
  • גמישות בהאצה: GKE תומך ב-GPU וב-TPU להסקת מסקנות.
  • GKE Inference Gateway: שער שמודע למודלים ומספק ניתוב חכם ואיזון עומסים במיוחד לעומסי עבודה של הסקת מסקנות מ-AI.
  • GKE Inference Quickstart: כלי שמפשט את ניתוח הביצועים והפריסה על ידי מתן קבוצה של פרופילים עם מדדים למודלים פופולריים של AI.
  • GKE Autopilot: מצב הפעלה של GKE שמבצע אוטומציה של פעולות באשכולות ושל התאמת גודל הקיבולת, וכך מצמצם את התקורה.
אימון ושיפור של המודל השירות מספק את יכולות המדרגיות והתיאום שנדרשות כדי לאמן ביעילות מודלים גדולים מאוד, תוך מזעור העלויות.
  • הפעלה מהירה יותר של צמתים: אופטימיזציה שנועדה במיוחד לעומסי עבודה של GPU, ומקצרת את זמני ההפעלה של הצמתים בעד 80%.
  • מצב הקצאת משאבים עם הפעלה גמישה שמבוסס על Dynamic Workload Scheduler: משפר את היכולת שלכם להקצות מאיצי GPU ו-TPU נדירים לעומסי עבודה של אימון לטווח קצר.
  • Kueue: מערכת תורים של משימות שפועלת ב-Kubernetes ומנהלת הקצאת משאבים, תזמון, ניהול מכסות ותעדוף של עומסי עבודה של אצווה.
  • TPU multislice: ארכיטקטורת חומרה ורשת שמאפשרת לכמה חלקי TPU לתקשר ביניהם ברשת של מרכז הנתונים (DCN) כדי לבצע אימון בקנה מידה גדול.
פיתוח מאוחד של AI/ML תמיכה מנוהלת ב-Ray, ‏ framework של קוד פתוח להתאמה לעומס (scaling) של אפליקציות Python מבוזרות.
  • Ray on GKE add-on: מפשט את תשתית Kubernetes, ומאפשר לכם לשנות את קנה המידה של עומסי עבודה כמו עיבוד מקדים של נתונים בקנה מידה גדול, אימון מבוזר ומילוי בקשה באופן מיידי עם שינויים מינימליים בקוד.

המאמרים הבאים