מידע על Ray ב-Google Kubernetes Engine‏ (GKE)

בדף הזה יש סקירה כללית של Ray Operator ושל משאבים מותאמים אישית רלוונטיים לפריסה ולניהול של אשכולות Ray ואפליקציות ב-Google Kubernetes Engine ‏ (GKE).

Ray היא מסגרת קוד פתוח מאוחדת לחישוב, שמאפשרת להרחיב את השימוש ב-AI/ML ובאפליקציות Python. ‫Ray מספקת קבוצה של ספריות להפצת זמן הריצה של המחשוב עבור AI/ML בכמה צמתי מחשוב.

כדי להפעיל את Ray operator ב-GKE, אפשר לעיין במאמר בנושא הפעלת Ray operator ב-GKE.

למה כדאי להשתמש ב-Ray Operator ב-GKE

הדרך המומלצת לפריסה ולניהול של אשכולות Ray ב-GKE היא באמצעות Ray Operator. כשמריצים את Ray Operator ב-GKE, נהנים מהתמיכה של Ray ב-Python ומהאמינות, הניידות והגמישות של GKE ברמת Enterprise.

‫Ray Operator ב-GKE מבוסס על KubeRay, שמספק ממשקי API הצהרתיים של Kubernetes שנועדו במיוחד לניהול אשכולות Ray. המשמעות היא שאתם יכולים להקצות, לשנות את קנה המידה ולנהל את פריסות Ray באמצעות עומסי עבודה אחרים שמבוססים על קונטיינרים ב-GKE.

איך פועל Ray Operator ב-GKE

כשמפעילים את Ray Operator באשכולות GKE,‏ GKE מתקין ומארח את KubeRay Operator באופן אוטומטי.

‫KubeRay מספק משאבים מותאמים אישית של Kubernetes לניהול פריסות של Ray ב-Kubernetes, כולל:

משאב מותאם אישית של RayCluster

המשאב המותאם אישית RayCluster מאפשר לכם לציין אשכול Ray ש-GKE פורס כ-Pods של Kubernetes. אשכול Ray מורכב בדרך כלל מ-Pod ראשי אחד ומכמה Pods של עובדים.

משאב מותאם אישית של RayJob

המשאב המותאם אישית RayJob מאפשר להריץ משימת Ray אחת. ‫KubeRay יוצר RayCluster כדי לספק משאבי מחשוב לעבודה, ואז יוצר Kubernetes Job ששולח את עבודת Ray אל ה-Pod הראשי של RayCluster.

כדי לנהל את המשאבים בצורה יעילה, אפשר להגדיר את KubeRay כך שינקה באופן אוטומטי את RayCluster אחרי שהעבודה מסתיימת בהצלחה.

משאב מותאם אישית RayService

המשאב המותאם אישית RayService מאפשר להגדיר אפליקציות Ray Serve, כמו אפליקציות להצגת מודלים ולהסקת מסקנות. ‫KubeRay יוצר RayCluster כדי לספק את משאבי החישוב, ואז פורס את אפליקציית Ray Serve בהתאם להגדרות של Ray Serve.

אחריות משותפת ב-Ray ב-GKE

כשבוחרים להפעיל עומסי עבודה של Ray ב-GKE באמצעות אופרטור Ray, חשוב להבין איך האחריות מתחלקת בין Google Cloudלבין הלקוח:

האחריות של Google

  • שמירה על האמינות וזמן הפעולה של אופרטור KubeRay.
  • ניהול שדרוגי גרסה של KubeRay operator.
  • יכולות ספציפיות ל-KubeRay לניהול המשאבים בהתאמה אישית RayCluster,‏ RayJob ו-RayService.

האחריות של הלקוח

  • תחזוקה של קובצי אימג' של קונטיינרים שמשמשים ל-Pods של Ray head ו-Ray worker.
  • תחזוקה של ניהול גרסאות ושדרוגים של Ray head ו-Ray worker Pods.
  • הגדרת דרישות משאבים (CPU,‏ GPU, זיכרון וכו') עבור אשכולות Ray.
  • פועלים לפי השיטות המומלצות בנושא אבטחת אשכולות Ray.
  • אמינות וניטור של אפליקציות Ray.

מידע נוסף זמין במאמר בנושא אחריות משותפת ב-GKE.

המאמרים הבאים