מידע על GKE Volume Populator

הכלי Volume Populator של Google Kubernetes Engine ‏ (GKE) יכול לעזור לכם להפוך את התהליך של טעינה מראש של נתונים מקטגוריות של Cloud Storage אל PersistentVolumeClaims ‏ (PVC) של יעד במהלך הקצאת הרשאות דינמית לאוטומטי וליעיל יותר.

איך הכלי GKE Volume Populator פועל

‫GKE Volume Populator מתבסס על המושג המרכזי Kubernetes Volume Populator. במקום להקצות נפח אחסון ריק, התוסף GKE Volume Populator מאפשר ל-PVC להפנות למשאב מותאם אישית מסוג GCPDataSource. המשאב המותאם אישית הזה מציין את קטגוריית המקור של Cloud Storage ואת פרטי הכניסה הנדרשים.

כשיוצרים PVC עם dataSourceRef שמצביע על משאב GCPDataSource, הכלי GKE Volume Populator מתחיל את העברת הנתונים. הוא מעתיק נתונים מ-URI של קטגוריה של Cloud Storage שצוין לנפח האחסון המתמיד הבסיסי לפני שהנפח הופך לזמין ל-Pods.

התהליך הזה מצמצם את הצורך להשתמש בסקריפטים להעברת נתונים ידנית או בפקודות CLI, ומבצע אוטומטית את ההעברה של מערכי נתונים גדולים לנפחי אחסון קבועים. הכלי GKE Volume Populator תומך בהעברות נתונים בין סוגי המקור והיעד הבאים:

GKE Volume Populator הוא רכיב מנוהל של GKE שמופעל כברירת מחדל באשכולות Autopilot ו-Standard. האינטראקציה עם GKE Volume Populator מתבצעת בעיקר באמצעות ה-CLI של gcloud ו-kubectl CLI.

ארכיטקטורה

בתרשים הבא מוצגת זרימת נתונים מאחסון המקור לאחסון היעד, ואיך נוצר PersistentVolume לאחסון היעד באמצעות GKE Volume Populator.

  1. יוצרים PVC שמפנה למשאב מותאם אישית GCPDataSource.
  2. הכלי GKE Volume Populator מזהה את ה-PVC ומתחיל משימה של העברת נתונים.
  3. העברת העבודה מתבצעת במאגר צמתים קיים, או שנוצר מאגר חדש אם מופעלת הקצאת צמתים אוטומטית (NAP).
  4. משימת ההעברה מעתיקה נתונים ממאגר ה-Cloud Storage שצוין במשאב GCPDataSource לנפח האחסון של היעד.
  5. אחרי שההעברה מסתיימת, ה-PVC מקושר לנפח האחסון של היעד, והנתונים זמינים ל-Pod של עומס העבודה.

העברת נתונים מאחסון נתוני המקור ויצירת PV לאחסון היעד באמצעות GKE Volume Populator

יתרונות מרכזיים

ל-GKE Volume Populator יש כמה יתרונות:

  • אכלוס נתונים אוטומטי: אכלוס אוטומטי של נפחי אחסון בנתונים מ-Cloud Storage במהלך הקצאת המשאבים, מה שעוזר להפחית את התקורה התפעולית.
  • ניוד נתונים חלק: העברת נתונים מאחסון אובייקטים למערכות אחסון קבצים (Parallelstore) או אחסון בלוקים (Hyperdisk) בעלות ביצועים גבוהים, כדי לבצע אופטימיזציה של המחיר או הביצועים בהתאם לצרכים של עומס העבודה.
  • תהליכי עבודה פשוטים יותר: אין צורך במשימות נפרדות לטעינת נתונים או בהתערבות ידנית כדי להכין נפחי אחסון קבועים.
  • שילוב עם ניהול זהויות והרשאות גישה (IAM): אפשר להשתמש באימות מבוסס-IAM באמצעות איחוד זהויות של עומסי עבודה ל-GKE כדי להבטיח העברת נתונים מאובטחת עם בקרת גישה מדויקת.
  • עומסי עבודה מואצים של AI/ML: טעינה מראש של קבוצות נתונים גדולות, מודלים ומשקלים ישירות לאחסון בעל ביצועים גבוהים, כדי להאיץ את משימות האימון וההסקה.

תרחישים לדוגמה לשימוש ב-GKE Volume Populator

אתם יכולים להשתמש ב-GKE Volume Populator כדי לטעון מערכי נתונים גדולים לאימון של AI/ML. נניח שיש לכם מערך נתונים של כמה טרה-בייט לאימון מודל שפה גדול (LLM) שמאוחסן בקטגוריה של Cloud Storage. משימת האימון שלכם פועלת ב-GKE ודורשת ביצועי קלט/פלט גבוהים. במקום להעתיק את הנתונים באופן ידני, אפשר להשתמש ב-GKE Volume Populator כדי להקצות באופן אוטומטי נפח אחסון של Parallelstore או Hyperdisk ML ולאכלס אותו בנתונים ממערך הנתונים מ-Cloud Storage כשיוצרים את ה-PVC. התהליך האוטומטי הזה עוזר לוודא ש-Pods לאימון מתחילים עם גישה מיידית ומהירה לנתונים.

הנה עוד כמה דוגמאות לשימוש ב-GKE Volume Populator:

  • שמירה מראש במטמון של משקלים ונכסים של מודלים של AI/ML מ-Cloud Storage בכרכים של Hyperdisk ML כדי לקצר את זמני הטעינה של המודלים להסקת מסקנות.
  • העברת נתונים מ-Cloud Storage לנפחים מתמשכים לאפליקציות עם מצב נתונים שנדרשת בהן גישה לדיסק עם ביצועים גבוהים.

המאמרים הבאים