אפשרויות אחסון לנתוני Cloud TPU
במאמר הזה מתוארות אפשרויות לאחסון נתונים שבהן אפשר להשתמש כשמבצעים אימון של מודלים ב-Cloud TPU.
מבוא
Cloud TPU דורש אחסון נתונים בשביל:
- הורדה ועיבוד מקדים של מערך נתונים
- עיבוד של צינור קלט במארח
- קלט לאימון המודל
- פלט של אימון מודל
אפשרויות האחסון של נתוני אפליקציות ושל מערכי נתונים לאימון ב-TPU הן:
- אחסון בלוקים עמיד, כולל דיסק האתחול ודיסקים של אחסון מצורף
- קטגוריות של Cloud Storage
- Cloud Storage FUSE
- שיתוף קבצים ב-Filestore ב-TPU VM
- שיתוף קבצים ב-Managed Lustre
מידע נוסף על ניהול אחסון זמין בדפים הבאים:
אחסון בלוקים עמיד
אחסון בלוקים עמיד, שנקרא גם דיסקים או כרכים, מיועד לנתונים שרוצים לשמור אחרי שמפסיקים, משעים או מוחקים את מכונת ה-TPU הווירטואלית. אחסון בלוקים עמיד עדיין זמין גם אם מכונת ה-TPU הווירטואלית קורסת או נכשלת. אפשר להשתמש בדיסק האתחול של מכונת ה-TPU או לצרף אחסון בלוקים נוסף ל-TPU.
יכול להיות שתרצו לצרף דיסק נוסף בתרחישים הבאים:
- גודל מערך הנתונים לאימון חורג מגודל דיסק האתחול של TPU.
- יש לכם נתונים לקריאה בלבד ואתם רוצים גישה מהירה יותר לקריאה באמצעות נפח אחסון של Hyperdisk ML.
דור ה-TPU וסוגי הדיסקים הנתמכים
בטבלה הבאה מוצגים סוגי הדיסקים שנתמכים בכל דור של TPU:
| דור ה-TPU | סוגי דיסקים נתמכים |
|---|---|
| TPU7x | Hyperdisk Balanced, Hyperdisk ML |
| TPU v6e | Hyperdisk Balanced, Hyperdisk ML |
| TPU v5p | דיסק אחסון מתמיד מאוזן, Hyperdisk ML |
| TPU v5e | דיסק אחסון מתמיד מאוזן, Hyperdisk ML |
דיסק האתחול של TPU VM
כברירת מחדל, לכל מכונת TPU VM יש דיסק אתחול אחד בגודל 10GB. כשיוצרים מכונות וירטואליות, אפשר להגדיר דיסק אתחול גדול יותר. מידע נוסף זמין במאמר בנושא יצירת דיסק אתחול בהתאמה אישית. דיסק האתחול מכיל את מערכת ההפעלה, את מנהלי ההתקנים של TPU ואת הספריות. בנוסף, בדיסק האתחול אפשר לאחסן באופן זמני מערכי נתונים שהורדו לצורך עיבוד מקדים ונתוני קלט ופלט של המודל, כל עוד הגודל הכולל של הנתונים לא חורג מהמקום הפנוי בדיסק האתחול.
אם האפליקציה שלכם דורשת נפח אחסון נוסף מעבר לברירת המחדל של דיסק האתחול, אתם יכולים להוסיף מכונה וירטואלית של TPU עם דיסק אחד או יותר. למידע נוסף:
- הוספת דיסק אחסון מתמיד (persistent disk) למכונה הווירטואלית
- הוספת Google Cloud Hyperdisk
- שינוי של דיסקים היפרים
- שינוי הגודל של דיסק אחסון מתמיד
אחסון מצורף
גם Hyperdisk וגם Persistent Disk הם מכשירים עמידים לאחסון ברשת שלמכונות ה-VM שלכם יש אפשרות גישה אליהם כמו לדיסקים פיזיים במחשב או בשרת. אתם יוצרים את שני סוגי הדיסקים בנפרד ממכונות ה-VM, כך שתוכלו לשמור את הנתונים גם אחרי שאתם מוחקים את מכונת ה-VM.
היתרונות של שימוש ב-Hyperdisk לעומת Persistent Disk כוללים ביצועים שניתנים להתאמה אישית, מגבלות גבוהות יותר של IOPS ושל קצב העברת נתונים. מידע נוסף על Hyperdisk ועל Persistent Disk זמין במאמר בחירת סוג דיסק.
כשמצרפים דיסק ל-MIG עם פרוסת TPU VM מרובת-מארחים, המערכת מצרפת את הדיסק לכל מכונה וירטואלית בפרוסת ה-TPU הזו. כדי למנוע מצב שבו שתי מכונות וירטואליות של TPU או יותר כותבות לדיסק בו-זמנית, צריך להגדיר את כל הדיסקים שמצרפים לפרוסת TPU עם כמה מארחים כקריאה בלבד. דיסקים לקריאה בלבד שימושיים לאחסון של מערך נתונים לעיבוד בפלח TPU. מכיוון ש-Hyperdisk Balanced לא תומך במצב קריאה בלבד, אפשר לצרף נפח אחסון של Hyperdisk Balanced רק למופע אחד של TPU VM.
מידע נוסף על שימוש באחסון בלוקים עמיד זמין במאמרים הוספת דיסק אחסון מתמיד למכונת ה-VM והוספת Hyperdisk.
גיבויים בדיסק
יכול להיות שיהיה לכם קשה לאחזר נתונים מדיסק האתחול אם מכונת ה-TPU הווירטואלית נתקעת במצב 'לא ידוע', או לשחזר נתונים שמחקתם. מגבים את הנתונים באמצעות אפשרות אחסון אחרת, כמו קטגוריות של Cloud Storage.
אם אתם מאחסנים נתונים בדיסק שמצורף למכונה, אתם יכולים להשתמש בתמונות מצב של הדיסק, שמגבות את הנתונים בדיסק באופן מצטבר. דיסק האתחול של מכונת ה-TPU לא תומך בתמונות מצב של הדיסק. מידע נוסף זמין במאמר מידע על תמונות מצב של דיסקים.
קטגוריות של Cloud Storage
קטגוריות Cloud Storage הן אפשרויות אחסון גמישות, ניתנות להרחבה ועמידות למכונות וירטואליות. אם משימת האימון לא דורשת זמן אחזור נמוך של אחסון בלוקים עמיד, אפשר לאחסן את מערך הנתונים בקטגוריה של Cloud Storage.
הביצועים של קטגוריות ב-Cloud Storage תלויים בסוג האחסון שבחרתם ובמיקום של הקטגוריה ביחס למופע שלכם.
יצירת קטגוריה של Cloud Storage באותו אזור שבו נמצאת מכונת ה-TPU הווירטואלית מאפשרת לכם ליהנות מביצועים שדומים לאלה של אחסון בלוקים עמיד, אבל עם זמן אחזור ארוך יותר ועם מאפייני תפוקה פחות עקביים.
כל הקטגוריות ב-Cloud Storage כוללות יתירות מובנית כדי להגן על הנתונים מפני כשל בציוד, וכדי להבטיח את זמינות הנתונים במהלך אירועי תחזוקה במרכזי נתונים. Cloud Storage מחשב סיכומי ביקורת (checksum) לכל הפעולות כדי לוודא שהנתונים שאתם קוראים הם הנתונים שכתבתם.
בניגוד לאחסון בלוקים עמיד, קטגוריות ב-Cloud Storage לא מגבילות אתכם לאזור שבו נמצא המופע. בנוסף, אפשר לקרוא ולכתוב נתונים לקטגוריה מכמה מופעים בו-זמנית. לדוגמה, אפשר להגדיר מופעים בכמה אזורים לקריאה ולכתיבה של נתונים באותה קטגוריה, במקום לשכפל את הנתונים לאחסון בלוקים עמיד בכמה אזורים.
מידע נוסף זמין במאמר חיבור לקטגוריות של Cloud Storage.
Cloud Storage FUSE
Cloud Storage FUSE מאפשר לטעון קטגוריות של Cloud Storage ולגשת אליהן כמערכות קבצים מקומיות. כך האפליקציות יכולות לקרוא ולכתוב אובייקטים בקטגוריה שלכם באמצעות סמנטיקה סטנדרטית של מערכת קבצים.
במסמכי התיעוד של Cloud Storage FUSE מוסבר איך Cloud Storage FUSE פועל ומתואר איך פעולות של Cloud Storage FUSE ממופות לפעולות של Cloud Storage. מידע נוסף על השימוש ב-Cloud Storage FUSE, כמו איך להתקין את Cloud Storage FUSE CLI ואיך לטעון קטגוריות, אפשר למצוא ב-GitHub.
התקן רשת לשיתוף קבצים ב-Filestore
Filestore file share הוא אחסון ברשת (NAS) בניהול מלא ל-Compute Engine. Filestore תואם לאפליקציות ארגוניות קיימות ותומך בכל לקוח שתואם ל-NFSv3.
Filestore מציע זמן אחזור קצר לפעולות בקבצים. לעומסי עבודה שרגישים לזמן אחזור, Filestore תומך בקיבולת של עד 100TiB, בקצב העברה של 25GiB לשנייה וב-720K IOPS, עם מינימום שונות בביצועים.
באמצעות Filestore, אפשר להטמיע שיתופי קבצים במכונות וירטואליות של TPU.
שיתוף קבצים ב-Managed Lustre
Managed Lustre היא מערכת קבצים מקבילה ומנוהלת באופן מלא לעומסי עבודה של AI ו-HPC שדורשים הרבה נתונים. הוא מספק ביצועים גבוהים, קיבולת של כמה פטה-בייט ועמידה בתקן POSIX.
באמצעות Managed Lustre, אפשר לטעון שיתופי קבצים במכונות וירטואליות של TPU. הוא שימושי במיוחד לטיפול בקבוצות נתונים גדולות ולדרישות של תפוקה גבוהה בעומסי עבודה של למידת מכונה, ומאפשר אימון והסקת מסקנות יעילים.
מידע נוסף זמין במאמרי העזרה בנושא Managed Lustre.
המאמרים הבאים
- איך מוסיפים דיסק מתמשך למכונה הווירטואלית
- איך מוסיפים Google Cloud Hyperdisk למכונה וירטואלית
- איך מקשרים את המכונה לקטגוריה של Cloud Storage
- איך לטעון שיתוף קבצים ב-Filestore