אפשרויות אחסון לנתוני Cloud TPU
במאמר הזה מתוארות אפשרויות לאחסון נתונים שאפשר להשתמש בהן כשמאמנים מודלים ב-Cloud TPU.
מבוא
Cloud TPU דורש אחסון נתונים בשביל:
- הורדה ועיבוד מקדים של מערך נתונים
- עיבוד של צינורות קלט במארח
- קלט לאימון המודל
- פלט של אימון המודל
אפשרויות האחסון של נתוני האפליקציה ושל מערכי האימון של Cloud TPU הן:
- אחסון בלוקים עמיד, כולל דיסק האתחול ודיסקים של אחסון מצורף
- קטגוריות של Cloud Storage
- Cloud Storage FUSE
- שיתוף קבצים ב-Filestore במכונה וירטואלית ב-Compute Engine
מידע נוסף על ניהול האחסון זמין בדפים הבאים:
אחסון בלוקים עמיד
אחסון בלוקים עמיד, שנקרא גם דיסקים או כרכים, מיועד לנתונים שרוצים לשמור אחרי שמפסיקים, משעים או מוחקים את מכונת ה-TPU הווירטואלית. אחסון בלוקים עמיד עדיין זמין גם אם מכונת ה-TPU הווירטואלית קורסת או נכשלת. אפשר להשתמש בדיסק האתחול של מכונת ה-TPU או לצרף אחסון בלוקים נוסף ל-TPU.
יכול להיות שתרצו לצרף דיסק נוסף בתרחישים הבאים:
- הגודל של מערך הנתונים לאימון חורג מהגודל של דיסק האתחול של TPU.
- יש לכם נתונים לקריאה בלבד ואתם רוצים גישת קריאה מהירה יותר באמצעות נפח Hyperdisk ML.
אפשר לצרף שני סוגים של אחסון בלוקים עמיד ל-Cloud TPU: Google Cloud Hyperdisk ו-Persistent Disk. אין תמיכה ב-Persistent Disk בסדרת המכונות העדכנית, כולל Cloud TPU v6e. Google ממליצה להשתמש ב-Google Cloud Hyperdisk כדי ליהנות מהביצועים הכי טובים ומהתכונות המתקדמות ביותר.
דיסק האתחול של TPU VM
כברירת מחדל, לכל מכונת Cloud TPU VM יש דיסק אתחול יחיד בנפח 100GiB שמכיל את מערכת ההפעלה. אפשר להשתמש בדיסק האתחול גם לאחסון זמני של מערכי נתונים שהורדו לצורך עיבוד מקדים ונתוני קלט ופלט של מודלים, כל עוד הכמות הכוללת לא חורגת מהמקום הזמין בדיסק האתחול.
אי אפשר לשנות את הגודל של דיסק האתחול ב-Cloud TPU. אם האפליקציה שלכם דורשת נפח אחסון נוסף מעבר לברירת המחדל של דיסק האתחול, אתם יכולים להוסיף מכונת TPU VM עם דיסק עמיד אחד או יותר. מידע נוסף זמין במאמר צירוף אחסון בלוקים עמיד למכונת TPU וירטואלית.
אחסון מצורף
גם Hyperdisk וגם Persistent Disk הם מכשירים עמידים לאחסון ברשת שלמכונות ה-VM שלכם יש אפשרות גישה אליהם כמו לדיסקים פיזיים במחשב או בשרת. שני סוגי הדיסקים נוצרים בנפרד ממופעי המכונות הווירטואליות (VM), כך שתוכלו לשמור את הנתונים גם אחרי שתמחקו את מופעי ה-VM.
היתרונות של שימוש ב-Hyperdisk לעומת Persistent Disk כוללים ביצועים שניתנים להתאמה אישית, מגבלות גבוהות יותר של IOPS ושל קצב העברת נתונים. מידע נוסף על Hyperdisk ועל Persistent Disk זמין במאמר בחירת סוג דיסק.
מידע נוסף על שימוש באחסון בלוקים עמיד עם מכונות וירטואליות של TPU זמין במאמר צירוף אחסון בלוקים עמיד למכונת TPU וירטואלית.
גיבויים בדיסק
יכול להיות שיהיה קשה לאחזר את הנתונים מדיסק האתחול אם המכונה הווירטואלית של TPU נתקעת במצב 'לא ידוע', או לשחזר נתונים שנמחקו. חשוב לגבות את הנתונים באמצעות אפשרות אחסון אחרת, כמו קטגוריות של Cloud Storage.
אם אתם מאחסנים נתונים בדיסק מצורף, אתם יכולים להשתמש בתמונות מצב של הדיסק, שמגבות את הנתונים בדיסק באופן מצטבר. אין תמיכה בתמונות מצב של דיסקים בדיסק האתחול של TPU. מידע נוסף מופיע במאמר מידע על תמונות מצב של דיסקים.
קטגוריות של Cloud Storage
קטגוריות של Cloud Storage הן אפשרות האחסון הכי גמישה, ניתנת להרחבה ועמידה למכונות הווירטואליות שלכם. אם משימת האימון לא דורשת זמן אחזור נמוך של אחסון בלוקים עמיד, אפשר לאחסן את מערך הנתונים בקטגוריה של Cloud Storage.
הביצועים של קטגוריות ב-Cloud Storage תלויים בסוג האחסון (storage class) שבחרתם ובמיקום של הקטגוריה ביחס למופע שלכם.
יצירת קטגוריית Cloud Storage באותו אזור שבו נמצאת מכונת ה-TPU הווירטואלית מאפשרת ביצועים שדומים לאלה של אחסון בלוקים עמיד, אבל עם זמן אחזור ארוך יותר ועם מאפיינים של תפוקה פחות עקבית.
כל הקטגוריות ב-Cloud Storage כוללות יתירות מובנית כדי להגן על הנתונים מפני כשל בציוד, וכדי להבטיח את זמינות הנתונים במהלך אירועי תחזוקה של מרכזי נתונים. סכומי ביקורת מחושבים עבור כל הפעולות ב-Cloud Storage כדי לוודא שמה שאתם קוראים הוא מה שכתבתם.
בניגוד לאחסון בלוקים עמיד, קטגוריות של Cloud Storage לא מוגבלות לאזור שבו נמצאת מכונת ה-VM. בנוסף, אפשר לקרוא ולכתוב נתונים לקטגוריה מכמה מופעים בו-זמנית. לדוגמה, אתם יכולים להגדיר מופעים בכמה אזורים לקריאה ולכתיבה של נתונים באותה קטגוריה, במקום לשכפל את הנתונים לאחסון בלוקים עמיד בכמה אזורים.
מידע נוסף על קישור מכונת TPU וירטואלית לקטגוריה של Cloud Storage זמין במאמר קישור לקטגוריות של Cloud Storage.
Cloud Storage FUSE
Cloud Storage FUSE מאפשר לטעון קטגוריות של Cloud Storage ולגשת אליהן כמערכות קבצים מקומיות. כך האפליקציות יכולות לקרוא ולכתוב אובייקטים בקטגוריה שלכם באמצעות סמנטיקה סטנדרטית של מערכת קבצים.
במסמכי התיעוד של Cloud Storage FUSE מוסבר איך Cloud Storage FUSE פועל ומתואר איך פעולות של Cloud Storage FUSE ממופות לפעולות של Cloud Storage. מידע נוסף על השימוש ב-Cloud Storage FUSE, כמו הוראות להתקנת Cloud Storage FUSE CLI ולהטמעת קטגוריות, זמין ב-GitHub.
התקן רשת לשיתוף קבצים ב-Filestore
Filestore file share הוא אחסון ברשת (NAS) בניהול מלא ל-Compute Engine. Filestore מציע תאימות לאפליקציות ארגוניות קיימות ותומך בכל לקוח שתואם ל-NFSv3.
ב-Filestore יש זמן אחזור קצר לפעולות בקבצים. עבור עומסי עבודה שרגישים לזמן האחזור, Filestore תומך בקיבולת של עד 100TiB ובקצב העברת נתונים של 25GiB לשנייה ו-720K IOPS, עם מינימום שונות בביצועים.
בעזרת Filestore, אפשר להטמיע שיתופי קבצים במכונות וירטואליות של TPU.