ניהול אירועי תחזוקה של יחידות TPU במצב קיבולת מנוהלת
מכונות וירטואליות של TPU הן מקרים של מכונות וירטואליות של Compute Engine עם חומרת TPU מצורפת. מכונות וירטואליות ב-Compute Engine כפופות לאירועי תחזוקה של מכונות וירטואליות ב-Compute Engine. כל TPU מחובר למכונת VM ב-Compute Engine, כך ששימוש ביותר יחידות TPU (לדוגמה, ב-TPU slice) מגדיל את הסיכוי שאחת מהמכונות הווירטואליות שלכם תיתקל באירוע תחזוקה.
במסמך הזה מוסבר על גישות לטיפול באירועי תחזוקה של משימות אימון ארוכות טווח ב-TPU. מידע על טיפול באירועי תחזוקה של יחידות TPU ב-Google Kubernetes Engine (GKE) זמין במאמר ניהול שיבושים בצומתי GKE עבור יחידות GPU ו-TPU.
הצגת התראות לגבי תחזוקה קרובה
מעקב אחרי חלונות הזמן לתחזוקה הקרובים של המכונה מאפשר לכם להכין את עומסי העבודה מראש כדי להתמודד עם תחזוקה קרובה עם שיבושים מינימליים. מידע נוסף זמין במאמר מעקב ותכנון לקראת אירוע תחזוקה של מארח במאמרי העזרה של Compute Engine.
שימוש בנקודות ביקורת לשחזור מהיר מאירועי תחזוקה
נקודות ביקורת הן חיוניות להתאוששות מהירה מאירועי תחזוקה, וצריך לשמור אותן לעיתים קרובות. מומלץ לשמור נקודות ביקורת בערך כל שעה. אם לא יוצרים מספיק נקודות ביקורת, יש סיכון לאובדן של התקדמות משמעותית בתהליך האימון בגלל אירועי תחזוקה או הפרעות אחרות בתהליך האימון.
נקודות ביקורת בדרך כלל מתייחסות לכל הפרמטרים השמורים שמשמשים לאימון, כמו משקלי המודל. משך הזמן שנדרש לשמירת נקודת ביקורת יכול לנוע בין שניות לדקות.
למרות שבדרך כלל יחידות TPU מתאוששות אוטומטית מאירועי תחזוקה, יש מקרים חריגים שבהם העבודה לא מופעלת מחדש באופן אוטומטי. במקרה כזה, צריך למחוק את משאבי ה-TPU וליצור אותם מחדש, ולהפעיל מחדש את משימת האימון מנקודת ביקורת שנשמרה.
לכל מסגרת ML יש מנגנונים שונים לשמירה ולטעינה של נקודות ביקורת. בדרך כלל, מודלים נתמכים של Cloud TPU כוללים שמירת נקודות ביקורת. מידע נוסף על יצירת נקודות ביקורת זמין במאמרים הבאים:
זיהוי אירועי תחזוקה
כדי לדעת אם ומתי התרחש אירוע תחזוקה ב-TPU, צריך לבדוק את יומני הביקורת של אירועי המערכת ב-Cloud Logging. מידע נוסף זמין במאמר בנושא צפייה ביומני אירועים של תחזוקה.
אפשר גם לבדוק אם צפויים אירועי תחזוקה באמצעות הפקודה gcloud compute
instances describe.
מידע נוסף זמין במאמר מעקב ותכנון לקראת אירוע תחזוקה של מארח במאמרי העזרה של Compute Engine.
צפייה ביומני אירועי תחזוקה
אפשר לראות יומנים היסטוריים של אירועי תחזוקה ב-TPU ביומני ביקורת של אירועים במערכת.
בתפריט הניווט במסוף Google Cloud , עוברים לדף Logs Explorer:
כדי לראות מכונות וירטואליות של TPU שהופסקו לצורך תחזוקה, משתמשים בשאילתת החיפוש הבאה:
"compute.instances.terminateOnHostMaintenance"בתוצאות מוצגים יומני רישום של כל ההפרעות והתיקונים של עובדי ה-TPU בטווח הזמן של החיפוש. היומנים כוללים:
- התאריך והשעה של האירוע
- סוג האירוע
- הסיבה לסיום בשדה
protoPayload.metadata.terminateReason
התחלת תחזוקה באופן ידני
אתם יכולים להפעיל ידנית אירוע תחזוקה ממתין של המארח במכונת ה-TPU שלכם כדי לטפל באופן יזום בתחזוקה הקרובה עם שיבושים מינימליים. למידע נוסף, אפשר לעיין במאמר הפעלה ידנית של אירוע תחזוקה במארח במאמרי העזרה של Compute Engine.