הפעלה ידנית של אירוע תחזוקה של מארח

בדף הזה מוסבר איך להתחיל ידנית אירוע תחזוקה של מארח במכונות וירטואליות של TPU נתמכות. האפשרות הזו שימושית לעומסי עבודה שעשויים להיות מושפעים מירידה בביצועים או מהשבתה, ושצריך להגדיר להם חלון זמן לתחזוקה שמתחיל בשעה ספציפית.

כשמפעילים ידנית אירוע תחזוקה, אירוע התחזוקה של המארח מתחיל מיד. אי אפשר לציין תאריך או שעה לתחילת אירוע התחזוקה. אם לא משתמשים בתכונה הזו, אירוע התחזוקה מתרחש בזמן שמצוין בהודעה על התחזוקה הקרובה.

מידע על הפעלה ידנית של תחזוקה של TPU ב-GKE זמין במאמר ניהול שיבושים בצומתי GKE עבור GPU ו-TPU.

מגבלות

אפשר להפעיל ידנית אירוע תחזוקה של מארח רק במכונות וירטואליות של TPU עם ההגדרות הבאות:

  • כל מכונות TPU v4 או v5p
  • מכונות וירטואליות TPU v5e או v6e עם הגדרת הטופולוגיה 2x4 (לדוגמה, v6e-8 אם משתמשים בשדה של סוג האצת החומרה ב-Cloud TPU API) או גדולות יותר
  • מאגרי צמתים מרובי-מארחים ב-GKE v5e או v6e עם מכונות וירטואליות של TPU בגודל 2x4 ומעלה

התחלת תחזוקת מארח באופן מיידי עבור פרוסות גדולות יותר עלולה לגרום לאי-זמינות של הפרוסה למשך כמה שעות. בדרך כלל, אירוע תחזוקה של מארח גורם לשינוי מועד הפריסה בהקדם האפשרי למערך אחר של מארחים שעומדים בדרישות, אבל כשמדובר בבקשות גדולות יותר לאירועי תחזוקה של מארחים, יכול להיות שלא יהיה מספיק קיבולת כדי לשנות את מועד הפריסה באופן מיידי, ולכן זמן ההמתנה יהיה ארוך יותר.

בנוסף, הפעלת תחזוקה בפרוסת Cloud TPU תתחיל תחזוקה בכל מכונות ה-VM הבסיסיות של TPU. אם מבצעים תחזוקה ישירות באחת מהמכונות באמצעות Instances API, כל המכונות בפלח Cloud TPU יעברו לתחזוקה. במקום זאת, משתמשים ב-queued-resources Cloud TPU API כדי לציין באילו צמתים צריך לבצע תחזוקה.

הפעלה ידנית של אירוע תחזוקה של מארח

אתם יכולים להשתמש בהתראות על תחזוקה כדי לקבוע מתי אפשר להתחיל ידנית אירוע תחזוקה ב-TPU.

בדיקת פרטי ההתראה

אפשר למצוא התראות על אירועי תחזוקה קרובים באמצעות Cloud TPU API או על ידי שליחת שאילתה לשרת המטא-נתונים במכונה הווירטואלית. מידע נוסף מופיע במאמר צפייה בהתראות על תחזוקה.

אפשר להתחיל אירוע תחזוקה מראש אם יש התראה על תחזוקת מארח ב-TPU. כדי להתחיל את אירוע התחזוקה לפני הזמן, בהתראה על התחזוקה הקרובה של המארח צריך להגדיר את canReschedule לערך true ואת maintenanceStatus לערך PENDING.

התחלת אירוע התחזוקה

כדי להתחיל אירוע תחזוקה של מארח, אפשר להשתמש ב-Cloud TPU API עם הפקודה perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

כשהפעולה מסתיימת, הערכים בשדות windowEndTime ו-windowStartTime משתנים לזמן שבו התחלתם את אירוע התחזוקה, והערך בשדה maintenanceStatus משתנה ל-ONGOING. אירוע התחזוקה של המארח יתחיל זמן קצר לאחר מכן.

משתמשים בפקודה gcloud alpha compute tpus tpu-vm describe כדי לראות את הסטטוס של אירוע התחזוקה:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

הפלט מכיל קטע שדומה לזה:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

התחזוקה מסתיימת כשמצב ה-VM של ה-TPU הוא READY והפלט מהפקודה gcloud alpha compute tpus tpu-vm describe כבר לא מכיל את שדה המטא-נתונים upcomingMaintenance.

בסביבות Multislice, אפשר להפעיל ידנית אירוע תחזוקה של מארח בפרוסות ספציפיות באמצעות הפקודה הבאה:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES: רשימה מופרדת בפסיקים של פרוסות (צמתים) במשאב שנמצא בתור, שרוצים להתחיל לגביו אירוע תחזוקה של המארח. לדוגמה, אם למשאב בתור יש צמתים בשמות my-qr-0, my-qr-1 ו-my-qr-2, קלט תקין לפקודה perform-maintenance יהיה --node-names=my-qr-0,my-qr-1.

המאמרים הבאים