Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

מידע על אירועים של מארחים

Linux Windows

במהלך מחזור החיים של מכונה וירטואלית (VM) או מכונת Bare Metal, יכולים להתרחש מספר אירועים במכונת המארח שבה המכונה שלכם פועלת. אירוע במארח יכול לכלול תחזוקה רגילה של תשתית Compute Engine, או, במקרים נדירים, שגיאה במארח. אתם יכולים להגדיר את מדיניות תחזוקת המארח כדי לבחור איך מופעלים מופעי מחשוב במהלך אירוע במארח או אחריו.

כברירת מחדל, רוב המקרים מוגדרים להעברה בזמן אמת במהלך אירועים במארח. בכל סדרות המכונות חוץ מסדרת Z3, אפשר לשנות את ההתנהגות הזו ולהגדיר באופן מפורש את המכונות להפסיק את הפעולה ולהפעיל אותן מחדש (אופציונלי).

חלק מהמכונות הווירטואליות לחישוב לא תומכות בהעברה פעילה, למשל:

מכונות H4D
מקרים של Bare Metal
מכונות עם יחידות GPU מצורפות
מופעי Z3 עם יותר מ-18 TiB של Titanium SSD מצורף.

המופעים האלה מופסקים במהלך אירועים של המארח. מידע נוסף זמין במאמר בנושא התנהגויות של תחזוקה והפעלה מחדש.

סוגי אירועים של מארחים

יש שני סוגים של אירועים של מארחים, שמתוארים בפירוט רב יותר בקטעים הבאים:

אירועי תחזוקה
שגיאות שקשורות למארח

אם המכונה לא מגיבה, יכול להיות שהמערכת תפעיל מחדש את המכונה או תסגור אותה.

אירועי תחזוקה

אירוע תחזוקה הוא מצב שבו Compute Engine צריך לבצע פעולת תחזוקה או תיקון שמחייבת להעביר מכונות וירטואליות משרת המארח. אם מפעילים את העברה פעילה של מדיניות תחזוקת המארח עבור סוג מכונה נתמך, ‏ Compute Engine מעביר את המכונה למארח חדש, ואין שיבושים משמעותיים באפליקציה.

בנוסף, מערכת Compute Engine מבצעת ברקע שדרוגים קלים של היפר-ויזורים ורשתות, בלי להפריע לפעולה, על ידי שמירת המכונה באותו מארח.

ההתנהגות של מופע במהלך אירוע תחזוקה יכולה להשתנות בהתאם לדיירות של המופע ולסוג המכונה.

במכונות וירטואליות עם דייר יחיד, התדירות המשוערת של אירועי תחזוקה מתוכננים של המארח היא כל 4 עד 6 שבועות. התמיכה במיגרציה פעילה תלויה במדיניות התחזוקה של המארח של המכונה הווירטואלית עם דייר יחיד.

אפשר למצוא מידע על התנהגות התחזוקה של כל סוג מכונה בדף של משפחת המכונות המתאימה, באופן הבא:

C series:
- ‫C2 ו-C2D: משפחת מכונות מותאמת לצריכת מעבד גבוהה (compute-optimized)
- ‫C4N: משפחת מכונות שעברה אופטימיזציה לרשת
- כל שאר סדרות C: משפחת מכונות לשימוש כללי
סדרות E,‏ N ו-T: משפחת מכונות לשימוש כללי
‫H series: משפחת מכונות וירטואליות מותאמת לצריכת מעבד גבוהה (compute-optimized)
סדרות M ו-X: משפחת מכונות שמותאמת לצריכת זיכרון גבוהה (memory-optimized)
‫Z series: משפחת מכונות שעברה אופטימיזציה לאחסון

למשפחות של מכונות שעברו אופטימיזציה למאיץ, אפשר לעיין בדפים הבאים:

יחידות GPU: טיפול באירועי תחזוקה של מארח GPU.
‫TPU: הכנה לאירועי תחזוקה במסמכי Cloud TPU.

שגיאות שקשורות למארח

שגיאה במארח (compute.instances.hostError) מציינת שהייתה בעיה בחומרה או בתוכנה במכונה הפיזית או בתשתית של מרכז הנתונים שמארחים את מופע המחשוב שלכם, שגרמה לקריסת המופע. שגיאת מארח שכוללת כשל מוחלט בחומרה או בעיות אחרות בחומרה עשויה למנוע מיגרציה פעילה של המופע. אם המכונה שלכם מוגדרת להפעלה מחדש אוטומטית, שזו הגדרת ברירת המחדל, מערכת Compute Engine מפעילה מחדש את המכונה, בדרך כלל תוך שלוש דקות מהרגע שבו זוהתה השגיאה. בהתאם לבעיה, ההפעלה מחדש עשויה להימשך עד 5.5 דקות.

לפעמים, יכול להיות שמופע של מחשוב לא יגיב לפני שמוצגת שגיאת מארח. כדי לקצר את משך הזמן ש-Compute Engine ממתין לפני הפעלה מחדש או סיום של המכונה, אפשר להגדיר את הזמן הקצוב לתפוגה של שחזור שגיאות במארח. מידע נוסף מופיע במאמר בנושא הגדרת מדיניות זמינות.

כשלים בחומרה ובתוכנה יכולים לקרות מדי פעם, אבל הם נדירים. כדי להגן על האפליקציות והשירותים שלכם מפני אירועי מערכת שעלולים לשבש את הפעילות, מומלץ לעיין במקורות המידע הבאים:

‫Google מציעה גם שירותים מנוהלים כמו App Engine והסביבה הגמישה של App Engine.

סקירה כללית של מדיניות תחזוקת המארחים

מדיניות התחזוקה של המארח של מופע קובעת את אופן הפעולה שלו במהלך אירועי המארח הבאים:

אירוע תחזוקה
אירוע שגיאה במארח או מופע שלא מגיב

אתם יכולים להגדיר את המקרים כך שהם ימשיכו לפעול במהלך תחזוקת המארח, בזמן ש-Compute Engine מעביר אותם בשידור חי למארח אחר, או שאתם יכולים לבחור להפסיק את המקרים במקום זאת.

אתם יכולים לשנות את מדיניות תחזוקת המארח של מופע על ידי הגדרת ההגדרות הבאות:

התנהגות בזמן תחזוקה: האם המכונה מועברת בשידור חי או מושבתת בזמן אירוע תחזוקה.
התנהגות בהפעלה מחדש: האם Compute Engine מפעיל מחדש את המכונה או מפסיק אותה אם היא קורסת, אם מתרחשת שגיאה במארח או אם היא לא מגיבה.
זמן זיהוי שגיאה במארח: משך הזמן המקסימלי ש-Compute Engine ממתין לפני הפעלה מחדש של מכונה או סיום שלה אחרי זיהוי שהמכונה לא מגיבה.
זמן השחזור של SSD מקומי: משך הזמן המקסימלי ש-Compute Engine משקיע בשחזור הנתונים בדיסקים של SSD מקומי אחרי זיהוי שגיאה במארח. הנתונים ב-SSD המקומי יאבדו אם הזמן שצוין יחלוף בלי שהשחזור יצליח.

אתם יכולים לעדכן את מדיניות תחזוקת המארח של מופע בכל שלב כדי לשלוט בהתנהגות של המופעים.

התנהגויות של תחזוקה והפעלה מחדש

כשמתרחש אירוע במארח, מופע החישוב יכול להשתמש בהעברה פעילה או שהמופע יכול להיות מופסק. אם מכונה מסוימת מסיימת את הפעולה שלה, אתם יכולים לבחור להפעיל אותה מחדש בעצמכם או להגדיר ש-Compute Engine יפעיל אותה מחדש באופן אוטומטי.

יכול להיות שסדרות המכונות הבאות לא תומכות בהעברה פעילה, ובמקום זאת נדרש סיום במהלך אירועי מארח:

‫ Z3 (כולל Z3-metal), ‫X4 ומופעי ‫H4D מסתיימים ומופעלים מחדש במקום.
מכונות Bare metal מופסקות ומופעלות מחדש, כלומר הן עשויות להיות מופעלות מחדש במארח אחר. פרטים נוספים זמינים במסמכי התיעוד בנושא 'חוויית תחזוקה' עבור סדרת המכונות. לדוגמה, למידע על סוגי מכונות Bare Metal מסוג C3, אפשר לעיין במאמר חוויית התחזוקה של מכונות C3.
מכונות וירטואליות חסויות, למעט סוגי מכונות N2D עם פלטפורמות CPU של AMD EPYC Milan שמריצות AMD SEV.
Instances with GPUs
Instances with TPUs

מיגרציה פעילה

כברירת מחדל, רוב סוגי המופעים מוגדרים להעברה פעילה, למעט סוגי המופעים שצוינו בקטע הקודם.

במהלך העברה פעילה, Compute Engine מעביר באופן אוטומטי את המכונה שלכם מאירוע תחזוקה בתשתית, והמכונה ממשיכה לפעול במהלך ההעברה. יכול להיות שיהיו למופע שלכם תקופות קצרות של ירידה בביצועים, אבל באופן כללי, ברוב המקרים לא אמורים להיות הבדלים משמעותיים בביצועים. האפשרות הזו מתאימה במיוחד למקרים שבהם נדרשת זמינות מתמדת, ויש סבילות לתקופה קצרה של ירידה בביצועים.

כש-Compute Engine מעביר את המופע, הוא מדווח על אירוע מערכת שמתפרסם ברשימת הפעולות של התחום וביומנים של אירועי המערכת. כדי לבדוק את האירוע הזה, אפשר לצפות בפעולות של Compute Engine באזור מסוים. סוג הפעולה של אירועי העברה בזמן אמת הוא:

compute.instances.migrateOnHostMaintenance

סיום והפעלה מחדש

אם אתם לא רוצים שהמופע שלכם יעבור מיגרציה פעילה, או אם סוג המופע לא תומך במיגרציה פעילה, אתם יכולים במקום זאת לאפשר ל-Google Cloud לעצור את המופע כשמתרחש אירוע במארח. במקרה כזה, אם מתרחש אירוע במארח, ‏ Compute Engine שולח אות כיבוי רך כדי להשבית את המכונה. לאחר מכן המערכת ממתינה 60 שניות עד שהמופע נסגר בצורה נקייה, ומגדירה את סטטוס המופע ל-TERMINATED. אם המופע לא נסגר בצורה תקינה תוך 60 שניות, הוא יופסק בכוח.

האפשרות הזו מתאימה במיוחד אם המקרים שלכם דורשים ביצועים מקסימליים וקבועים, ואם האפליקציה הכוללת שלכם בנויה כך שהיא יכולה להתמודד עם כשלים או הפעלות מחדש של מקרים.

כש-Compute Engine מפסיק מופע בגלל אירוע במארח, הוא מדווח על אירוע מערכת שמתפרסם ברשימת הפעולות באזור וביומנים של אירועי המערכת. כדי לבדוק את האירוע הזה, אפשר לצפות בפעולות של Compute Engine באזור מסוים. לאירועי סיום של מופע יש את סוג הפעולה הבא:

compute.instances.terminateOnHostMaintenance

הפעלה מחדש אוטומטית

אם המכונה שלכם מוגדרת להיעצר כשמתרחש אירוע תחזוקה, או אם המכונה קורסת בגלל בעיה בציוד הבסיסי, מערכת Compute Engine יכולה להפעיל מחדש את המכונה באופן אוטומטי. המופע מופעל מחדש באותו שרת מארח, או מועבר לשרת אחר באותו אזור שלא משתתף באירוע התחזוקה.

כברירת מחדל, מערכת Compute Engine מנסה לשחזר מכונות עם דיסקים מקומיים של SSD שמצורפים אליהן למשך שעה אחת. אם מגיעים למגבלת הזמן, מערכת Compute Engine מנסה להפעיל מחדש את המכונה בשרת מארח אחר באותו אזור. למופעי Z3,‏ X4 ו-H4D יש זמני המתנה שונים כברירת מחדל. סוגי המכונות האלה מופעלים מחדש באותו שרת מארח אחרי סיום המכונה.

כדי להגדיר הפעלה מחדש אוטומטית, מגדירים את השדה של מדיניות התחזוקה של המארח automaticRestart לערך true. ההגדרה הזו לא חלה אם המכונה הוצאה ממצב אונליין בגלל הפסקת חשמל אזורית או באמצעות פעולה ידנית, כמו קריאה ל-sudo shutdown במערכת ההפעלה של האורח.

כש-Compute Engine מפעיל מחדש את המופע באופן אוטומטי, הוא מדווח על אירוע מערכת שמתפרסם ברשימת הפעולות באזור. אפשר לבדוק את האירוע הזה על ידי צפייה בפעולות של Compute Engine באזור ספציפי. אירועים של הפעלה מחדש אוטומטית הם מסוג הפעולה הבא:

compute.instances.automaticRestart

התמדה של הדיסק אחרי סיום המופע

מכיוון ש-Persistent Disk ו-Hyperdisk הם אמצעי אחסון שמחוברים לרשת, כשמפעילים מחדש את המכונה, Compute Engine מחבר מחדש את דיסק האתחול ואת כל הדיסקים המשניים למכונה. הנתונים בדיסקים האלה נשמרים גם במהלך העברה פעילה והפעלה מחדש של המכונה.

ב-Compute Engine, הנתונים בדיסקי SSD מקומיים נשמרים אחרי אירוע במארח, אם אפשר. עם זאת, ב-Compute Engine אין ערובה להתמדת נתונים ב-SSD מקומי.

דיסקים מקומיים מסוג SSD נשמרים בתרחישים הבאים:
- מפעילים מחדש את מערכת ההפעלה האורחת (OS).
- מגדירים את המכונה להעברה פעילה, והמכונה עוברת אירוע תחזוקה של המארח.
- מתרחשת שגיאת מארח ו-Compute Engine מחבר מחדש את המכונה הוירטואלית לדיסקי ה-SSD המקומיים במסגרת מגבלת הזמן הקצובה.
- אתם בוחרים לשמור את הנתונים ב-SSD המקומי כשאתם מפסיקים או משעים את המופע (גרסת Preview).
- מכונת Compute עם כונני SSD מקומיים שמחוברים אליה, שתומכת רק בסיום ובהפעלה אוטומטית מחדש, עוברת אירוע תחזוקה. המופע מופעל מחדש במקום, והנתונים ב-SSD המקומי נשמרים, במקום להעביר אותם למארח חדש.
דיסקים מקומיים מסוג SSD לא נשמרים בתרחישים הבאים:
- מכבים את מערכת ההפעלה האורחת ומפסיקים את המופע באופן ידני.
- אתם יוצרים מכונה וירטואלית (VM) זמנית מסוג Spot או מכונה וירטואלית (VM) שניתן להפסיק לפני הזמן, והמכונה הווירטואלית עוברת את תהליך ההפסקה לפני הזמן.
- מגדירים את המכונה כך שתפסיק לפעול באירועי תחזוקה של המארח במקום להשתמש בהעברה פעילה, והמכונה עוברת אירוע תחזוקה של המארח.
- הגדרתם באופן שגוי דיסק SSD מקומי, ועכשיו אי אפשר לגשת אליו.
- השבתת החיוב בפרויקט, מה שגורם להפסקת המופע.
- אם automaticRestart לא מוגדר במופע שלכם.
- מתרחשת שגיאת מארח ו-Compute Engine לא מצליח לחבר מחדש את הדיסקים למופע לפני שפג הזמן הקצוב לתפוגה. במקרה כזה, המכונה מופעלת מחדש בלי לשחזר את דיסקי ה-SSD המקומיים. כשמפעילים מחדש את המכונה,‏ Compute Engine מצרף כונני SSD מקומיים ריקים למכונה שהופעלה מחדש. כדי שהאינסטנס יוכל להשתמש בדיסקים האלה, צריך לפרמט אותם ולצרף אותם. אי אפשר לשחזר את הנתונים בדיסקים המקוריים של ה-SSD המקומי.

Google Cloud משתמש בגישה של 'השתדלות הטובה ביותר' כדי לשמור על הנתונים ב-SSD המקומי. עם זאת, יש מקרים שבהם אי אפשר לשחזר נתונים, למשל אם חלף הזמן הקצוב לתפוגה. מידע נוסף על המקרים שבהם נשמרים נתונים בדיסקים של SSD מקומי זמין במאמר שמירת נתונים בדיסקים של SSD מקומי.

זמן קצוב לתפוגה של שחזור אחסון SSD מקומי

כשמתרחשת שגיאת מארח, מערכת Compute Engine מנסה לשחזר את כל דיסקי ה-SSD המקומיים שמצורפים למופע. אתם יכולים לשלוט בכמות הזמן ש-Compute Engine משקיע בניסיון לשחזר את הנתונים באמצעות ההגדרה של מדיניות המארח localSsdRecoveryTimeout.

כברירת מחדל, מערכת Compute Engine משקיעה שעה אחת בשחזור הנתונים, אבל ערכים תקינים להגדרה הזו הם בין 0 ל-168, במרווחים של שעה אחת. במכונות Z3, ערך ברירת המחדל הוא 6, כלומר מכונות Z3 ינסו לשחזר את נתוני ה-SSD המקומי במשך 6 שעות לפני שיגיעו למגבלת הזמן הקצוב לתפוגה.

אם מגדירים את הזמן הקצוב לתפוגה של שחזור SSD מקומי ל-0, ‏ Compute Engine לא ינסה לשחזר דיסקים מקומיים של SSD שמצורפים. המכונה מופעלת מחדש בהקדם האפשרי, ואי אפשר לשחזר את הנתונים בכונן ה-SSD המקומי. משתמשים בהגדרה הזו אם חשוב יותר להמשיך את עומס העבודה מאשר לשחזר את הנתונים ב-SSD המקומי.

אם פסק הזמן לשחזור לא מוגדר ל-0, אבל מגבלת הזמן הגיעה לפני ששוחזרו הנתונים של ה-SSD המקומי, אז Compute Engine מפעיל מחדש את המופע בלי הדיסק של ה-SSD המקומי. מערכת Compute Engine מצרפת כונני SSD מקומיים חדשים וריקים למכונה שהופעלה מחדש. כדי שהמופע יוכל להשתמש בדיסקים האלה, צריך לפרמט אותם ולחבר אותם.

המכונה נמצאת במצב REPAIRING בזמן שמערכת Compute Engine מנסה לשחזר את דיסקי ה-SSD המקומיים. המופע ודיסקי ה-SSD המקומיים לא זמינים במהלך הזמן הזה.

אם מגדירים את הזמן הקצוב לתפוגה של שחזור SSD מקומי לערך המקסימלי של 168, המופע נשאר במצב REPAIRING למשך עד 7 ימים בזמן ש-Compute Engine מנסה לשחזר את דיסקי ה-SSD המקומיים.

הפסקת השחזור של דיסק SSD מקומי

אפשר להפסיק את תהליך השחזור של דיסק ה-SSD המקומי לפני ש-Compute Engine מגיע למגבלת הזמן הקצוב לתפוגה של השחזור. כדי לעשות זאת, משתמשים בפקודה gcloud compute instances stop עם הדגל --discard-local-ssd=True.

הפקודה הזו מפסיקה את תהליך השחזור, מפסיקה את מופע המחשוב ומבטלת את הנתונים של ה-SSD המקומי. אחר כך אפשר להפעיל מחדש את המכונה. מידע נוסף זמין במאמר הפסקת מופע עם SSD מקומי.

במאמר הגדרת מדיניות תחזוקת המארח של מופע מוסבר איך מגדירים את זמן הקצוב לתפוגה של שחזור SSD מקומי.

תזמון תחזוקה

Google Cloud מספקת תכונות שמאפשרות שליטה הדוקה יותר בתחזוקה. אם משתמשים במשפחות מסוימות של מכונות, אפשר לציין העדפות תחזוקה ולקבל התראות על אירועי תחזוקה קרובים דרך Cloud Logging, שרת המטא-נתונים של המופע, הפקודה compute instances describe ב-CLI של gcloud או השיטה instances.describe בארכיטקטורת REST. כשמקבלים התראה, יש פרק זמן שבו אפשר להתחיל את התחזוקה המתוזמנת בשעה שבוחרים. אם לא תפעילו את התחזוקה המתוזמנת, אירוע התחזוקה יתרחש בסוף תקופת ההודעה, כלומר במועד המתוזמן שמופיע בהודעה.

אתם יכולים להשתמש בתכונות האלה בשילוב עם מדיניות תחזוקת המארח כדי להתאים אישית את לוח הזמנים של התחזוקה כך שיתאים לעומס העבודה שלכם.