מעקב אחרי תקינות הדיסק

כדי לבדוק את התקינות של נפח אחסון של Persistent Disk או Google Cloud Hyperdisk, אפשר לעיין במדד סטטוס הביצועים של הדיסק. המדד הזה מציין אם הביצועים של הדיסק עלולים להיות מושפעים מאירועים שליליים ב-Compute Engine.

בעיה שמשפיעה על סטטוס הביצועים של הדיסק עשויה להופיע גם בלוח הבקרה של המרכז האישי ב-Service Health (PSH) של הפרויקט או בלוח הבקרה של Google Cloud Service Health.

במאמר הזה מוסבר על סטטוס הביצועים של הדיסק ואיך אפשר להשתמש בו כדי לפתור בעיות בביצועים.

מתי כדאי לבדוק את תקינות הדיסק

אם אתם מבחינים בבעיה בביצועים של דיסק, כדאי לבדוק את תקינות הדיסק על ידי עיון במדד הסטטוס של ביצועי הדיסק. מדד הסטטוס של ביצועי הדיסק מתעדכן כל דקה ומייצג את ביצועי הדיסק במהלך הדקה הקודמת. במאמר איך בודקים את סטטוס הביצועים של הדיסק מוסבר איך לעשות זאת.

בטבלה הבאה מפורטים הערכים האפשריים של סטטוס הביצועים של הדיסק.

סטטוס משמעות
Healthy ביצועי הדיסק הם כמצופה.
Degraded יכול להיות שתבחינו באופן זמני בחביון גבוה מהצפוי של קלט/פלט.
Severely degraded זמן האחזור של קלט/פלט גבוה או שמתרחשות שגיאות אחרות.

אם סטטוס הביצועים הוא לא Healthy, אפשר לעיין במאמר הסבר על כל סטטוס כדי להבין מה צריך לעשות.

אם סטטוס הביצועים הוא Healthy, הדיסק פועל כרגיל וצריך לבדוק סיבות אחרות לבעיית הביצועים. צריך לבדוק אם יש שגיאות באפליקציה או במערכת ההפעלה ולוודא שהדיסק מותאם בצורה נכונה. הנחיות לאופטימיזציה זמינות במאמרים אופטימיזציה של Hyperdisk ואופטימיזציה של דיסקים לאחסון מתמיד.

איך תקינות הדיסק קשורה למדדי ביצועים אחרים של הדיסק

המדד'סטטוס הביצועים' מציין את תקינות הדיסק ומציג את הסטטוס הפנימי של הדיסק מנקודת המבט של Google. אם הסטטוס של דיסק הוא Degraded או Severely Degraded, תמיד הבעיה היא בתשתית של Compute Engine.

בדרך כלל אי אפשר לשנות את תקינות הדיסק על ידי שינוי עומס העבודה. עם זאת, במקרים נדירים, שינוי בעומס העבודה עשוי להפעיל בעיה פנימית, ולכן יכול להיות שאפשר יהיה לצמצם את הבעיה על ידי שינוי עומס העבודה.

מידע על מדדי הביצועים האחרים של הדיסק זמין במאמר בדיקת מדדי הביצועים של הדיסק.

תרחישים שלא משפיעים על סטטוס הביצועים של הדיסק

סטטוס הביצועים של הדיסק לא קשור לבעיות בביצועים שנגרמות מהגורמים הבאים:

  • אופטימיזציה לא מלאה או לא מספקת של הדיסק
  • מגבלת ביצועים שמשויכת לדיסק ולסוג המכונה (אם סוג המכונה שנבחר לא עומד בדרישות הביצועים של עומס העבודה)
  • עומס מוגבר על הדיסק בגלל תנועת הגולשים בעומס העבודה
  • שגיאה ברמת המשתמש, האפליקציה או מערכת ההפעלה
  • דיסקים מלאים או פגומים
  • בנפחי אחסון של Hyperdisk ושל Persistent Disk מסוג Extreme, לא הוקצו מספיק IOPS או תפוקה.

במקרים כאלה, באחריותכם לשפר את הביצועים, למשל על ידי אופטימיזציה של הדיסק, הגדלת נפח העבודה, שינוי סוג המכונה או הקצאת קיבולת, IOPS או קצב העברת נתונים גבוהים יותר.

הצגת תקינות הדיסק ב-Cloud Monitoring

כדי לראות את תקינות הדיסק, יוצרים תרשים ב-Metrics Explorer.

תפקידים והרשאות נדרשים

כדי לקבל את ההרשאות שדרושות לבדיקת מדד סטטוס הביצועים של הדיסק, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

יצירת תרשים ב-Metrics Explorer

כדי ליצור תרשים, צריך ליצור שאילתה באמצעות הממשק מבוסס התפריטים או PromQL.

כדי לראות את תקינות הדיסקים בתרשים, פועלים לפי ההוראות הבאות.
  1. במסוף Google Cloud , עוברים לדף  Metrics explorer:

    כניסה אל Metrics Explorer

    אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שכותרת המשנה שלה היא Monitoring.

  2. בסרגל הכלים של מסוף Google Cloud , בוחרים את Google Cloud הפרויקט. בהגדרות של App Hub, בוחרים את פרויקט המארח של App Hub או את פרויקט הניהול של התיקייה לניהול אפליקציות.
  3. ברכיב Metric, מרחיבים את התפריט Select a metric, כותבים VM Instance בשורת הסינון ומשתמשים בתפריטי המשנה כדי לבחור סוג ספציפי של משאב ומדד:
    1. בתפריט Active resources בוחרים באפשרות VM Instance.
    2. בתפריט Active metric categories בוחרים באפשרות Instance.
    3. בתפריט Active metrics, בוחרים באפשרות Disk performance status.
    4. לוחצים על אישור.
    השם המוגדר במלואו של המדד הזה הוא compute.googleapis.com/instance/disk/performance_status.
  4. כדי להוסיף מסננים שמסירים סדרות זמן מתוצאות השאילתה, משתמשים ברכיב Filter.

  5. מגדירים את אופן התצוגה של הנתונים.
    השבתת הצבירה. מוודאים שבתפריט הראשון של הרכיב Aggregation מוגדרת האפשרות Unaggregated, ובתפריט השני מוגדרת האפשרות None.
    כדי לראות את תקינות הדיסק הספציפי, מסננים לפי device_name.

    מידע נוסף על הגדרת תרשים זמין במאמר איך בוחרים מדדים כשמשתמשים ב-Metrics Explorer.

PromQL

  1. פותחים את עורך השאילתות לפי השלבים שמפורטים במאמר כתיבת שאילתות PromQL.

  2. מזינים את השאילתה בעורך השאילתות. לדוגמה, כדי לראות את סטטוס הביצועים של דיסק ספציפי, מזינים את השאילתה הבאה:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

מחליפים את DISK_NAME בשם הדיסק, לדוגמה, disk-1.

אם צופים בתוצאות בתרשים, מוצגות 3 שורות לכל דיסק, אחת לכל סטטוס אפשרי. באופן דומה, אם מציגים את תוצאת השאילתה בטבלה, בטבלה יהיו 3 שורות לכל דיסק.

אם יצרתם את השאילתה באמצעות PromQL, לכל שורה יהיה ערך של 1 או 0. בשביל שאילתות שנוצרו באמצעות התפריטים, הערכים של יהיו 100% או 0.

התקינות הנוכחית של הדיסק מיוצגת על ידי השורה או הקו שהערך שלהם הוא 100% או 1.

לדוגמה, בצילום המסך הבא מוצג התרשים של דיסק בשם a-test-VM, שהסטטוס שלו הוא Healthy:

צילום מסך שבו מוצג התרשים עם הסטטוס של הדיסק: תקין

אם מציגים את תוצאות השאילתה כטבלה, הטבלה הבאה היא דוגמה לתוצאות של דיסק עם הערך Healthy:

performance_status value
Healthy 1
Degraded 0
Severely Degraded 0

צילום המסך הבא מציג את התרשים של דיסק בשם replica-23509 שהסטטוס שלו הוא Degraded: צילום מסך שבו מוצג התרשים עם הסטטוס של הדיסק: Degraded (ירוד)

מידע על המשמעות של כל סטטוס ביצועים זמין במאמר בנושא הסבר על כל סטטוס. אחרי שיוצרים את התרשים, אפשר לשמור אותו בלוח בקרה לשימוש עתידי.

תוצאות חלקיות

אם השאילתה כוללת תוצאות חלקיות כמו בטבלה הבאה, הסיבה לכך היא בדרך כלל שתקופת ההצגה שנבחרה הייתה ארוכה. כתוצאה מכך, מערכת Cloud Monitoring צברה את הנתונים לאורך זמן. הערך 77% בסטטוס Healthy מציין שהסטטוס של הדיסק היה Healthy 77% מתקופת התצוגה שנבחרה.

performance_status value
Healthy 77%
Degraded 23%
Severely Degraded 0

כדי לקבל תצוגה מפורטת יותר של תקינות הדיסק, אפשר להשתמש בתקופת תצוגה של כמה שעות או של מספר דקות.

הסבר על כל סטטוס

בקטע הזה נסביר את המשמעות של כל סטטוס ומתי צריך לבצע פעולות נוספות.

Healthy

הסטטוס Healthy מציין שמנקודת המבט של Google, הדיסק פועל בצורה תקינה.

אם נתקלתם בבעיות בביצועים של דיסק Healthy, אל תיצרו קשר עם התמיכה. במקום זאת, אפשר לפתור את הבעיה בדיסק באמצעות ההצעות הבאות:

  • בודקים את מדדי הביצועים של הדיסק, כמו זמן האחזור ועומק התור.
  • בודקים את היומנים והמדדים של עומס העבודה כדי לזהות חריגות וצווארי בקבוק.
  • אם אתם משתמשים בדיסק אחסון מתמיד (persistent disk), ודאו שהקיבולת שהוקצתה יכולה לעמוד בדרישות הביצועים של הדיסק. אם אתם משתמשים בנפחי Hyperdisk או Extreme Persistent Disk, ודאו שהקציתם מספיק IOPS וקצב העברת נתונים.
  • חשוב לוודא שפעלתם לפי ההנחיות לאופטימיזציה של הדיסק. מידע נוסף זמין במאמרים בנושא אופטימיזציה של Hyperdisk ואופטימיזציה של Persistent Disk.

Degraded

בדרך כלל אין צורך לפנות לתמיכה אם הסטטוס של הדיסק הוא Degraded. בדרך כלל, Degraded status נגרמת בגלל תחזוקה פנימית רגילה בתשתית של Compute Engine.

יכול להיות שלא תבחינו בהשפעה כלשהי על ביצועי הדיסק בזמן שהסטטוס שלו הוא Degraded. אם יש קשר בין בעיית הביצועים לבין Degraded הסטטוס בזמן, יכול להיות שבעיית הביצועים לא קשורה לDegraded הסטטוס.

במקרה הלא סביר שבעיה בביצועים נובעת מהסטטוס Degraded, ההשפעה היא בדרך כלל זמנית. הסטטוס של הדיסק אמור לחזור ל-Healthy תוך כמה דקות.

אפשר להתעלם מהסטטוס Degraded אם אין בעיות בביצועים של הדיסק.

מה עושים אם יש בעיה בביצועים

אם סטטוס הביצועים של הדיסק הוא Degraded, ואתם מזהים בעיה בביצועים, פועלים לפי השלבים הבאים:

  1. בודקים בלוח הבקרה של PSH אם יש תקרית שמשפיעה על הדיסק. אם יש אירוע, אין צורך לפנות לתמיכה כי Google מודעת לבעיה ופועלת לפתרונה.
  2. אם אין בעיות ידועות, כדאי לחכות לפחות 5 דקות עד שבעיית הביצועים תיפתר מעצמה.
  3. אם אחרי 5 דקות בעיית הביצועים לא נפתרה והסטטוס עדיין Degraded, צריך לוודא שבעיית הביצועים לא נובעת מכך שהדיסק לא עבר אופטימיזציה מספקת. לדוגמה, בודקים את זמן האחזור ואת עומק התור של הדיסק. יכול להיות שבעיית הביצועים והסטטוס Degraded לא קשורות זו לזו, אלא רק חופפות. כדי לעשות זאת, מעיינים במדדים של הדיסק ובהנחיות לאופטימיזציה של הביצועים.

  4. אם בעיות הביצועים נמשכות וכל התנאים הבאים מתקיימים, אפשר לפנות לתמיכה כדי לבקש עזרה:

    • הסטטוס של הדיסק הוא Degraded כבר יותר מ-5 דקות
    • אתם בטוחים למדי שזו לא בעיה שקשורה לעומס העבודה, כי ביצעתם אופטימיזציה של הדיסק ואימתתם שאין בעיות אחרות כמו צוואר בקבוק או אפליקציה שעמוסה מדי
    • אין התראות בלוח הבקרה של PSH

‫Google לא ממליצה ליצור התראה לגבי הסטטוס Degraded באופן ישיר, אלא ליצור התראה לגבי סטטוס האפליקציה ברמה גבוהה יותר ולהשתמש במדד הזה כדי לנפות באגים.

Severely Degraded

אם סטטוס הביצועים של דיסק הוא Severely Degraded, יש בעיה בביצועים שלו. הבעיה הזו יכולה לנבוע מאירוע או משגיאה, ויכול להיות שהיא כבר מופיעה בלוח הבקרה של PSH או בלוח הבקרה של Google Cloud סטטוס השירות.

מה לעשות?

אם סטטוס הביצועים של הדיסק הוא Severely Degraded, צריך לבצע את השלבים הבאים:

  1. כדאי לבדוק את לוח הבקרה של PSH ואת לוח הבקרה הכללי Google Cloud למעקב אחר תקינות המערכת כדי לראות אם יש אירוע שמשפיע על הדיסק. אם יש אירוע, אין צורך לפנות לתמיכה כי Google מודעת לבעיה ופועלת לפתרונה.
  2. אם אין בעיות ידועות בשני לוחות הבקרה, פנו לתמיכה כדי לקבל עזרה.

עץ החלטה

התרשים הבא ממחיש איך לפעול אם יש בעיה בביצועים של דיסק, ומסכם את המידע שבקטעים הקודמים.

תרשים זרימה שמתאר את השלבים לפרשנות של מדד הסטטוס של ביצועי הדיסק.

כפי שמוצג בתרשים הזרימה, צריך לפנות לתמיכה רק אם אין התראות ידועות בלוחות הבקרה של PSH ושירותי Cloud, והסטטוס של הדיסק הוא Severely Degraded. אם הדיסק הוא Degraded, אפשר לפנות לתמיכה רק אם כל התנאים הבאים מתקיימים:

  • הדיסק Degraded יותר מ-5 דקות
  • שללתם שגיאה או הגדרה שגויה של עומס העבודה (למשל בעיות ברשת)
  • אי אפשר לבצע אופטימיזציות נוספות ברמת האפליקציה, עומס העבודה או הדיסק
  • בדקת את כל המדדים של הדיסק
  • בדקתם את יומני הרישום של עומס העבודה והמכונה הווירטואלית (VM)

המאמרים הבאים