‫Google משתמשת בטכנולוגיית AI כדי לתרגם תוכן לשפה המועדפת עליך. בתרגומים כאלו עשויות להיות שגיאות.

מעקב אחרי תקינות הדיסק

כדי לבדוק את התקינות של נפח אחסון של Persistent Disk או Google Cloud Hyperdisk, אפשר לעיין במדד סטטוס הביצועים של הדיסק. המדד הזה מציין אם הביצועים של הדיסק עלולים להיות מושפעים מאירועים שליליים ב-Compute Engine.

יכול להיות שבעיה שמשפיעה על סטטוס הביצועים של הדיסק תופיע גם בלוח הבקרה של המרכז האישי ב-Service Health (PSH) של הפרויקט או בלוח הבקרה של Google Cloud Service Health.

במאמר הזה מוסבר על סטטוס הביצועים של הדיסק ואיך אפשר להשתמש בו כדי לפתור בעיות בביצועים.

מתי כדאי לבדוק את תקינות הדיסק

אם אתם מבחינים בבעיה בביצועים של דיסק, כדאי לבדוק את תקינות הדיסק על ידי עיון במדד הסטטוס של ביצועי הדיסק. מדד הסטטוס של ביצועי הדיסק מתעדכן כל דקה ומייצג את ביצועי הדיסק במהלך הדקה הקודמת. במאמר הצגת סטטוס הביצועים של הדיסק מוסבר איך לבדוק את תקינות הדיסק.

בטבלה הבאה מפורטים הערכים האפשריים של סטטוס הביצועים של הדיסק.

סטטוס	משמעות
`Healthy`	ביצועי הדיסק הם כמצופה.
`Degraded`	יכול להיות שתהיה לכם השהיה זמנית של קלט/פלט (I/O) שהיא גבוהה מהצפוי.
`Severely degraded`	זמן האחזור של קלט/פלט גבוה או שמתרחשות שגיאות אחרות.

אם סטטוס הביצועים הוא לא Healthy, אפשר לעיין במאמר הסבר על כל סטטוס כדי להבין מה צריך לעשות.

אם סטטוס הביצועים הוא Healthy, הדיסק פועל כרגיל וצריך לבדוק סיבות אחרות לבעיית הביצועים. צריך לבדוק אם יש שגיאות באפליקציה או במערכת ההפעלה ולוודא שהדיסק מותאם בצורה נכונה. הנחיות לאופטימיזציה זמינות במאמרים אופטימיזציה של Hyperdisk ואופטימיזציה של Persistent Disk.

איך תקינות הדיסק קשורה למדדי ביצועים אחרים של הדיסק

המדד'סטטוס הביצועים' מציין את תקינות הדיסק ומציג את הסטטוס הפנימי של הדיסק מנקודת המבט של Google. אם הסטטוס של דיסק הוא Degraded או Severely Degraded, תמיד אפשר למצוא את שורש הבעיה בתשתית של Compute Engine.

בדרך כלל אי אפשר לשנות את תקינות הדיסק על ידי שינוי עומס העבודה. עם זאת, במקרים נדירים, שינוי בעומס העבודה עשוי להפעיל בעיה פנימית, ולכן יכול להיות שאפשר יהיה לצמצם את הבעיה על ידי שינוי עומס העבודה.

למידע על מדדי הביצועים האחרים של הדיסק, אפשר לעיין במאמר בדיקת מדדי הביצועים של הדיסק.

תרחישים שלא משפיעים על סטטוס הביצועים של הדיסק

סטטוס הביצועים של הדיסק לא קשור לבעיות בביצועים שנגרמות מהגורמים הבאים:

אופטימיזציה לא מלאה או לא מספקת של הדיסק
מגבלת ביצועים שמשויכת לדיסק ולסוג המכונה (אם סוג המכונה שנבחר לא עומד בדרישות הביצועים של עומס העבודה)
עומס מוגבר על הדיסק בגלל תנועת הגולשים בעומס העבודה
שגיאה ברמת המשתמש, האפליקציה או מערכת ההפעלה
דיסקים מלאים או פגומים
בנפחי אחסון של Hyperdisk ו-Extreme Persistent Disk, לא הוקצו מספיק פעולות קלט/פלט בשנייה (IOPS) או תפוקה.

במקרים כאלה, האחריות לשיפור הביצועים מוטלת עליכם. למשל, אפשר לבצע אופטימיזציה של הדיסק, להגדיל את נפח העבודה, לשנות את סוג המכונה או להקצות יותר קיבולת, IOPS או קצב העברת נתונים.

הצגת התקינות של דיסק ב-Cloud Monitoring

כדי לראות את תקינות הדיסק, יוצרים תרשים ב-Metrics Explorer.

תפקידים והרשאות נדרשים

כדי לקבל את ההרשאות שדרושות לבדיקת מדד סטטוס הביצועים של הדיסק, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:

צפייה ב-Monitoring (roles/monitoring.viewer)
כדי לשמור תרשים במרכז בקרה: עריכת מעקב (roles/monitoring.editor)

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

יצירת תרשים ב-Metrics Explorer

כדי ליצור תרשים, צריך ליצור שאילתה באמצעות הממשק מבוסס התפריטים או PromQL.

כדי לראות את תקינות הדיסקים בתרשים, פועלים לפי ההוראות הבאות.

נכנסים לדף Metrics explorer במסוף Google Cloud :
כניסה אל Metrics Explorer

אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שבה הכותרת המשנית היא Monitoring.
בסרגל הכלים של מסוף Google Cloud , בוחרים את Google Cloud הפרויקט. בהגדרות של מרכז האפליקציות, בוחרים את הפרויקט המארח של מרכז האפליקציות או את פרויקט הניהול של התיקייה לניהול אפליקציות.
ברכיב Metric, מרחיבים את התפריט Select a metric, כותבים VM Instance בשורת הסינון ומשתמשים בתפריטי המשנה כדי לבחור סוג ספציפי של משאב ומדד:
1. בתפריט Active resources בוחרים באפשרות VM Instance.
2. בתפריט Active metric categories בוחרים באפשרות Instance.
3. בתפריט Active metrics בוחרים באפשרות Disk performance status.
4. לוחצים על אישור.
השם המוגדר במלואו של המדד הזה הוא compute.googleapis.com/instance/disk/performance_status.
כדי להוסיף מסננים שמסירים סדרות זמן מתוצאות השאילתה, משתמשים ברכיב Filter.
מגדירים את אופן התצוגה של הנתונים.
השבתת הצבירה. מוודאים שבתפריט הראשון של רכיב Aggregation מוגדרת האפשרות Unaggregated, ובתפריט השני מוגדרת האפשרות None.
כדי לראות את מצב התקינות של דיסק ספציפי, מסננים לפי device_name.

מידע נוסף על הגדרת תרשים זמין במאמר איך בוחרים מדדים כשמשתמשים ב-Metrics Explorer.

PromQL

פותחים את עורך השאילתות לפי השלבים שמפורטים במאמר כתיבת שאילתות PromQL.
מזינים את השאילתה בעורך השאילתות. לדוגמה, כדי לראות את סטטוס הביצועים של דיסק ספציפי, מזינים את השאילתה הבאה:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

מחליפים את DISK_NAME בשם הדיסק, לדוגמה, disk-1.

אם צופים בתוצאות בתרשים, מוצגות 3 שורות לכל דיסק, אחת לכל סטטוס אפשרי. באופן דומה, אם מציגים את תוצאת השאילתה בטבלה, בטבלה יהיו 3 שורות לכל דיסק.

אם יצרתם את השאילתה באמצעות PromQL, לכל שורה יהיה ערך של 1 או 0. בשביל שאילתות שנוצרו באמצעות התפריטים, הערכים של יהיו 100% או 0.

התקינות הנוכחית של הדיסק מיוצגת על ידי השורה או הקו שהערך שלהם הוא 100% או 1.

לדוגמה, בצילום המסך הבא מוצג התרשים של דיסק בשם a-test-VM, שהסטטוס שלו הוא Healthy:

צילום מסך שבו מוצג התרשים עם הסטטוס של הדיסק: תקין

אם מציגים את תוצאות השאילתה כטבלה, הטבלה הבאה היא דוגמה לתוצאות של דיסק עם הערך Healthy:

performance_status	value
`Healthy`	`1`
`Degraded`	`0`
`Severely Degraded`	`0`

בצילום המסך הבא מוצג התרשים של דיסק בשם replica-23509 שהסטטוס שלו הוא Degraded: צילום מסך שבו מוצג התרשים עם הסטטוס של הדיסק: Degraded (ירוד)

מידע על המשמעות של כל סטטוס ביצועים זמין במאמר בנושא הסבר על כל סטטוס. אחרי שיוצרים את התרשים, אפשר לשמור אותו בלוח בקרה לשימוש עתידי.

תוצאות חלקיות

אם השאילתה כוללת תוצאות חלקיות כמו בטבלה הבאה, הסיבה לכך היא בדרך כלל שתקופת ההצגה שנבחרה הייתה ארוכה. כתוצאה מכך, מערכת Cloud Monitoring צברה את הנתונים לאורך זמן. הערך 77% בסטטוס Healthy מציין שהסטטוס של הדיסק היה Healthy 77% מתקופת התצוגה שנבחרה.

performance_status	value
`Healthy`	`77%`
`Degraded`	`23%`
`Severely Degraded`	`0`

כדי לקבל תצוגה מפורטת יותר של תקינות הדיסק, משתמשים בתקופת תצוגה של כמה שעות או כמה דקות.

הסבר על כל סטטוס

בקטע הזה נסביר את המשמעות של כל סטטוס ומתי צריך לבצע פעולות נוספות.

`Healthy`

הסטטוס Healthy מציין שמנקודת המבט של Google, הדיסק פועל בצורה תקינה.

אם יש בעיות בביצועים של דיסק Healthy, אל תפנו לתמיכה. במקום זאת, אפשר לפתור את הבעיה בדיסק באמצעות ההצעות הבאות:

בודקים את מדדי הביצועים של הדיסק, כמו זמן האחזור ועומק התור.
בודקים את היומנים והמדדים של עומס העבודה כדי לזהות חריגות וצווארי בקבוק.
אם אתם משתמשים בדיסק אחסון מתמיד (persistent disk), ודאו שהקיבולת שהוקצתה יכולה לעמוד בדרישות הביצועים של הדיסק. אם אתם משתמשים בנפחי Hyperdisk או Extreme Persistent Disk, ודאו שהקציתם מספיק IOPS וקצב העברת נתונים.
חשוב לוודא שפעלתם לפי ההנחיות לאופטימיזציה של הדיסק. מידע נוסף זמין במאמרים בנושא אופטימיזציה של Hyperdisk ואופטימיזציה של Persistent Disk.

`Degraded`

בדרך כלל אין צורך לפנות לתמיכה אם הסטטוס של הדיסק הוא Degraded. בדרך כלל, Degraded status נגרמת בגלל תחזוקה פנימית רגילה בתשתית של Compute Engine.

יכול להיות שלא תבחינו בהשפעה על ביצועי הדיסק בזמן שהסטטוס שלו הוא Degraded. אם יש קשר בין הבעיה בביצועים לבין הסטטוס Degraded, יכול להיות שהבעיה בביצועים לא קשורה לסטטוס Degraded.

במקרה הלא סביר שבעיה בביצועים נובעת מהסטטוס Degraded, ההשפעה היא בדרך כלל זמנית. הסטטוס של הדיסק אמור לחזור ל-Healthy תוך כמה דקות.

אפשר להתעלם מהסטטוס Degraded אם אין בעיות בביצועים של הדיסק.

מה עושים אם יש בעיה בביצועים

אם סטטוס הביצועים של הדיסק הוא Degraded, ואתם מזהים בעיה בביצועים, פועלים לפי השלבים הבאים:

בודקים בלוח הבקרה של PSH אם יש תקרית שמשפיעה על הדיסק. אם יש אירוע, אין צורך לפנות לתמיכה כי Google מודעת לבעיה ופועלת לפתרונה.
אם אין בעיות ידועות, כדאי לחכות לפחות 5 דקות עד שבעיית הביצועים תיפתר מעצמה.
אם אחרי 5 דקות בעיית הביצועים לא נפתרה והסטטוס עדיין Degraded, צריך לוודא שבעיית הביצועים לא נובעת מכך שהדיסק לא עבר אופטימיזציה מספקת. לדוגמה, בודקים את זמן האחזור של הדיסק ואת עומק התור. יכול להיות שבעיית הביצועים והסטטוס Degraded לא קשורות זו לזו, אלא מדובר בצירוף מקרים. כדי לעשות זאת, מעיינים במדדים של הדיסק ובהנחיות לאופטימיזציה של הביצועים.
אם בעיות הביצועים נמשכות וכל התנאים הבאים מתקיימים, אפשר לפנות לתמיכה כדי לבקש עזרה:
- הסטטוס של הדיסק הוא Degraded כבר יותר מ-5 דקות
- אתם בטוחים למדי שזו לא בעיה שקשורה לעומס העבודה, כי ביצעתם אופטימיזציה של הדיסק ואימתתם שאין בעיות אחרות כמו צוואר בקבוק או אפליקציה שעמוסה מדי
- אין התראות בלוח הבקרה של PSH

‫Google לא ממליצה ליצור התראה לגבי הסטטוס Degraded באופן ישיר, אלא ליצור התראה לגבי סטטוס האפליקציה ברמה גבוהה יותר ולהשתמש במדד הזה כדי לנפות באגים.

`Severely Degraded`

אם סטטוס הביצועים של דיסק הוא Severely Degraded, יש בעיה בביצועים שלו. הבעיה הזו יכולה לנבוע מאירוע או משגיאה, ויכול להיות שהיא כבר מופיעה בלוח הבקרה של PSH או בלוח הבקרה של Google Cloud סטטוס השירות.

מה לעשות?

אם סטטוס הביצועים של הדיסק הוא Severely Degraded, פועלים לפי השלבים הבאים:

כדאי לבדוק את לוח הבקרה של PSH ואת לוח הבקרה הכללי Google Cloud למעקב אחר תקינות המערכת כדי לראות אם יש אירוע שמשפיע על הדיסק. אם יש אירוע, אין צורך לפנות לתמיכה כי Google מודעת לבעיה ופועלת לפתרונה.
אם אין בעיות ידועות בשני לוחות הבקרה, פנו לתמיכה כדי לקבל עזרה.

עץ החלטה

התרשים הבא מראה מה צריך לעשות אם יש בעיה בביצועים של דיסק, ומסכם את המידע שבקטעים הקודמים.

תרשים זרימה שמתאר את השלבים לפרשנות של מדד הסטטוס של ביצועי הדיסק.

כפי שמוצג בתרשים הזרימה, צריך לפנות לתמיכה רק אם אין התראות ידועות בלוחות הבקרה של PSH ושירותי Cloud, והסטטוס של הדיסק הוא Severely Degraded. אם הדיסק הוא Degraded, פונים לתמיכה רק אם כל התנאים הבאים מתקיימים:

הדיסק Degraded יותר מ-5 דקות
שללתם שגיאה או הגדרה שגויה של עומס העבודה (למשל בעיות ברשת)
אי אפשר לבצע אופטימיזציות נוספות ברמת האפליקציה, עומס העבודה או הדיסק
בדקת את כל המדדים של הדיסק
בדקתם את יומני הרישום של עומס העבודה והמכונה הווירטואלית (VM)

המאמרים הבאים

מידע נוסף על יצירת תרשימים באמצעות Metrics Explorer על הוספת מסננים לתרשים
אפשר לבדוק את האירועים הפעילים והקודמים שקשורים ל-Service Health בלוח הבקרה של Personal Service Health ובGoogle Service Health.
הנחיות לאופטימיזציה של הביצועים זמינות במאמרים אופטימיזציה של Hyperdisk ואופטימיזציה של Persistent Disk.