סקירה כללית על יעדים למדידת רמת השירות (SLO)

יעדים למדידת רמת השירות (SLO) הם כלי מרכזי בערכת הכלים של Google למעקב אחרי שירותים. הסכמי רמת שירות יכולים לספק לכם אות תמציתי עם רמת רעש נמוכה לגבי המצב הכללי של השירותים שלכם. באמצעות Cloud Service Mesh אפשר להגדיר SLO לשירותים, ולעקוב אחרי השירותים ולהגדיר התראות לגביהם בהתאם ל-SLO.

כדי לעקוב אחרי תקינות השירות, צריך להבין אילו התנהגויות חשובות לשירות הזה ואיך למדוד ולהעריך את ההתנהגויות האלה. מדד רמת שירות (SLI) הוא מדד כמותי של היבט מסוים בשירות. דוגמאות ל-SLI טיפוסיים:

  • זמן אחזור: משך הזמן שנדרש כדי להחזיר תגובה לבקשה, בדרך כלל נמדד באלפיות שנייה (ms). זמן האחזור מוצג בדרך כלל כערך מצטבר. כלומר, הנתונים הגולמיים נאספים לאורך תקופה מסוימת ומחושבים כאחוזונים. ב-Cloud Service Mesh מוצג תרשים של זמן האחזור בדף Metrics לכל אחד מהשירותים. בתרשים של זמן האחזור מוצג זמן האחזור לאורך זמן, כך שאפשר לקבוע את סף זמן האחזור או את הגבול העליון של שירות מסוים.
  • זמינות: החלק היחסי של הזמן שבו שירות מגיב בהצלחה. המדד הזה מוצג בדרך כלל כיחס בין מספר התגובות המוצלחות לבין המספר הכולל של התגובות. התרשים 'שיעור השגיאות' בדף מדדים יכול לעזור לכם לקבוע את הזמינות של כל שירות.

יעד למדידת רמת השירות (SLO) הוא ערך יעד לרמת שירות שנמדד על ידי אינדיקטור לרמת השירות (SLI). אפשר לייצג SLO כך: SLI ≤ upper_bound או SLI ≥ lower_bound. הסכמי רמת שירות הם יעדים מדידים לביצועים לאורך תקופה מסוימת. לדוגמה, יכול להיות שיהיו לכם דרישות כמו הבאות לגבי חלק מהשירותים שלכם:

  • זמן האחזור יכול לחרוג מ-300 אלפיות השנייה רק ב-5% מהבקשות במהלך תקופה מתגלגלת של 30 יום.
  • הזמינות של המערכת צריכה להיות 99% לפחות, שנמדדת במהלך שבוע קלנדרי.

בדף Health (תקינות) אפשר להגדיר ולראות את יעדי רמת השירות (SLO) של השירותים על סמך נתוני הטלמטריה שלהם. אחרי כן תוכלו ליצור התראות ב-Cloud Monitoring כדי לקבל אזהרה אם שירות מסוים לא פועל כמצופה.

המאמרים הבאים