העיקרון הזה, שנכלל בעמודה 'מהימנות' בGoogle Cloud Well-Architected Framework, כולל המלצות שיעזרו לכם לזהות מראש תחומים שבהם עלולות להתרחש שגיאות וכשלים.
העיקרון הזה רלוונטי לתחום ההתמקדות בתצפית על מהימנות.
סקירה כללית של העקרונות
כדי לשמור על האמינות של עומסי העבודה ב-Google Cloudולשפר אותה, צריך להטמיע יכולות תצפית יעילות באמצעות מדדים, יומנים ויומני מעקב.
- מדדים הם מדידות מספריות של פעילויות שאתם רוצים לעקוב אחריהן באפליקציה שלכם במרווחי זמן ספציפיים. לדוגמה, יכול להיות שתרצו לעקוב אחרי מדדים טכניים כמו קצב הבקשות ושיעור השגיאות, שאפשר להשתמש בהם כאינדיקטורים ברמת השירות (SLI). יכול להיות שתצטרכו גם לעקוב אחרי מדדים עסקיים שספציפיים לאפליקציה, כמו הזמנות שבוצעו ותשלומים שהתקבלו.
- יומנים הם רשומות עם חותמת זמן של אירועים נפרדים שמתרחשים באפליקציה או במערכת. האירוע יכול להיות כשל, שגיאה או שינוי במצב. היומנים עשויים לכלול מדדים, ואפשר גם להשתמש ביומנים עבור SLI.
- trace מייצג את המסלול של משתמש יחיד או של טרנזקציה דרך מספר אפליקציות נפרדות או הרכיבים של אפליקציה. לדוגמה, הרכיבים האלה יכולים להיות מיקרו-שירותים. העקבות עוזרות לכם לעקוב אחרי הרכיבים שבהם נעשה שימוש בתהליכים, לזהות צווארי בקבוק ולבדוק כמה זמן נמשכו התהליכים.
מדדים, יומנים ועקבות עוזרים לכם לעקוב אחרי המערכת באופן רציף. מעקב מקיף עוזר לכם להבין איפה ומדוע התרחשו שגיאות. אפשר גם לזהות כשלים פוטנציאליים לפני שמתרחשות שגיאות.
המלצות
כדי לזהות ביעילות כשלים פוטנציאליים, כדאי לעיין בהמלצות שבקטעי המשנה הבאים.
קבלת תובנות מקיפות
כדי לעקוב אחרי מדדים מרכזיים כמו זמני תגובה ושיעורי שגיאות, משתמשים ב-Cloud Monitoring וב-Cloud Logging. הכלים האלה גם עוזרים לוודא שהמדדים עומדים באופן עקבי בדרישות של עומס העבודה.
כדי לקבל החלטות שמבוססות על נתונים, צריך לנתח את מדדי שירות ברירת המחדל כדי להבין את התלות בין הרכיבים ואת ההשפעה שלהם על הביצועים הכוללים של עומס העבודה.
כדי להתאים אישית את אסטרטגיית המעקב, אפשר ליצור ולפרסם מדדים משלכם באמצעות Google Cloud SDK.
ביצוע פתרון בעיות יזום
צריך להטמיע טיפול חזק בשגיאות ולהפעיל רישום ביומן בכל הרכיבים של עומסי העבודה ב- Google Cloud. מפעילים יומנים כמו יומני גישה ל-Cloud Storage וVPC Flow Logs.
כשמגדירים את הרישום ביומן, צריך לקחת בחשבון את העלויות הנלוות. כדי לשלוט בעלויות של רישום ביומן, אפשר להגדיר מסנני החרגה באובייקטים מסוג sink ביומן כדי להחריג שמירה של יומנים מסוימים.
אופטימיזציה של ניצול המשאבים
כדי לזהות משאבים שהוקצו להם יותר מדי או פחות מדי משאבים בשירותים כמו GKE, Compute Engine ו-Dataproc, כדאי לעקוב אחרי נתוני הצריכה של CPU, מדדי קלט/פלט ברשת ומדדי קלט/פלט בדיסק. רשימה מלאה של השירותים הנתמכים זמינה במאמר סקירה כללית על Cloud Monitoring.
קביעת סדרי עדיפויות להתרעות
כדאי שההתראות יהיו ממוקדות למדדים קריטיים, מוגדרות לפי ערכי סף מתאימים כדי למזער את התשישות מהתראות ולוודא שבעיות משמעותיות יקבלו מענה בזמן מתאים. הגישה הממוקדת מאפשרת לשמור על האמינות של עומסי העבודה באופן יזום. מידע נוסף מופיע במאמר סקירה כללית על התראות.