Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

זיהוי כשלים פוטנציאליים באמצעות יכולת התבוננות

Last reviewed 2024-12-30 UTC

העיקרון הזה, שמופיע בעמודה 'מהימנות' של Google Cloud Well-Architected Framework, כולל המלצות שיעזרו לכם לזהות באופן יזום אזורים שבהם עלולות להתרחש שגיאות וכשלים.

העיקרון הזה רלוונטי לתחום ההתמקדות בתצפית בנושא מהימנות.

סקירה כללית של העקרונות

כדי לשמור על האמינות של עומסי העבודה ב-Google Cloudולשפר אותה, צריך להטמיע יכולות אבחון יעילות באמצעות מדדים, יומנים ויומני מעקב.

מדדים הם מדידות מספריות של פעילויות שאתם רוצים לעקוב אחריהן באפליקציה שלכם במרווחי זמן ספציפיים. לדוגמה, יכול להיות שתרצו לעקוב אחרי מדדים טכניים כמו קצב הבקשות ושיעור השגיאות, שאפשר להשתמש בהם כאינדיקטורים ברמת השירות (SLI). יכול להיות שתצטרכו גם לעקוב אחרי מדדים עסקיים שספציפיים לאפליקציה, כמו הזמנות שבוצעו ותשלומים שהתקבלו.
יומנים הם רשומות עם חותמת זמן של אירועים נפרדים שמתרחשים באפליקציה או במערכת. האירוע יכול להיות כשל, שגיאה או שינוי במצב. היומנים עשויים לכלול מדדים, ואפשר גם להשתמש ביומנים עבור SLI.
trace מייצג את המסלול של משתמש יחיד או של טרנזקציה דרך מספר אפליקציות נפרדות או הרכיבים של אפליקציה. לדוגמה, הרכיבים האלה יכולים להיות מיקרו-שירותים. העקבות עוזרות לכם לעקוב אחרי הרכיבים שבהם נעשה שימוש בתהליכים, לזהות צווארי בקבוק ולבדוק כמה זמן נמשכו התהליכים.

מדדים, יומנים ועקבות עוזרים לכם לעקוב אחרי המערכת באופן רציף. מעקב מקיף עוזר לכם להבין איפה ומדוע התרחשו שגיאות. אפשר גם לזהות כשלים פוטנציאליים לפני שמתרחשות שגיאות.

המלצות

כדי לזהות ביעילות כשלים פוטנציאליים, כדאי לעיין בהמלצות שבקטעי המשנה הבאים.

קבלת תובנות מקיפות

כדי לעקוב אחרי מדדים מרכזיים כמו זמני תגובה ושיעורי שגיאות, משתמשים ב-Cloud Monitoring וב-Cloud Logging. הכלים האלה גם עוזרים לוודא שהמדדים עומדים באופן עקבי בדרישות של עומס העבודה.

כדי לקבל החלטות שמבוססות על נתונים, צריך לנתח את מדדי שירות ברירת המחדל כדי להבין את התלות בין הרכיבים ואת ההשפעה שלהם על הביצועים הכוללים של עומס העבודה.

כדי להתאים אישית את אסטרטגיית המעקב, אפשר ליצור ולפרסם מדדים משלכם באמצעות Google Cloud SDK.

ביצוע פתרון בעיות יזום

צריך להטמיע טיפול חזק בשגיאות ולהפעיל רישום ביומן בכל הרכיבים של עומסי העבודה ב- Google Cloud. מפעילים יומנים כמו יומני גישה ל-Cloud Storage וVPC Flow Logs.

כשמגדירים את הרישום ביומן, צריך לקחת בחשבון את העלויות הנלוות. כדי לשלוט בעלויות של רישום ביומן, אפשר להגדיר מסנני החרגה באובייקטים sink ביומן כדי להחריג שמירה של יומנים מסוימים.

אופטימיזציה של ניצול המשאבים

כדי לזהות משאבים שהוקצו בחוסר או בעודף בשירותים כמו GKE,‏ Compute Engine ו-Managed Service for Apache Spark, כדאי לעקוב אחרי צריכת המעבד, מדדי קלט/פלט ברשת ומדדי קלט/פלט בדיסק. רשימה מלאה של השירותים הנתמכים זמינה במאמר סקירה כללית על Cloud Monitoring.

קביעת סדרי עדיפויות להתראות

כדאי שההתראות יהיו ממוקדות למדדים קריטיים, מוגדרות לפי ערכי סף מתאימים כדי למזער את התשישות מהתראות ולוודא שבעיות משמעותיות יקבלו מענה בזמן מתאים. הגישה הממוקדת מאפשרת לשמור על האמינות של עומסי העבודה באופן יזום. מידע נוסף מופיע בסקירה הכללית על התראות.

ליהנות מהיתרונות של מדרגיות אופקית

תכנון לשדרוג הדרגתי

זיהוי כשלים פוטנציאליים באמצעות יכולת התבוננות קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.