תקשורת בנושא אירועים ב-Google Cloud

במסמך הזה מפורטת הגישה של Google Cloudלדיווח על אירועים, כולל תפקידי ערוצי התקשורת העיקריים הבאים: המרכז האישי ב-Service Health‏ (PSH) ולוח הבקרה הציבורי של Google Cloud Service Health‏ (CSH).

איפה אפשר למצוא את התקשורת בנוגע לאירועים

Google Cloud מספקת שני ערוצים לתקשורת בנושא אירועים, שלכל אחד מהם יש מטרה שונה:

  • המרכז האישי ב-Service Health‏ (PSH): זהו המקור העיקרי שלכם למידע על שיבושים בשירותים שרלוונטיים לכם. הוא מספק תצוגה מותאמת אישית שמותאמת ל Google Cloud מוצרים הספציפיים שבהם אתם משתמשים. מומלץ לשלב את המרכז האישי ב-Service Health בתהליך התגובה לאירועים כסימן אימות קריטי.

    כדי להימנע מהזמנת מהנדס תורן לכל אירוע של Service Health בהתאמה אישית, כדאי לשלב את הגישה לאירועים של Service Health בהתאמה אישית בלוחות הבקרה ובכלים של הצוות. השיטה הזו עוזרת למפעילים לקבוע במהירות אם בעיה חשודה קשורה לשיבוש בשירות Google Cloud . מידע נוסף על PSH

  • Google Cloud Service Health (CSH): זהו דף סטטוס ציבורי של Google Cloudשזמין בכתובת status.cloud.google.com. Google Cloud לא צריך להתחבר כדי לגשת ל-Service Health. הדף הזה משמש כבדיקת תקינות של הפלטפורמה כולה, ומציג מידע על אירועים חמורים או על מקרים שבהם PSH עצמו לא זמין.

דיאגרמה שמשווה בין ערוצי תקשורת של PSH לבין ערוצי תקשורת של CSH. בתרשים מוצגים אירועים מתפתחים, אירועים שאושרו ואירועים חמורים בהיקף נרחב שמועברים אל המרכז האישי שלכם ב-Service Health.
בתרשים מוצגים אירועים חמורים בהיקף נרחב שמועברים אל Cloud Service Health. האפשרויות שמופיעות בקטע Personalized Service Health הן Dashboard,‏ API ו-Cloud Logging. האפשרויות שמופיעות בקטע Cloud Service Health הן Dashboard ו-RSS Feed.

ההמלצות שלנו לגבי גילוי נאות

ההחלטה מה לשתף ואיפה לשתף לא מתבצעת באופן שרירותי. זוהי שיטה פורמלית ושיטתית שמבוססת בעיקר על היקף האירוע. המטרה של הערוצים האלה היא לספק חשיפה מקסימלית לאירועים חמורים בהיקף נרחב, תוך צמצום הרעש של אירועים לא רלוונטיים.

  • במקרה של אירועים חמורים בהיקף נרחב: אירועים בהיקף נרחב – כאלה שמשפיעים על אחוז גדול מהפרויקטים או שמתרחשים במספר אזורים – מדווחים באמצעות Google Cloud Service Health (CSH). האירועים האלה מדווחים גם ללקוחות המושפעים באמצעות המרכז האישי שלהם ב-Service Health. כך תוכלו לוודא שהמסר יגיע לקהל הרחב ביותר האפשרי לגבי האירועים הקריטיים ביותר.

  • לגבי אירועים מאושרים אחרים: לגבי בעיות בהיקף מוגבל יותר, כמו בעיות שמשפיעות על מיקום יחיד, על אזור או על קבוצת משנה קטנה יותר של פרויקטים, נעדכן את הלקוחות לגבי האירועים הרלוונטיים באמצעות המרכז האישי ב-Service Health. אנחנו שואפים לשקיפות מלאה, ולכן ב-Service Health אנחנו מפרסמים את כל האירועים שעשויים להיות רלוונטיים לשירותים שלכם. אם אתם צריכים פיד אירועים ממוקד יותר, Service Health מציע כלים לסינון ולשינוי של האירועים שמועברים דרך ההתראות והתהליכים האוטומטיים שלכם.

    • המלצה: כדאי להגדיר את ההתראות כך שיתמקדו רק במיקומים ובשירותים הקריטיים ביותר, או כך שהן יופעלו רק באירועים עם רלוונטיות של 'קשור' או 'מושפע'.Google Cloud כאן אפשר לראות דוגמאות לאופן הסינון וההתאמה של ההתראות.

אסטרטגיות חלופיות למקרים שבהם המרכז האישי ב-Service Health לא זמין

המרכז האישי ב-Service Health תלוי בשירותים מרכזיים, כמו ניהול זהויות והרשאות גישה (IAM) לאימות. במקרה של שיבוש חמור ונרחב, יכול להיות שהשירותים שאתם צריכים כדי להיכנס לחשבון יושפעו.

אנחנו ממליצים על אסטרטגיית חזרה למצב הקודם הבאה:

  • לגבי תהליכים ידניים: במדריכים שלכם צריכות להיות הוראות לאופרטורים לגשת ללוח הבקרהGoogle Cloud Service Health בכתובת status.cloud.google.com אם הם לא מצליחים לגשת ללוח הבקרה Personalized Service Health.

  • למערכות אוטומטיות: אפשר להשתמש ב-Service Health Status API כדי לזהות באופן פרוגרמטי אם יש בעיה במרכז האישי ב-Service Health. אם כן, המערכות שלכם יכולות לחזור להטמעת פיד ה-RSS הציבורי של CSH כדי להמשיך לקבל עדכונים אוטומטיים.