Observability for GKE

בדף הזה מוסבר איך אפשר להבין את מצב התקינות של האפליקציות ולשמור על הזמינות והאמינות שלהן.

תכונות ברירת המחדל של יכולת הצפייה

כברירת מחדל, אשכולות GKE מוגדרים לבצע את הפעולות הבאות:

התאמה אישית ושיפור של איסוף הנתונים

כברירת מחדל, GKE יוצר מאגר Logging לאחסון יומנים לכל אשכול. אתם יכולים לקבוע אילו יומנים ומדדים יישלחו מאשכול GKE ל-Cloud Logging ול-Cloud Monitoring.

אפשר גם להגדיר אם להפעיל את השירות המנוהל של Google Cloud ל-Prometheus.

באשכולות GKE Autopilot, אי אפשר להשבית את השילוב של Cloud Monitoring ו-Cloud Logging.

מדדים נוספים של יכולת צפייה

כדי לאסוף מדדים נוספים של יכולת התבוננות, אפשר להפעיל חבילה אחת או יותר של מדדים של יכולת התבוננות.

  • מדדים של רמת הבקרה: כדי לעקוב אחרי תקינות הרכיבים של Kubernetes, המערכת אוספת מדדים של שרת ה-API של Kubernetes, של Scheduler ושל Controller Manager. המדדים האלה הם אותות שימושיים לגבי תקינות השירות, לצורך הגדרת יעדים למדידת רמת השירות (SLOs).
  • מדדי מצב של Kube: מעקב אחרי תקינות של אובייקטים של Kubernetes, כמו פריסות, צמתים וקבוצות Pod.
  • מדדים של cAdvisor/Kubelet: מעקב אחרי תקינות הקונטיינרים ו-kubelet.

מדדים של צד שלישי ומדדים שהוגדרו על ידי המשתמש

כדי לעקוב אחרי אפליקציות צד שלישי שפועלות באשכולות שלכם, כמו Postgres, ‏ MongoDB ו-Redis, אתם יכולים להשתמש בPrometheus exporters עם השירות המנוהל של Google Cloud ל-Prometheus.

אפשר גם לכתוב כלי ייצוא בהתאמה אישית כדי לעקוב אחרי אותות אחרים של תקינות וביצועים.

שימוש בנתונים שנאספו

אתם יכולים להשתמש בנתונים שאתם אוספים כדי לנתח את תקינות האפליקציה, לבצע ניפוי באגים, לפתור בעיות ולבדוק את האפליקציות בזמן הפיתוח, הפריסה והתחזוקה שלהן.

‫GKE מספק תכונות מובנות של יכולת צפייה, כדי שתוכלו להתחיל במהירות:

  • אפשר לראות את הנתונים שנאספו לגבי האשכולות ועומסי העבודה במרכזי הבקרה של GKE. אתם יכולים להתאים אישית את לוחות הבקרה שסופקו למטרות הבאות:

    • אתם יכולים לראות מדדים מרכזיים של האשכול, כמו ניצול המעבד (CPU), ניצול הזיכרון ומספר האירועים הפתוחים.
    • אפשר לראות את האשכולות לפי התשתית, עומסי העבודה או השירותים שלהם.
    • בדיקת מרחבי שמות, צמתים, עומסי עבודה, שירותים, פודים וקונטיינרים.
    • ב-Pods ובקונטיינרים, אפשר לראות את המדדים כפונקציה של הזמן ואת הרשומות ביומן.

    אתם יכולים גם ליצור מרכזי בקרה משלכם או לייבא מרכזי בקרה של Grafana כדי להתאים אותם לצרכים שלכם.

  • אפשר לראות את הפרטים של עומסי העבודה של AI/ML ב Google Cloud מסוף, כולל משאבים כמו JobSets,‏ RayJobs,‏ PyTorchJobs ו-Deployments להסקת מסקנות.

    כניסה ל Google Cloud מסוף

  • בכרטיסייה Observability (יכולת צפייה), אפשר ליצור מדיניות מומלצת להתראות כדי לקבל התראות על בעיות. מידע נוסף על התראות מופיע בסקירה הכללית על התראות.

  • יוצרים יעדי רמת שירות (SLO) כדי לעקוב אחרי יעדי הביצועים של השירות באמצעות מדדים שנאספו מ-GKE.

  • אפשר להשתמש ב-Playbooks של GKE כדי לפתור בעיות נפוצות כמו Pods שלא ניתן לתזמן וקונטיינרים שקורסים שוב ושוב אחרי הפעלה מחדש.

  • אפשר לחקור ולנתח את הנתונים באמצעות כלים כמו Logs Explorer,‏ Metrics Explorer ו-Error Reporting.

  • כדאי לעיין ביומני הביקורת של GKE שבהם מתועדות פעילויות אדמין וגישות כחלק מיומני הביקורת של Cloud. מדיניות יומני הביקורת קובעת אילו אירועים מתועדים והאם רשומה ביומן שייכת ליומן פעילות אדמין או ליומן גישה לנתונים.

תכונות אחרות

‫GKE משולב עם שירותים אחרים Google Cloud כדי לעזור לכם לעקוב אחרי האשכולות ועומסי העבודה ולנהל אותם.

תמחור

התמחור של השילוב עם Cloud Logging (כולל יומני ביקורת של Cloud),‏ Cloud Monitoring והשירות המנוהל של Google Cloud ל-Prometheus מבוסס על כמות היומנים והמדדים שנאספים. פרטים נוספים מופיעים בדף תמחור.

התכונות שניתנות על ידי שירותים אחרים שמפורטים בקטע תכונות אחרות כרוכות בתמחור נפרד. Google Cloud מידע נוסף מופיע בקטע 'תמחור' בדפי התיעוד האלה.

המאמרים הבאים