Observability for GKE

בדף הזה מוסבר איך אפשר להבין את מצב התקינות של האפליקציות ולשמור על הזמינות והאמינות שלהן.

תכונות ברירת המחדל של יכולת הצפייה

כברירת מחדל, אשכולות GKE מוגדרים לבצע את הפעולות הבאות:

התאמה אישית ושיפור של איסוף הנתונים

כברירת מחדל, GKE יוצר מאגר Logging לאחסון יומנים לכל אשכול. אתם יכולים לקבוע אילו יומנים ומדדים יישלחו מאשכול GKE אל Cloud Logging ו-Cloud Monitoring.

אפשר גם להגדיר אם להפעיל את השירות המנוהל של Google Cloud ל-Prometheus.

במקרה של אשכולות GKE Autopilot, אי אפשר להשבית את השילוב של Cloud Monitoring ו-Cloud Logging.

מדדים נוספים של יכולת צפייה

אפשר לאסוף מדדים נוספים של יכולת התבוננות באמצעות שיטות כמו:

  • מפעילים חבילת מדדים אחת או יותר של יכולת צפייה, למשל:

    • מדדים של מישור הבקרה: כדי לעקוב אחרי התקינות של רכיבי Kubernetes, המערכת אוספת מדדים של שרת ה-API של Kubernetes, של Scheduler ושל Controller Manager. המדדים האלה הם אותות שימושיים לגבי תקינות השירות, לצורך הגדרת יעדים למדידת רמת השירות (SLOs).
    • מדדי מצב של Kube: מעקב אחרי תקינות של אובייקטים של Kubernetes כמו פריסות, צמתים וקבוצות Pod.
    • מדדים של cAdvisor/Kubelet: מעקב אחרי תקינות הקונטיינרים ו-kubelet.
  • מגדירים את השירות המנוהל של Google Cloud ל-Prometheus כדי לאסוף מדדים ספציפיים מרכיבי Kubernetes. השיטה הזו שימושית אם רוצים לאסוף מדד שלא נכלל בחבילת מדדים, או אם רוצים לאסוף רק קבוצת משנה של מדדים מתוך חבילת מדדים.

מדדים של צד שלישי ומדדים שהוגדרו על ידי המשתמש

כדי לעקוב אחרי אפליקציות צד שלישי שפועלות באשכולות שלכם, כמו Postgres, ‏ MongoDB ו-Redis, אתם יכולים להשתמש בPrometheus exporters עם השירות המנוהל של Google Cloud ל-Prometheus.

אפשר גם לכתוב כלי ייצוא בהתאמה אישית כדי לעקוב אחרי אותות אחרים של תקינות וביצועים.

שימוש בנתונים שנאספו

אתם יכולים להשתמש בנתונים שאתם אוספים כדי לנתח את תקינות האפליקציה, לבצע ניפוי באגים, לפתור בעיות ולבדוק את האפליקציות בזמן הפיתוח, הפריסה והתחזוקה שלהן.

‫GKE מספק תכונות מובנות של יכולת צפייה כדי לעזור לכם להתחיל במהירות:

  • אפשר לראות את הנתונים שנאספו לגבי האשכולות ועומסי העבודה במרכזי הבקרה של יכולת התצפית ב-GKE. אתם יכולים להתאים אישית את לוחות הבקרה שמוצגים למטרות הבאות:

    • אפשר לראות מדדים מרכזיים של האשכול, כמו ניצול המעבד (CPU), ניצול הזיכרון ומספר האירועים הפתוחים.
    • אפשר לראות את האשכולות לפי התשתית, עומסי העבודה או השירותים שלהם.
    • בדיקת מרחבי שמות, צמתים, עומסי עבודה, שירותים, יחידות Pod וקונטיינרים.
    • ב-Pods ובקונטיינרים, אפשר לראות את המדדים כפונקציה של הזמן ואת הרשומות ביומן.

    אתם יכולים גם ליצור מרכזי בקרה משלכם או לייבא מרכזי בקרה של Grafana כדי להתאים אותם לצרכים שלכם.

  • אפשר לראות את הפרטים של עומסי העבודה של AI/ML ב Google Cloud מסוף, כולל משאבים כמו JobSets,‏ RayJobs,‏ PyTorchJobs ו-Deployments להסקת מסקנות.

    כניסה ל Google Cloud מסוף

  • בכרטיסייה Observability, אפשר ליצור מדיניות מומלצת להתראות כדי לקבל התראות על בעיות. מידע נוסף על התראות מופיע בסקירה הכללית על התראות.

  • יוצרים יעדי רמת שירות (SLO) כדי לעקוב אחרי יעדי הביצועים של השירות באמצעות מדדים שנאספו מ-GKE.

  • אפשר להשתמש ב-GKE playbooks כדי לפתור בעיות נפוצות כמו Pods שלא ניתן לתזמן וקונטיינרים שקורסים שוב ושוב אחרי הפעלה מחדש.

  • אתם יכולים לחקור ולנתח את הנתונים באמצעות כלים כמו Logs Explorer,‏ Metrics Explorer ו-Error Reporting.

  • כדאי לעיין ביומני הביקורת של GKE שבהם מתועדות פעילויות אדמין וגישות כחלק מיומני הביקורת של Cloud. מדיניות יומני הביקורת קובעת אילו אירועים מתועדים, והאם רשומה ביומן שייכת ליומן של פעילות אדמין או ליומן של גישה לנתונים.

תכונות אחרות

‫GKE משולב עם שירותים אחרים Google Cloud כדי לעזור לכם לעקוב אחרי האשכולות ועומסי העבודה ולנהל אותם.

תמחור

התמחור של השילוב עם Cloud Logging (כולל יומני ביקורת של Cloud),‏ Cloud Monitoring והשירות המנוהל של Google Cloud ל-Prometheus מבוסס על כמות היומנים והמדדים שנאספים. פרטים נוספים מופיעים בדף תמחור.

התכונות שמופיעות בתכונות אחרות ושמסופקות על ידי שירותים אחרים כרוכות בתמחור נפרד. Google Cloud מידע נוסף מופיע בקטע 'תמחור' בדפי התיעוד האלה.

המאמרים הבאים