Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הגדרת איסוף מדדים

טייס אוטומטי רגילה

במאמר הזה מוסבר איך להגדיר את Google Kubernetes Engine‏ (GKE) כדי לשלוח מדדים אל Cloud Monitoring. אפשר להשתמש במדדים ב-Cloud Monitoring כדי לאכלס לוחות בקרה בהתאמה אישית, ליצור התראות, ליצור יעדים ברמת השירות או לאחזר אותם באמצעות Cloud Monitoring API בשירותי מעקב של צד שלישי.

‫GKE מספק כמה מקורות של מדדים:

מדדי מערכת: מדדים מרכיבי מערכת חיוניים, שמתארים משאבים ברמה נמוכה כמו מעבד (CPU), זיכרון ואחסון.
‫השירות המנוהל של Google Cloud ל-Prometheus: מאפשר לכם לעקוב אחרי עומסי העבודה ולקבל התראות לגביהם באמצעות Prometheus, בלי שתצטרכו לנהל ולהפעיל את Prometheus באופן ידני בהיקף גדול.
חבילות של מדדי ניראות:
- מדדים של מישור הבקרה: מדדים שמיוצאים מרכיבים מסוימים של מישור הבקרה, כמו שרת ה-API והמתזמן.
- ‫Kube state metrics: קבוצה נבחרת של מדדים שמיוצאים משירות kube state, ומשמשים למעקב אחרי הסטטוס של אובייקטים ב-Kubernetes כמו Pods,‏ Deployments ועוד. במאמר שימוש במדדי מצב של kube מפורטים המדדים שכלולים.
  
  חבילת kube state היא פתרון מנוהל. אם אתם צריכים גמישות רבה יותר – למשל, אם אתם צריכים לאסוף מדדים נוספים, או לנהל את מרווחי הגירוד או לגרד משאבים אחרים – אתם יכולים להשבית את החבילה, אם היא מופעלת, ולפרוס מופע משלכם של שירות מדדי מצב kube בקוד פתוח. מידע נוסף זמין במסמכי התיעוד של השירות המנוהל של Google Cloud ל-Prometheus בנושא מדדי מצב של Kube.
- ‫cAdvisor/Kubelet: קבוצה נבחרת של מדדי cAdvisor ו-kubelet. במאמר שימוש במדדי cAdvisor/Kubelet מפורטים המדדים שכלולים.
  
  חבילת cAdvisor/Kubelet היא פתרון מנוהל. אם אתם צריכים גמישות רבה יותר – למשל, אם אתם צריכים לאסוף מדדים נוספים, לנהל מרווחי גירוד או לגרד משאבים אחרים – אתם יכולים להשבית את החבילה, אם היא מופעלת, ולפרוס מופע משלכם של שירותי המדדים cAdvisor/Kubelet בקוד פתוח.
- מדדים של NVIDIA Data Center GPU Manager ‏ (DCGM): מדדים מ-DCGM שמספקים תצוגה מקיפה של תקינות, ביצועים וניצול של GPU.
מדדי Kubernetes: מדדים גולמיים בפורמט Prometheus שמופקים מרכיבי Kubernetes וזמינים בנקודות הקצה /metrics של הרכיבים האלה. חבילות המדדים שאספנו עבור GKE הן קבוצת משנה של המדדים האלה. אתם יכולים להגדיר את השירות המנוהל של Google Cloud ל-Prometheus כך שיקבל את המדדים האלה באמצעות משאבים מותאמים אישית כמו PodMonitoring ו-ClusterNodeMonitoring. מידע נוסף זמין במאמר איסוף מדדים ספציפיים של Prometheus מ-Kubernetes.

אפשר גם להגדיר מעקב אוטומטי אחרי אפליקציות עבור עומסי עבודה מסוימים.

מדדי מערכת

כשיוצרים אשכול, מערכת GKE אוספת כברירת מחדל מדדים מסוימים שמופקים מרכיבי המערכת.

אתם יכולים לבחור אם לשלוח מדדים מאשכול GKE ל-Cloud Monitoring. אם בוחרים לשלוח מדדים ל-Cloud Monitoring, צריך לשלוח מדדים של המערכת.

כל מדדי המערכת של GKE מוזנים ל-Cloud Monitoring עם הקידומת kubernetes.io.

תמחור

ב-Cloud Monitoring לא גובים תשלום על הטמעה של מדדי מערכת GKE. מידע נוסף זמין במאמר בנושא תמחור של Cloud Monitoring.

הגדרת איסוף של מדדים מהמערכת

כדי להפעיל את איסוף מדדי המערכת, מעבירים את הערך SYSTEM לדגל --monitoring של הפקודות gcloud container clusters create או gcloud container clusters update.

כדי להשבית את איסוף מדדי המערכת, משתמשים בערך NONE עבור הדגל --monitoring. אם השבתתם את איסוף מדדי המערכת, לא תוכלו לראות מידע בסיסי כמו שימוש במעבד, שימוש בזיכרון ושימוש בדיסק עבור אשכול כשאתם צופים במדדי יכולת הצפייה.

באשכולות GKE Autopilot, אי אפשר להשבית את האיסוף של מדדי המערכת.

פרטים נוספים על השילוב של Cloud Monitoring עם GKE זמינים במאמר יכולות ניהול נתונים (Observability) ב-GKE.

כדי להגדיר את איסוף מדדי המערכת באמצעות Terraform, אפשר לעיין בבלוק monitoring_config ב מאגר Terraform עבור google_container_cluster. מידע כללי על שימוש ב- Google Cloud עם Terraform זמין במאמר Terraform עם Google Cloud.

רשימת מדדים של המערכת

מדדי המערכת כוללים מדדים מרכיבי מערכת חיוניים שחשובים ל-Kubernetes. רשימת המדדים האלה מופיעה במאמר מדדי מערכת של GKE.

אם מפעילים את Cloud Monitoring באשכול, אי אפשר להשבית את ניטור המערכת (--monitoring=SYSTEM).

פתרון בעיות במדדי מערכת

אם מדדי המערכת לא זמינים ב-Cloud Monitoring כמו שציפיתם, כדאי לעיין במאמר בנושא פתרון בעיות שקשורות למדדי מערכת.

חבילה: מדדים של מישור הבקרה

אפשר להגדיר אשכול GKE לשליחת מדדים מסוימים שמופקים על ידי שרת Kubernetes API,‏ Scheduler ו-Controller Manager אל Cloud Monitoring.

מידע נוסף זמין במאמר בנושא איסוף מדדים של מישור הבקרה והצגתם.

חבילה: Kube state metrics

אפשר להגדיר אשכול GKE לשליחת קבוצה נבחרת של מדדי מצב kube בפורמט Prometheus אל Cloud Monitoring. חבילת המדדים של kube state כוללת מדדים של Pods,‏ Deployments,‏ StatefulSets,‏ DaemonSets,‏ HorizontalPodAutoscaler resources,‏ Persistent Volumes,‏ Persistent Volume Claims ו-JobSets.

מידע נוסף זמין במאמר איסוף וצפייה במדדים של מצב Kube.

חבילה: מדדים של cAdvisor/Kubelet

אתם יכולים להגדיר אשכול GKE כך שישלח ל-Cloud Monitoring קבוצה נבחרת של מדדי cAdvisor/Kubelet בפורמט Prometheus. קבוצת המדדים שנבחרה היא קבוצת משנה של קבוצת המדדים הגדולה של cAdvisor/Kubelet, שמוטמעת בכל פריסת Kubernetes כברירת מחדל. הגרסה המותאמת של cAdvisor/Kubelet נועדה לספק את המדדים הכי שימושיים, וכך לצמצם את נפח ההטמעה ואת העלויות הנלוות.

מידע נוסף זמין במאמר איך אוספים וצופים במדדים של cAdvisor/Kubelet.

חבילה: מדדים של NVIDIA Data Center GPU Manager‏ (DCGM)

אתם יכולים לעקוב אחרי השימוש ב-GPU, הביצועים והתקינות שלו על ידי הגדרת GKE לשליחת מדדים של NVIDIA Data Center GPU Manager (DCGM) אל Cloud Monitoring.

מידע נוסף זמין במאמר בנושא איסוף מדדים של NVIDIA Data Center GPU Manager (DCGM) והצגתם.

השבתת חבילות מדדים

אפשר להשבית את השימוש בחבילות מדדים באשכול. יכול להיות שתרצו להשבית חבילות מסוימות כדי להפחית עלויות, או אם אתם משתמשים במנגנון חלופי לאיסוף המדדים, כמו שירות מנוהל של Google Cloud ל-Prometheus ו-exporter.

המסוף

כדי להשבית את איסוף המדדים מהכרטיסייה פרטים באשכול:

נכנסים לדף Kubernetes clusters במסוף Google Cloud .
כניסה אל Kubernetes clusters

אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שכותרת המשנה שלה היא Kubernetes Engine.
לוחצים על שם האשכול.
בשורה Features (תכונות) עם התווית Cloud Monitoring, לוחצים על סמל העריכה.
בתפריט הנפתח רכיבים, מבטלים את הסימון של רכיבי המדד שרוצים להשבית.
לוחצים על OK.
לוחצים על שמירת השינויים.

gcloud

פותחים חלון טרמינל עם Google Cloud SDK ו-Google Cloud CLI מותקנים. אחת הדרכים לעשות זאת היא באמצעות Cloud Shell.
במסוף Google Cloud , מפעילים את Cloud Shell.

הפעלת Cloud Shell

בחלק התחתון של Google Cloud המסוף יתחיל סשן של Cloud Shell ותופיע הודעה של שורת הפקודה. Cloud Shell היא סביבת מעטפת שבה ה-CLI של Google Cloud מותקן ומוגדרים ערכים לפרויקט הקיים. הסשן יופעל תוך כמה שניות.
מפעילים את הפקודה gcloud container clusters update ומעבירים קבוצה מעודכנת של ערכים לסימן --monitoring. קבוצת הערכים שמועברת אל הדגל --monitoring מחליפה כל הגדרה קודמת.

לדוגמה, כדי להשבית את איסוף כל המדדים מלבד מדדי המערכת, מריצים את הפקודה הבאה:
```
gcloud container clusters update CLUSTER_NAME \
    --location=COMPUTE_LOCATION \
    --enable-managed-prometheus \
    --monitoring=SYSTEM
```
הפקודה הזו משביתה את האיסוף של כל חבילות המדדים שהוגדרו קודם.

Terraform

כדי להגדיר את איסוף המדדים באמצעות Terraform, אפשר לעיין בבלוק monitoring_config במאגר google_container_cluster של Terraform. מידע כללי על שימוש ב- Google Cloud עם Terraform זמין במאמר Terraform עם Google Cloud.

הסבר על החיוב ב-Monitoring

אפשר להשתמש ב-Cloud Monitoring כדי לזהות את מדדי מישור הבקרה או מצב ה-kube שכותבים את המספרים הגדולים ביותר של דגימות. המדדים האלה תורמים הכי הרבה לעלויות שלכם. אחרי שתזהו את המדדים הכי יקרים, תוכלו לשנות את הגדרות הסקריפינג כדי לסנן את המדדים האלה בצורה מתאימה.

בדף Metrics Management ב-Cloud Monitoring מופיע מידע שיכול לעזור לכם לשלוט בסכום שאתם מוציאים על מדדים שניתנים לחיוב, בלי להשפיע על יכולת הצפייה. בדף Metrics Management מופיע המידע הבא:

נפחי ההטמעה לחיוב על בסיס בייט ועל בסיס דגימה, בדומיינים של מדדים ובמדדים נפרדים.
נתונים על תוויות ועוצמה של מדדים.
מספר הקריאות לכל מדד.
שימוש במדדים במדיניות התראות ובמרכזי בקרה בהתאמה אישית.
שיעור השגיאות בכתיבת מדדים.

אפשר גם להשתמש בדף ניהול מדדים כדי להחריג מדדים לא נחוצים, וכך לבטל את העלות של ההטמעה שלהם.

כדי להציג את הדף ניהול מדדים:

נכנסים לדף Metrics management במסוף Google Cloud :
נכנסים אל ניהול מדדים.

אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שבה הכותרת המשנית היא Monitoring.
בסרגל הכלים, בוחרים את חלון הזמן. כברירת מחדל, בדף ניהול מדדים מוצג מידע על המדדים שנאספו ביום הקודם.

מידע נוסף על הדף ניהול מדדים זמין במאמר איך רואים את השימוש במדדים ומנהלים אותו.

כדי לזהות אילו מדדים של מישור הבקרה או של מצב ה-kube מכילים את המספר הגדול ביותר של דגימות שנבלעות, מבצעים את הפעולות הבאות:

נכנסים לדף Metrics management במסוף Google Cloud :
נכנסים אל ניהול מדדים.

אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שבה הכותרת המשנית היא Monitoring.
בכרטיס המידע דוגמאות שחויבו על העיבוד שלהן, לוחצים על הצגת תרשימים.
מחפשים את התרשים Namespace Volume Ingestion ולוחצים על More chart options (אפשרויות נוספות לתרשים).
בשדה Metric, מוודאים שסוג המשאב והמדד הבאים נבחרו:
Metric Ingestion Attribution ו-Samples written by attribution id.
בדף Filters, מבצעים את הפעולות הבאות:
1. בשדה Label, מוודאים שהערך הוא attribution_dimension.
2. בשדה השוואה, מוודאים שהערך הוא = (equals).
3. בשדה ערך, בוחרים באפשרות cluster.
מנקים את ההגדרה קיבוץ לפי.
אפשר גם לסנן רק מדדים מסוימים. לדוגמה, כל המדדים של שרת ה-API של מישור הבקרה כוללים את המחרוזת apiserver כחלק משם המדד, וכל המדדים של kube state Pod כוללים את המחרוזת kube_pod כחלק משם המדד. לכן, אפשר לסנן את המדדים שמכילים את המחרוזות האלה:
- לוחצים על הוספת מסנן.
- בשדה Label, בוחרים באפשרות metric_type.
- בשדה השוואה, בוחרים באפשרות =~ (equals regex).
- בשדה ערך, מזינים .*apiserver.* או .*kube_pod.*.
אפשר גם לקבץ את מספר הדגימות שנקלטו לפי אזור GKE או פרויקט:
- לוחצים על Group by (קיבוץ לפי).
- מוודאים שהאפשרות metric_type נבחרה.
- כדי לקבץ לפי אזור GKE, בוחרים באפשרות מיקום.
- כדי לקבץ לפי פרויקט, בוחרים באפשרות project_id.
- לוחצים על OK.
אופציונלי: אפשר לקבץ את מספר הדגימות שהועברו לפי שם אשכול GKE:
- לוחצים על Group by (קיבוץ לפי).
- כדי לקבץ לפי שם אשכול GKE, מוודאים שגם attribution_dimension וגם attribution_id מסומנים.
- לוחצים על OK.
כדי לראות את נפח ההטמעה של כל אחד מהמדדים, במתג עם התווית Chart Table Both, בוחרים באפשרות Both. בעמודה Value בטבלה מוצג נפח הנתונים שהמערכת קלטה לכל מדד.

לוחצים פעמיים על כותרת העמודה ערך כדי למיין את המדדים לפי נפח נתונים יורד.

בשלבים האלה מוצגים המדדים עם שיעור הדגימות הגבוה ביותר שנקלטו ב-Cloud Monitoring. החיוב על המדדים בחבילות ה-Observability הוא לפי מספר הדגימות שנקלטו, לכן חשוב לשים לב למדדים עם שיעור הקליטה הגבוה ביותר של דגימות.

מדדים אחרים

בנוסף למדדי המערכת וחבילות המדדים שמתוארים במסמך הזה, מדדי Istio זמינים גם עבור אשכולות GKE. למידע על מחירים, אפשר לעיין במחירון של Cloud Monitoring.

מדדים זמינים

בטבלה הבאה מפורטים הערכים הנתמכים של האפשרות --monitoring לפקודות create ו-update.

מקור	ערך `--monitoring`	מדדים שנאספים
ללא	`NONE`	לא נשלחו מדדים ל-Cloud Monitoring; לא הותקן באשכול סוכן לאיסוף מדדים. הערך הזה לא נתמך באשכולות של Autopilot.
מערכת	`SYSTEM`	מדדים מרכיבי מערכת חיוניים שנדרשים ל-Kubernetes. לרשימה מלאה של המדדים
שרת API	`API_SERVER`	מדדים מ-`kube-apiserver`. רשימה מלאה של המדדים מופיעה במאמר בנושא מדדים של שרת API.
מתזמן	`SCHEDULER`	מדדים מ-`kube-scheduler`. רשימה מלאה של המדדים מופיעה במאמר מדדים של כלי התזמון.
Controller Manager	`CONTROLLER_MANAGER`	מדדים מ-`kube-controller-manager`. רשימה מלאה של המדדים מופיעה במאמר מדדים של Controller Manager.
נפח אחסון מתמיד (אחסון)	`STORAGE`	מדדי אחסון מ-`kube-state-metrics`. כולל מדדים של נפח אחסון מתמיד ודרישות נפח אחסון מתמיד. רשימה מלאה של המדדים מופיעה במאמר מדדי אחסון.
Pod	`POD`	מדדי פודים מ-`kube-state-metrics`. רשימה מלאה של המדדים זמינה במאמר בנושא מדדי Pod.
Deployment	`DEPLOYMENT`	מדדי פריסה מ-`kube-state-metrics`. רשימה מלאה של המדדים מופיעה במאמר בנושא מדדי פריסה.
StatefulSet	`STATEFULSET`	מדדים של StatefulSet מ-`kube-state-metrics`. רשימה מלאה של המדדים זמינה במאמר StatefulSet metrics.
DaemonSet	`DAEMONSET`	מדדים של DaemonSet מ-`kube-state-metrics`. רשימה מלאה של המדדים מופיעה במאמר בנושא מדדים של DaemonSet.
HorizontalPodAutoscaler	`HPA`	מדדי HPA מ-`kube-state-metrics`. רשימה מלאה של מדדים של HorizontalPodAutoscaler
JobSet	`JOBSET`	מדדים של JobSet מ-`kube-state-metrics`. רשימה מלאה של מדדי JobSet
cAdvisor	`CADVISOR`	מדדי cAdvisor מחבילת המדדים cAdvisor/Kubelet. רשימה מלאה של המדדים מופיעה במאמר בנושא מדדי cAdvisor.
`kubelet`	`KUBELET`	`kubelet` מדדים מ-cAdvisor/Kubelet רשימה מלאה של המדדים זמינה במאמר בנושא `kubelet` מדדים.
מדדים של NVIDIA Data Center GPU Manager (DCGM)	`DCGM`	מדדים מ-NVIDIA Data Center GPU Manager‏ (DCGM).

אפשר גם לאסוף מדדים בסגנון Prometheus שנחשפים על ידי עומסי עבודה של GKE באמצעות השירות המנוהל של Google Cloud ל-Prometheus. השירות הזה מאפשר לכם לנטר את עומסי העבודה ולקבל התראות לגביהם באמצעות Prometheus, בלי שתצטרכו לנהל ולהפעיל את Prometheus באופן ידני בהיקף גדול.