אבחון בעיות באשכול

התכונה 'בדיקת תקינות' מנטרת באופן קבוע את התקינות של מישור הבקרה של האשכול וכמה רכיבים קריטיים, ועוזרת לכם לזהות ולאבחן בעיות פוטנציאליות באשכולות.

לקבלת עזרה נוספת, אפשר לפנות אל Cloud Customer Care.

בעיות שזוהו

בודק תקינות האשכול מזהה את הבעיות הבאות באשכול ומתריע עליהן:

  • התקינות של kube-scheduler בצמתים של רמת הבקרה: אם kube-scheduler לא תקין, יכול להיות שיש בעיה בהקצאת Pods לצמתים באשכול. כדי לבדוק את הבעיה לעומק, אפשר לעיין ביומן של kube-scheduler Pod.

  • התקינות של kube-controller-manager בצמתים של מישור הבקרה: kube-controller-manager עוקב אחרי בקרי שונים, כמו ReplicaSet,‏ Deployment ו-Namespace, ועוד. אם המצב של kube-controller-manager הוא unhealthy, יכול להיות שאחד או יותר מהבקרים שהוא מנהל לא פועלים בצורה תקינה. כדי לזהות את הבעיה המדויקת, אפשר לבדוק את יומן הרישום של kube-controller-manager Pod, שעשוי לספק מידע נוסף על הבקרים שלא פועלים.

  • קיבולת של נפח האחסון הבסיסי: בודק התקינות בודק אם יש קיבולת מספקת בנפח האחסון הבסיסי של כל צומת במישור הבקרה. אם הנפח הפנוי קטן מ-512MB, כלי הבדיקה יתריע על הסיכון הפוטנציאלי של חוסר מקום בכונן.

צפייה באירועים של בדיקת תקינות

כדי להציג התראות מכלי הבדיקה של תקינות האשכול עבור אשכול ספציפי, מריצים את הפקודה הבאה:

gcloud container aws clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

מחליפים את מה שכתוב בשדות הבאים:

  • CLUSTER_NAME: השם של האשכול
  • GOOGLE_CLOUD_LOCATION: השם של המיקום שממנו מנוהל האשכול Google Cloud

הנה קטע מהפלט שצפוי להתקבל:

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

בדוגמה הזו, הודעת השגיאה מציינת שרכיב kube-controller-manager לא תקין, ושהקיבולת של נפח הבסיס של צומת מישור הבקרה נמוכה.

המאמרים הבאים

לקבלת עזרה נוספת, אפשר לפנות אל Cloud Customer Care.