Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

פתרון בעיות בהגדרות אישיות של ComputeClass

טייס אוטומטי רגילה

המסמך הזה עוזר לפתור בעיות שבהן עומסי עבודה של GKE לא מתוזמנים בצמתים שמוגדרים על ידי ComputeClass מותאם אישית, או כשמידרוג אוטומטי של האשכול לא מקצה את סוגי המכונות הצפויים.

המסמך הזה מיועד למפתחי אפליקציות ולאדמינים ומפעילים של פלטפורמות שמשתמשים ב-ComputeClasses בהתאמה אישית כדי לנהל את תזמון עומסי העבודה ואת היצירה האוטומטית של מאגרי צמתים ב-GKE. מידע נוסף על התפקידים הנפוצים ומשימות לדוגמה שמוזכרים ב Google Cloud תוכן זמין במאמר תפקידים נפוצים של משתמשי GKE ומשימות.

מושגים מרכזיים

כדי לעזור לכם לפתור בעיות, חשוב שתכירו את הרכיבים והמנגנונים הבאים של GKE:

‫Custom ComputeClass: משאב ספציפי ל-GKE שמאפשר להגדיר רשימה מתועדפת של הגדרות צומת לצורך התאמה אוטומטית לעומס. מידע נוסף זמין במאמר בנושא מידע על ComputeClasses בהתאמה אישית.
התאמה אוטומטית של גודל האשכול (Cluster autoscaler): הרכיב שמוסיף או מסיר צמתים באשכול באופן אוטומטי בהתאם לביקוש לעומס העבודה. מידע נוסף זמין במאמר מידע על שינוי גודל אוטומטי של אשכול GKE.
יצירה אוטומטית של מאגר צמתים: כלי המידרוג האוטומטי של אשכול GKE יוצר ומנהל מאגרי צמתים באופן אוטומטי על סמך דרישות עומס העבודה. מידע נוסף מופיע במאמר בנושא יצירה אוטומטית של מאגרי צמתים.
לוגיקה של חזרה למצב קודם: המנגנון שבו המידרוג האוטומטי של האשכולות מנסה להקצות קודם צמתים שתואמים לכלל עם העדיפות הכי גבוהה. מידע נוסף זמין במאמר בחירת עדיפויות לגיבוי של משאבי מחשוב.

במסמך הזה מפורטים שלבים לפתרון בעיות לפי סדר, החל מבדיקות בסיסיות ועד להגדרות מתקדמות יותר. כדי לקבל אבחון מקיף יותר, מומלץ לבצע את השלבים האלה לפי הסדר. לחלופין, אם נתקלתם בבעיות ספציפיות, תוכלו להיעזר בקישורים הרלוונטיים בטבלה הבאה:

תיאור הבעיה	שלבים לפתרון בעיות
בקשת Pod ל-ComputeClass בהתאמה אישית תקועה במצב `Pending`	ביצוע בדיקות אבחון בסיסיות בדיקת מגבלות התזמון של ה-Pod הגדרת מאגר צמתים (עבור אשכולות רגילים)
המידרוג האוטומטי של האשכול לא יוצר צמתים חדשים שתואמים ל-ComputeClass בהתאמה אישית	אימות של הגדרות מותאמות אישית של ComputeClass אימות ההגדרה של יצירה אוטומטית של מאגר צמתים
מידרוג אוטומטי של אשכולות יוצר סוגי מכונות שמוגדרים כברירת מחדל במקום סוגים מיוחדים	ניתוח התנהגות של מעבר חזרה של קנה מידה אוטומטי
הפלט מהפקודה `kubectl describe computeclass` מציג סטטוס לא תקין	אימות של הגדרות מותאמות אישית של ComputeClass
עומסי העבודה לא מועברים לצמתים עם עדיפות גבוהה יותר	אימות תקינות כללית של המידרוג האוטומטי באשכול
יש בעיות בתזמון של עומסי עבודה של מכונות וירטואליות עם GPU או מכונות וירטואליות מסוג Spot	בדיקת מגבלות התזמון של ה-Pod אימות ההגדרה של מכונות וירטואליות עם GPU או מכונות וירטואליות מסוג Spot ניתוח התנהגות של מעבר חזרה של קנה מידה אוטומטי

בעיות שלא נכללות בהיקף

המסמך הזה לא מתייחס לבעיות הבאות:

בעיות כלליות ברשת GKE, כמו קישוריות בין פודים או איזון עומסים בשירות.
בעיות שקשורות ל-Horizontal Pod Autoscaler‏ (HPA) או ל-Vertical Pod Autoscaler‏ (VPA).
בעיות שלא קשורות למנגנון ComputeClass בהתאמה אישית, כמו שגיאות ברמת האפליקציה או בעיות ב-PersistentVolume שלא קשורות למגבלות התזמון.
בעיות במכסת המשאבים או בזמינות המשאבים שלא קשורות ישירות ללוגיקת החזרה (fallback) של ComputeClass.

זיהוי משתני placeholder

כדי להתאים אישית את הפקודות במסמך הזה, מזינים את הערכים הספציפיים בעמודה Variable. הערכים שערכתם מסונכרנים אוטומטית בכל בלוקי הקוד והפקודות.

משתנה	תיאור
`PROJECT_ID`	מזהה הפרויקט ב- Google Cloud .
`LOCATION`	האזור או התחום (zone) של Compute Engine שבו נמצא האשכול.
`CLUSTER_NAME`	השם של האשכול.
`NODE_POOL_NAME`	השם של מאגר הצמתים שרוצים לבדוק (אם רלוונטי לאשכולות Standard).
`CUSTOM_COMPUTECLASS_NAME`	השם של ComputeClass מותאם אישית שה-Pod מבקש.
`NAMESPACE`	מרחב השמות של ה-Pod שלא ניתן לתזמן.
`POD_NAME`	השם של ה-Pod שלא ניתן לתזמן.

לפני שמתחילים

כדי לקבל את ההרשאות שדרושות לביצוע המשימות שמתוארות במסמך הזה, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט Google Cloud :

כדי לגשת לאשכולות GKE: Kubernetes Engine Cluster Viewer (roles/container.viewer).
כדי לצפות ביומנים: מציג היומנים (roles/logging.viewer).
כדי לנהל אשכולות GKE: אדמין Kubernetes Engine ‏ (roles/container.admin).

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

כדי להגדיר את kubectl לתקשורת עם האשכול, מריצים את הפקודה הבאה:

  gcloud container clusters get-credentials CLUSTER_NAME
      --location LOCATION
      --project PROJECT_ID

ביצוע בדיקות אבחון בסיסיות

מוודאים שרכיבי הליבה מוגדרים בצורה נכונה ושהאשכול תומך ב-ComputeClasses בהתאמה אישית.

אימות הסטטוס והסלקטור של ה-Pod

מוודאים שה-Pod במצב Pending ושבקשת ה-ComputeClass המותאם אישית מתבצעת בצורה תקינה.

רשימת ה-Pods במצב Pending:

kubectl get pods --all-namespaces -o wide | grep Pending

בודקים את המפרט של ה-Pod בשדה nodeSelector:

kubectl get pod POD_NAME
    -n NAMESPACE
    -o jsonpath='{.spec.nodeSelector}'

הערכת התוצאה

התוצאה מציגה את התווית: השדה nodeSelector מוגדר בצורה נכונה עם התווית cloud.google.com/compute-class.
התווית לא מופיעה בפלט:
- הסבר: יכול להיות שהשדה nodeSelector של התווית cloud.google.com/compute-class בהגדרת הפריסה של עומס העבודה שגוי או חסר.
- פתרון: משנים את קובץ ה-YAML של עומס העבודה, כמו Deployment או Job, כך שיכלול את השדה nodeSelector בקטע spec.template.spec.

אימות התאימות של גרסת האשכול

כדי להשתמש ב-ComputeClasses מותאמים אישית, צריך להשתמש בגרסה ‎1.30.3-gke.1451000 ואילך של GKE. מוודאים שהגרסה של האשכול תומכת ב-ComputeClasses בהתאמה אישית.

בודקים את גרסת האשכול:

gcloud container clusters describe CLUSTER_NAME
    --location LOCATION
    --format="value(currentMasterVersion)"

הערכת התוצאה

גרסה 1.30.3-gke.1451000 ואילך: גרסת האשכול תומכת ב-ComputeClasses בהתאמה אישית.
גרסה מוקדמת יותר מ-1.30.3-gke.1451000:
- הסבר: לא בוצע שדרוג של האשכול לגרסה שתומכת ב-ComputeClasses מותאמים אישית.
- רזולוציה: כדי להשתמש ב-ComputeClasses מותאמים אישית, צריך לשדרג את האשכול.

אימות של הגדרות מותאמות אישית של ComputeClass

הגדרות שגויות במשאב ComputeClass בהתאמה אישית יכולות למנוע תזמון של פודים או הקצאה של צמתים ב-GKE.

בדיקת התקינות והסטטוס של ComputeClass

מוודאים ש-GKE מדווח על ComputeClass בהתאמה אישית כעל תקין.

הצגת רשימה של כל המשאבים של ComputeClass:
```
kubectl get computeclass
```

מתארים את משאב ComputeClass הספציפי:

kubectl describe computeclass CUSTOM_COMPUTECLASS_NAME

הערכת התוצאה

סטטוס התקינות מראה True: שה-ComputeClass בהתאמה אישית תקין. דוגמה ל-ComputeClass תקין בהתאמה אישית:

Status:
  Conditions:
    Last Transition Time:  2024-01-19T17:18:48Z
    Message:               CCC is healthy.
    Reason:                Health
    Status:                True
    Type:                  Health

סטטוס הבריאות מציג False:
- פירוש: ה-ComputeClass המותאם אישית לא תקין. בודקים את השדות Message ו-Reason בפלט כדי לזהות את הבעיה.
- פתרון: צריך לבצע את הפעולה שמתאימה לשדה Reason בפלט:
  - ‫NodePoolNotExist: מוודאים שמאגר הצמתים שאליו יש הפניה קיים, או מעדכנים את ComputeClass כך שתהיה הפניה למאגר צמתים קיים.
  - ‫ReservationUnusable: בדיקת ההגדרה והשימוש בהזמנה שאליה יש הפניה.
  - ‫Invalid machine type: צריך לעדכן את ComputeClass כדי להשתמש בסוג מכונה שנתמך באזור או באזור הזמין של האשכול.

אימות המדיניות של `unsatisfiable`

השדה whenUnsatisfiable קובע את ההתנהגות כשאי אפשר לעמוד בכללי העדיפות.

בודקים את המדיניות:

kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yaml

בודקים את השדה spec.whenUnsatisfiable בפלט. השדה הזה יכול לקבל אחד מהערכים הבאים:

‫DoNotScaleUp: אם אי אפשר ליצור צמתים מועדפים, הרצפים נשארים במצב Pending.
‫ScaleUpAnyway: יכול להיות שפודים יפעלו על סוגי צמתים שמוגדרים כברירת מחדל (כמו סדרת E2) אם הצמתים המועדפים לא זמינים.

הערכת התוצאה

ההשפעה של המדיניות whenUnsatisfiable תלויה בערך שלה:

אם הערך הוא DoNotScaleUp:
- הסבר: זו התנהגות צפויה כשאין כללי עדיפות שאפשר לעמוד בהם, יכול להיות בגלל חוסר זמינות של משאבים או מגבלות מכסה. אם הפודים צריכים לחכות לחומרה ספציפית, הערך הזה נכון.
- פתרון: אם הפעלת עומס העבודה חשובה יותר מהפעלה בחומרה ספציפית, משנים את המדיניות ל-ScaleUpAnyway.
אם הערך הוא ScaleUpAnyway:
- הסבר: זו התנהגות צפויה. מערכת GKE חוזרת לסוגי צמתים שמוגדרים כברירת מחדל כי הצמתים המועדפים לא זמינים.
- פתרון: אם אסור להפעיל Pods בסוגי צמתים שמוגדרים כברירת מחדל, צריך לשנות את המדיניות ל-DoNotScaleUp.
התנהגות ברירת המחדל: אם לא ציינתם ערך לשדה whenUnsatisfiable ואתם משתמשים בגרסה של GKE מוקדמת יותר מ-1.33, ברירת המחדל של המדיניות היא ScaleUpAnyway.

בדוגמה הבאה אפשר לראות איך לעדכן את המדיניות על ידי עריכת השדה whenUnsatisfiable במניפסט של ComputeClass:

apiVersion: cloud.google.com/v1
kind: ComputeClass
metadata:
  name: CUSTOM_COMPUTECLASS_NAME
spec:
  # ... other fields
  whenUnsatisfiable: DoNotScaleUp # or ScaleUpAnyway

בדיקת מגבלות התזמון של הפוד

מוודאים שמפרט ה-Pod תואם למאפיינים של הצמתים שהוקצו על ידי ComputeClass בהתאמה אישית.

אימות בקשות למשאבי Pod

בודקים אם אפשר לספק את בקשות המעבד, הזיכרון וה-GPU של ה-Pod לפחות על ידי אחד מסוגי המכונות שמוגדרים בשדה priorities של ה-ComputeClass המותאם אישית.

קבלת בקשות למשאבי Pod:
```
kubectl get pod POD_NAME
    -n NAMESPACE
    -o jsonpath='{.spec.containers[*].resources.requests}'
```
בודקים את הפלט כדי לראות את הבקשות של cpu, memory ו-GPU, כמו nvidia.com/gpu.
משווים בין הבקשות האלה לבין סוגי המכונות שמוגדרים בשדה priorities של ComputeClass בהתאמה אישית:
```
kubectl get computeclass CUSTOM_COMPUTECLASS_NAME
    -o jsonpath='{.spec.priorities}'
```
בודקים את הפלט בשדות machineType או machineFamily. לכל סוג מכונה ב-ComputeClass המותאם אישית, בודקים את המפרט שלו בתיעוד של סוגי המכונות ומוודאים שהמשאבים שניתן להקצות לו גדולים מהבקשות של ה-Pod.

הערכת התוצאה

משאבים תואמים: בקשות המשאבים של ה-Pod קטנות או שוות למשאבים שניתנים להקצאה של לפחות סוג מכונה אחד ב-ComputeClass.
המשאבים חורגים מהקיבולת:
- הסבר: אי אפשר לתזמן את ה-Pod כי אף סוג מכונה ב-ComputeClass לא מספק מספיק מעבד, זיכרון או GPU. מצב כזה יכול לקרות גם אם השדה nodePoolAutoCreation מוגדר לערך true, והבקשה לזיכרון של ה-Pod חורגת מהמגבלות של מאגרי הצמתים שנוצרו אוטומטית.
- פתרון: משנים את בקשות המשאבים של ה-Pod או את סוגי המכונות של ה-ComputeClass המותאם אישית:
  - הקטנת בקשות המשאבים של ה-Pod: אם בקשות המשאבים גבוהות, כדאי להקטין את הערכים של cpu, memory או gpu בקובץ ה-YAML של עומס העבודה.
  - מעבר לסוגי מכונות גדולים יותר: אם הבקשות של ה-Pod מוצדקות, משנים את השדה spec.priorities במניפסט של ComputeClass המותאם אישית כך שיכלול אפשרויות גדולות יותר של machineType או machineFamily שיכולות לענות על הדרישות של ה-Pod. לדוגמה:
```
spec:
  priorities:
  - machineType: n2d-highmem-96 # A larger machine type
    spot: true
  # ... other priorities
```

בדיקה של taints ו-tolerations שמתנגשים

לצמתים שנוצרו עבור ComputeClass בהתאמה אישית יש את ה-taint‏ cloud.google.com/compute-class=CUSTOM_COMPUTECLASS_NAME:NoSchedule. ‫GKE מוסיף את הסבילות הזו ל-Pods באופן אוטומטי.

עם זאת, לחומרה ייעודית כמו מעבדי GPU יש כתמים נוספים, כמו הכתם nvidia.com/gpu=present:NoSchedule. אם ComputeClass משתמש בצמתים עם חומרה ייעודית, ל-Pods חייבת להיות טולרנטיות ל-taints האלה כדי לתזמן אותם בצמתים האלה.

בודקים את השדה tolerations של ה-Pod:

kubectl get pod POD_NAME
    -n NAMESPACE
    -o jsonpath='{.spec.tolerations}'

הערכת התוצאה

הגדרות נכונות של tolerations: ה-taints וה-tolerations מוגדרים בצורה נכונה.
Missing tolerations:
- הסבר: חוסר סבילות מונע את התזמון של ה-Pod בצמתים עם כתמי חומרה מיוחדים. לדוגמה, אם ComputeClass משתמש בצמתי GPU, יכול להיות שחסר ל-Pod את nvidia.com/gpu=present:NoSchedule toleration. לדרישות ספציפיות ל-GPU, אפשר לעיין במאמר בנושא אימות הגדרת ה-GPU.
- פתרון: בשדה tolerations במפרט ה-Pod, מוסיפים את ההגדרות הנדרשות של tolerations כדי להתאים ל-taints בצמתים שמוגדרים על ידי ComputeClass. לדוגמה, כדי להוסיף טולרנטיות ל-taint‏ nvidia.com/gpu=present:NoSchedule בצמתי GPU, צריך להוסיף את השורה הבאה:
```
spec:
template:
spec:
tolerations:
- key: "nvidia.com/gpu"
operator: "Exists"
effect: "NoSchedule"
# ... other tolerations and Pod spec
```

הגדרת מאגר צמתים (אשכולות רגילים)

ב-GKE Standard clusters, מאגרי צמתים שנוצרו באופן ידני צריכים להיות מסומנים בתוויות ומוכתמים כדי לעבוד עם ComputeClass בהתאמה אישית.

אימות התוויות וההכתמות של מאגר הצמתים

מזהים את מאגרי הצמתים ב-ComputeClass המותאם אישית. אם ה-ComputeClass המותאם אישית משתמש בשדה nodePools, צריך לשים לב לשמות של מאגרי הצמתים שמופיעים ברשימה:
```
kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yaml
```

לכל מאגר צמתים שזיהיתם, בודקים את ההגדרה שלו:

gcloud container node-pools describe NODE_POOL_NAME
    --cluster CLUSTER_NAME
    --location LOCATION
    --format="yaml(config.labels, config.taints)"

הערכת התוצאה

מאגר הצמתים מוגדר בצורה תקינה: למאגר הצמתים יש את התווית cloud.google.com/compute-class: CUSTOM_COMPUTECLASS_NAME ואת הכתם cloud.google.com/compute-class=CUSTOM_COMPUTECLASS_NAME:NoSchedule.
ההגדרה של מאגר הצמתים שגויה:
- הסבר: מאגר הצמתים לא הוגדר עם התווית וההכתמה שנדרשות כדי לשייך אותו ל-ComputeClass המותאם אישית.
- פתרון: מעדכנים את מאגר הצמתים כדי להוסיף את התווית וההכתמה:
  1. הוספה או עדכון של תווית צומת:
```
gcloud container node-pools update NODE_POOL_NAME \
    --cluster=CLUSTER_NAME --location=LOCATION \
    --node-labels=cloud.google.com/compute-class=CUSTOM_COMPUTECLASS_NAME
```
  2. הוספה או עדכון של taint בצומת:
```
gcloud container node-pools update NODE_POOL_NAME \
    --cluster=CLUSTER_NAME --location=LOCATION \
    --node-taints=cloud.google.com/compute-class=CUSTOM_COMPUTECLASS_NAME:NoSchedule
```

אימות ההגדרות של יצירה אוטומטית של מאגר צמתים

גם באשכולות Autopilot וגם באשכולות רגילים עם nodePoolAutoCreation שמוגדר ל-true, צריך להגדיר בצורה נכונה את היצירה האוטומטית של מאגר הצמתים.

בדיקה שהיצירה האוטומטית של מאגר הצמתים מופעלת

בודקים אם השדה nodePoolAutoCreation.enabled ב-ComputeClass המותאם אישית מוגדר ל-true:
```
kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yaml
```

בודקים אם יצירה אוטומטית של מאגר צמתים מופעלת באשכול:

gcloud container clusters describe CLUSTER_NAME
    --location LOCATION
    --format="value(autoscaling.enableNodeAutoprovisioning)"

אם אחד מהם מושבת, לא ייווצרו מאגרי צמתים חדשים עבור ComputeClass בהתאמה אישית.

הערכת התוצאה

הפעלה של יצירה אוטומטית של מאגר צמתים: ב-ComputeClass, השדה nodePoolAutoCreation.enabled מוגדר ל-true, והקצאת צמתים אוטומטית מופעלת ברמת האשכול.
היצירה האוטומטית של מאגר הצמתים מושבתת:
- הסבר: יצירה אוטומטית של מאגר צמתים מושבתת אם הערך של השדה nodePoolAutoCreation.enabled הוא false או חסר ב-ComputeClass, או אם הקצאת משאבים אוטומטית של צמתים ברמת האשכול מושבתת.
- פתרון: מפעילים יצירה אוטומטית של מאגר צמתים:
  1. עורכים את קובץ ה-YAML של ComputeClass בהתאמה אישית ומוסיפים את nodePoolAutoCreation: enabled: true:
```
spec:
  # ... priorities
  nodePoolAutoCreation:
    enabled: true
```
  2. הפעלת יצירה אוטומטית של מאגר צמתים ברמת האשכול והגדרת מגבלות משאבים:
```
gcloud container clusters update CLUSTER_NAME --location LOCATION \
  --enable-autoprovisioning \
  --autoprovisioning-min-cpu=MIN_CPU \
  --autoprovisioning-max-cpu=MAX_CPU \
  --autoprovisioning-min-memory=MIN_MEMORY \
  --autoprovisioning-max-memory=MAX_MEMORY
```

בדיקת מגבלות המשאבים ליצירה אוטומטית של מאגר צמתים

ליצירה אוטומטית של מאגר צמתים יש מגבלות ברמת האשכול לגבי מעבד (CPU) וזיכרון. אם השימוש הנוכחי באשכול בתוספת המשאבים של צומת חדש חורג מהמגבלות האלה, המערכת לא תקצה צמתים חדשים באמצעות יצירה אוטומטית של מאגר צמתים.

צופים במגבלות המשאבים:
```
gcloud container clusters describe CLUSTER_NAME
    --location LOCATION
--format="value(autoscaling.resourceLimits)"
```
בפלט מפורטים השדות resourceType, minimum ו-maximum של ה-CPU והזיכרון (ב-GB).
בודקים את סוגי המכונות בעדיפויות של ComputeClass בהתאמה אישית. כדאי לבדוק את מפרטי המעבד והזיכרון במסמכי התיעוד של סוגי המכונות.
קובעים את הקיבולת הכוללת הנוכחית של המעבד והזיכרון של כל הצמתים באשכול. סכום הקיבולת הנוכחית בתוספת המשאבים של צומת חדש פוטנציאלי לא יכול להיות גבוה מהמגבלה המקסימלית ליצירה אוטומטית של מאגר צמתים.

הערכת התוצאה

קיבולת מספקת: יש למעבד ולזיכרון של האשכול קיבולת מספקת במסגרת מגבלות המשאבים, כדי שהמערכת תוכל להקצות צומת חדש באמצעות יצירה אוטומטית של מאגר צמתים.
חריגה מהמגבלות:
- הסבר: לא ניתן להקצות צמתים חדשים באמצעות יצירה אוטומטית של מאגר צמתים כי האשכול הגיע למגבלות של מעבד או זיכרון, או שהמגבלות שהוגדרו לסוגי המכונות ב-ComputeClass נמוכות מדי.
- פתרון: מגדילים את מכסות המשאבים ליצירה אוטומטית של מאגר צמתים:
  1. קובעים מגבלות מקסימליות חדשות שמתחשבות בשימוש הנוכחי ובצמיחה העתידית, כולל סוגי המכונות הגדולים ביותר ב-ComputeClass המותאם אישית.
  2. עדכון מגבלות המשאבים ליצירה אוטומטית של מאגר צמתים אפשר להגדיר כמה משאבים בפקודה אחת:
```
gcloud container clusters update CLUSTER_NAME --location LOCATION \
  --set-nap-resource-limits resourceType=cpu,maximum=NEW_MAX_CPU \
  --set-nap-resource-limits resourceType=memory,maximum=NEW_MAX_GB
```

ניתוח התנהגות של מעבר לגיבוי אוטומטי

בסעיף הזה מוסבר איך לחקור גורמים חיצוניים כדי להבין למה המידרוג האוטומטי של האשכול עשוי לדלג על אפשרויות מועדפות ולהשתמש בחלופות, או למה הוא לא מצליח להגדיל את הקיבולת.

ב-ComputeClasses בהתאמה אישית נעשה שימוש בלוגיקה חלופית לפי סדר עדיפויות. אם לא מתבצע תזמון של Pod בצמתים שתואמים לכלל עם העדיפות הכי גבוהה, לרוב זה קורה בגלל מגבלות כמו חוסר זמינות של משאבים או מכסות פרויקט. אם GKE לא יכול להקצות צמתים שתואמים לכלל עדיפות ספציפי, למשל בגלל שגיאה מסוג ZONE_RESOURCE_POOL_EXHAUSTED או QUOTA_EXCEEDED מ-Compute Engine, הכלי לשינוי גודל האשכול ינסה מיד את הכלל הבא ברשימה priorities. אין תקופת המתנה לפני ש-GKE עובר לעדיפות הבאה, אלא אם משתמשים ב-TPU או במודל הקצאת המשאבים Flex Start, שתומכים בהשהיה שניתנת להגדרה.

בדיקה אם משאבים לא זמינים

כדי לוודא שהמשאבים לא זמינים בתחום שצוין, בודקים את היומנים של המידרוג האוטומטי באשכול או את השגיאות של קבוצת מופעי מכונה מנוהלים (MIG) ב-Compute Engine.

אפשרות 1: בדיקת אירועי החשיפה של המידרוג האוטומטי באשכול

במסוף Google Cloud , נכנסים אל Cloud Logging > Logs Explorer ומריצים את השאילתה הבאה כדי למצוא אירועים של מידרוג אוטומטי שעשויים להצביע על חוסר זמינות של משאבים:

resource.type="k8s_cluster"
resource.labels.location="LOCATION"
resource.labels.cluster_name="CLUSTER_NAME"
log_id("container.googleapis.com/cluster-autoscaler-visibility")
jsonPayload.noScaleUpReason.messageId="no.scale.up.nap.resource.exhausted"

אפשרות 2: בדיקת שגיאות ב-MIG

אפשר לבדוק אם יש שגיאות ב-MIG במסוף Google Cloud או באמצעות שאילתה ב-Cloud Logging.

באמצעות מסוף Google Cloud :
1. במסוף Google Cloud , עוברים אל Compute Engine > Instance groups.
2. מוצאים את ה-MIG שמתאים למאגר הצמתים שלא מצליח להתרחב.
3. לוחצים על השם של מקור הנתונים המשולב ועוברים לכרטיסייה שגיאות. חפשו הודעות שמעידות על מיצוי המשאבים.

באמצעות שאילתה ב-Cloud Logging:

במסוף Google Cloud , עוברים אל Cloud Logging > Logs explorer.
מריצים את השאילתה הבאה כדי לבדוק אם יש שגיאות שנובעות ממיצוי משאבים ב-MIG:

resource.type="gce_instance"
log_id("cloudaudit.googleapis.com/activity")
protoPayload.status.message:("ZONE_RESOURCE_POOL_EXHAUSTED" OR "does not have enough resources available to fulfill the request" OR "resource pool exhausted" OR "does not exist in zone")

הערכת התוצאה

המשאבים זמינים: אם ההודעות ZONE_RESOURCE_POOL_EXHAUSTED לא מופיעות ביומנים, סביר להניח שחוסר זמינות של משאבים לא גרם לבעיה בהרחבת הקיבולת.
המשאבים לא זמינים:
- הסבר: הקצאת הצומת נכשלת בגלל ביקוש גבוה זמני לסוג מכונה ספציפי (במיוחד מכונות וירטואליות מסוג Spot או יחידות GPU) באותו תחום, או בגלל שה-Pod מוגבל על ידי זיקה של PersistentVolume לתחום שבו המשאבים לא זמינים.
- פתרון: חוסר הזמינות של המשאב הוא זמני, אבל אפשר לשפר את העמידות על ידי הוספת גמישות להגדרה:
  - מגוון סוגי מכונות: מוודאים שהשדה spec.priorities ב-ComputeClass המותאם אישית מכיל כמה סוגים או משפחות של מכונות כחלופות:
```
spec:
  priorities:
  - machineFamily: c3  # Highest priority
  - machineFamily: n2d # Fallback option
  - machineFamily: e2  # Lowest priority
```
  - שימוש באשכולות אזוריים: אם האשכול הוא אזורי, הוא פגיע לבעיות בזמינות המשאבים באזור הזה. שימוש באשכולות אזוריים מאפשר ל-Cluster Autoscaler לנסות להקצות צמתים באזורים אחרים באזור שבו יכול להיות שיש קיבולת זמינה.
  - שימוש בהזמנות ב-Compute Engine: כדי להבטיח קיבולת לסוגים ספציפיים של מכונות, מומלץ ליצור הזמנות ב-Compute Engine לעומסי עבודה קריטיים שלא יכולים לסבול עיכובים.

אימות מכסות הפרויקט

מוודאים שיש בפרויקט מספיק מכסה למשאבים, כמו מעבדים (CPU), מעבדים גרפיים (GPU) וכתובות IP שנדרשים לצמתים החדשים.

בודקים ביומני המידרוג האוטומטי אם יש שגיאות שקשורות למכסה. אפשר להשתמש ב-Cloud Logging כדי לחפש הודעות שגיאה שקשורות למכסה באירועי החשיפה של המידרוג האוטומטי:
```
resource.type="k8s_cluster"
resource.labels.location="LOCATION"
resource.labels.cluster_name="CLUSTER_NAME"
log_id("container.googleapis.com/cluster-autoscaler-visibility")
jsonPayload.noScaleUpReason.messageId="no.scale.up.nap.quota.exceeded"
```
אפשר גם להשתמש בשאילתת Cloud Logging הבאה כדי לבדוק אם יש ביומנים שגיאות שקשורות למכסת השימוש מ-MIG:
```
resource.type="gce_instance"
protoPayload.methodName:"compute.instances.insert"
protoPayload.status.message:"QUOTA_EXCEEDED"
severity=ERROR
```
בדיקת המכסות במסוף Google Cloud :
1. במסוף Google Cloud , עוברים אל IAM & Admin > Quotas.
2. מסננים לפי השירות Compute Engine API.
3. כדאי לבדוק את השימוש במדדים רלוונטיים כמו מעבדים (CPU), מעבדים גרפיים (GPU) (מכל הסוגים) וכתובות IP בשימוש באזור שבו נמצא אשכול GKE. בודקים שהשימוש הנוכחי לא הגיע למגבלה.

הערכת התוצאה

המכסה נמוכה מהמגבלות: אם השימוש במכסה נמוך ממגבלות המכסה ולא נמצאו שגיאות QUOTA_EXCEEDED ביומנים, מגבלות המכסה לא יחסמו את הגדלת הקיבולת.
חריגה מהמכסה:
- הסבר: הקצאת הצמתים נכשלת בגלל מכסה לא מספקת למשאבים כמו מעבדים (CPU), מעבדים גרפיים (GPU), כתובות IP או קבוצות MIG.
- פתרון: אם הפרויקט הגיע למגבלת מכסה, מגישים בקשה להגדלת המכסה.

הגדרות מתקדמות

להגדרות כמו יחידות GPU, מכונות וירטואליות מסוג Spot והזמנות ב-Compute Engine יש דרישות ספציפיות משלהן ונקודות כשל פוטנציאליות שצריך לבדוק.

אימות הגדרות ה-GPU

במקרה של ComputeClasses בהתאמה אישית שמקצים צמתים של GPU, צריך לאמת את הגדרת ה-GPU ב-ComputeClass בהתאמה אישית ולוודא של-Pod יש את ה-toleration nvidia.com/gpu הנדרש.

בודקים את קובץ ה-YAML של ComputeClass בהתאמה אישית כדי לראות אם יש בלוק gpu בתוך כלל עדיפות:
```
kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yaml
```
בלוק gpu צריך לציין שדה type ושדה count, לדוגמה:
```
priorities:
- machineType: a2-highgpu-1g
  gpu:
    type: nvidia-tesla-a100
    count: 1
```
בדיקת ה-Pod עבור טולרנטיות GPU. לכל Pod שצריך לתזמן אותו בצומת GPU חייבת להיות טולרנטיות nvidia.com/gpu, גם אם ה-Pod לא מבקש GPU בעצמו.
```
kubectl get pod POD_NAME -n NAMESPACE -o jsonpath='{.spec.tolerations}'
```
בודקים את השדה spec.tolerations כדי לראות אם יש סובלנות.

הערכת התוצאה

ה-GPU מוגדר בצורה נכונה: אם ComputeClass מגדיר GPU type ו-count, ו-Pods כולל את ה-toleration‏ nvidia.com/gpu, הגדרת ה-GPU נכונה. בדוגמה הבאה מוצגות ההגדרות הנדרשות של Toleration:
```
tolerations:
- key: "nvidia.com/gpu"
  operator: "Exists"
  effect: "NoSchedule"
```
הגדרת ה-GPU שגויה:
- הסבר: יכול להיות שחסרה ב-Pod nvidia.com/gpu טולרנטיות נדרשת, יכול להיות שה-ComputeClass לא תקין בגלל אי התאמות בשדה GPU, או יכול להיות שגרסת GKE לא מטפלת בהגדרת GPU בצורה נכונה.
- פתרון: מבצעים אחת מהפעולות הבאות:
  - משנים את קובץ ה-YAML של עומס העבודה כדי לכלול את ההגדרה המנדטורית של טולרנטיות ל-GPU, ומחילים מחדש את קובץ ה-YAML.
  - משדרגים את אשכול GKE. אם ה-ComputeClass המותאם אישית לא תקין והבעיה קשורה לשדות GPU, כדאי לבדוק אם יש בעיות ידועות ולשדרג לגרסת GKE עם תיקון, למשל ‎1.31.8-gke.1045000 ואילך.

אימות ההגדרה של מכונות וירטואליות מסוג Spot

אם אתם משתמשים במכונות וירטואליות מסוג Spot, ודאו שההגדרה spot: true נמצאת בכללי העדיפות הנכונים במניפסט של ComputeClass. בנוסף, חשוב להבין את לוגיקת התמחור של המידרוג האוטומטי באשכול.

בודקים את מניפסט ComputeClass:

kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yaml

בפלט, חפשו את spot: true בשדה spec.priorities, לדוגמה:

priorities:
- machineFamily: n2d
  spot: true

יכול להיות שהמידרוג האוטומטי של האשכול ישתמש בנתוני תמחור מ-us-central1 כבסיס להשוואה בין העלויות של סוגים שונים של מכונות וירטואליות מסוג VM במודל Spot, מה שיכול להוביל לבחירות שנראות לא אופטימליות באזורים אחרים. זוהי התנהגות מוכרת.

הערכת התוצאה

מכונות וירטואליות מסוג Spot מוגדרות בצורה נכונה: אם השדה spot: true מצוין והכלי לשינוי גודל האשכול (cluster autoscaler) מקצה מכונות וירטואליות מסוג Spot, ההגדרה פועלת כמצופה.
מכונות וירטואליות במודל Spot שלא מצליחות להיקבע לביצוע:
- הסבר: יכול להיות שהתזמון של Podים שדורשים VM במודל Spot נכשל בגלל חוסר זמינות של משאבים באזור היעד, או בגלל שהמידרוג האוטומטי של האשכול בוחר סוג אחר של VM על סמך מודל התמחור us-central1 שלו.
- פתרון:
  - אם אתם חושדים שהמשאב לא זמין, כדאי לעיין במאמר בדיקה של חוסר זמינות של משאבים.
  - כדי לשלוט בבחירה של מכונות וירטואליות מסוג Spot, צריך לציין באופן מפורש machineType רשומות בשדה priorities, מהזולות ליקרות ביותר באזור שלכם. הגישה הזו מאפשרת לכם שליטה ישירה בסדר ברירת המחדל. לדוגמה:
```
spec:
  priorities:
  - machineType: t2d-standard-48 # Cheapest in this region
    spot: true
  - machineType: n2d-standard-48 # Fallback Spot option
    spot: true
  - machineType: n2d-standard-48 # On-demand fallback
    spot: false
```

התקינות הכללית של המידרוג האוטומטי של האשכול

בקטע הזה מוסבר איך לבדוק אם יש בעיות שלא קשורות ישירות להגדרה של ComputeClass מותאם אישית, אבל עשויות להשפיע על הפעולה שלו.

בדיקה של פעולות בו-זמניות

מוודאים שאין פעולות אחרות של אשכולות או של מאגרי צמתים שמתבצעות במקביל. בדרך כלל, ב-GKE אפשר לבצע רק פעולה אחת בכל פעם, מה שיכול לחסום את שינוי הגודל האוטומטי.

הצגת רשימה של פעולות שמתבצעות כרגע ולא נמצאות במצב DONE:

gcloud container operations list \
    --location=LOCATION \
    --filter='targetLink~"/clusters/CLUSTER_NAME" AND status!=DONE'

אם הפקודה מחזירה פעולות כלשהן, יכול להיות שמתבצעת פעולה כמו שדרוג אשכול, יצירת מאגר צמתים או שינוי אחר. יכול להיות שאירועים של שינוי גודל אוטומטי ייחסמו עד שהפעולה הזו תושלם.

הערכת התוצאה

אין פעולות מקבילות: אם הפקודה list מחזירה רשימה ריקה, שום פעולה לא חוסמת את המידרוג האוטומטי של האשכול.
נמצאו פעולות מקבילות:
- הסבר: אם הפקודה מציגה רשימה של פעולות עם סטטוס RUNNING או PENDING, יכול להיות שמתבצעת פעולה מקבילה, כמו שדרוג של אשכול או שינוי של מאגר צמתים, והיא חוסמת את ההתאמה האוטומטית לעומס.
- פתרון: צריך להמתין עד שהפעולה המתבצעת תסתיים. כדי לעקוב אחרי הסטטוס באמצעות מזהה פעולה, משתמשים בפקודה:
```
gcloud container operations wait OPERATION_ID --location LOCATION
```
  מחליפים את OPERATION_ID במזהה מהפלט של הפקודה list. אחרי פעולת החסימה, כלי הגידול האוטומטי של האשכול אמור לחזור לפעולה רגילה.

בדיקת העברה פעילה

אם אתם רואים שעומסי עבודה נשארים בצמתים עם עדיפות נמוכה יותר כשיש צמתים עם עדיפות גבוהה יותר, כדאי לבדוק אם ההעברה הפעילה מופעלת. אם השדה activeMigration.optimizeRulePriority מוגדר לערך false או מושמט ב-ComputeClass, ‏ GKE לא יעביר באופן אוטומטי עומסי עבודה לצמתים בעדיפות גבוהה יותר כשהם יהיו זמינים.

כדי לבדוק את ההרשאות של ה-Pod, בודקים את השדה spec.tolerations. אם ל-Pod יש tolerations שתואמים ל-taints בכמה מאגרי צמתים בעדיפויות שונות, יכול להיות שהמתזמן ימקם אותו בצומת בעדיפות נמוכה יותר אם הוא יהיה זמין קודם.
```
kubectl get pod POD_NAME -n NAMESPACE -o jsonpath='{.spec.tolerations[*]}{"\n"}'
```
כדי לבדוק אם ההעברה הפעילה מופעלת, בודקים את השדה spec.activeMigration.optimizeRulePriority במניפסט של ComputeClass.
```
kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yaml
```

הערכת התוצאה

העברה פעילה מופעלת: אם הערך בשדה activeMigration.optimizeRulePriority הוא true, מערכת GKE מנסה להעביר עומסי עבודה לצמתים בעלי עדיפות גבוהה יותר כשהם הופכים לזמינים.
המיגרציה הפעילה מושבתת או לא יעילה:
- הסבר: אם השדה activeMigration.optimizeRulePriority הוא false או לא מופיע, או אם ההחרגות של ה-Pod רחבות מדי, עומסי העבודה נשארים בצמתים עם עדיפות נמוכה יותר כשיש צמתים עם עדיפות גבוהה יותר. הגישה הזו מאפשרת לתזמן עומסי עבודה בצמתים בעלי עדיפות נמוכה יותר שמתפנים ראשונים.
- פתרון: אם רוצים שהעומסים יועברו לצמתים עם עדיפות גבוהה יותר, מבצעים אחת מהפעולות הבאות:
  - כדי להעדיף מאגרי צמתים עם עדיפות גבוהה יותר, אפשר להשתמש במגבלות תזמון ספציפיות יותר כמו nodeAffinity.
  - עורכים את המניפסט של ComputeClass כדי להגדיר את activeMigration.optimizeRulePriority: true ומחילים את קובץ ה-YAML:
```
spec:
  activeMigration:
    optimizeRulePriority: true
```

פנייה לתמיכה

אם לא מצאתם פתרון לבעיה שלכם במסמכים, תוכלו להיעזר בקבלת תמיכה, כולל עצות בנושאים הבאים:
- פתיחת בקשת תמיכה באמצעות פנייה אל Cloud Customer Care.
- קבלת תמיכה מהקהילה על ידי פרסום שאלות ב-StackOverflow ושימוש בתג google-kubernetes-engine כדי לחפש בעיות דומות. אפשר גם להצטרף לערוץ Slack‏ #kubernetes-engine כדי לקבל תמיכה נוספת מהקהילה.
- פתיחת דיווחים על בעיות או בקשות להוספת תכונות באמצעות הכלי הציבורי למעקב אחר בעיות.

פתרון בעיות בהגדרות אישיות של ComputeClass קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

מושגים מרכזיים

פתרון בעיות לפי תסמינים

בעיות שלא נכללות בהיקף

זיהוי משתני placeholder

לפני שמתחילים

ביצוע בדיקות אבחון בסיסיות

אימות הסטטוס והסלקטור של ה-Pod

הערכת התוצאה

אימות התאימות של גרסת האשכול

הערכת התוצאה

אימות של הגדרות מותאמות אישית של ComputeClass

בדיקת התקינות והסטטוס של ComputeClass

הערכת התוצאה

אימות המדיניות של unsatisfiable

הערכת התוצאה

בדיקת מגבלות התזמון של הפוד

אימות בקשות למשאבי Pod

הערכת התוצאה

בדיקה של taints ו-tolerations שמתנגשים

הערכת התוצאה

הגדרת מאגר צמתים (אשכולות רגילים)

אימות התוויות וההכתמות של מאגר הצמתים

הערכת התוצאה

אימות ההגדרות של יצירה אוטומטית של מאגר צמתים

בדיקה שהיצירה האוטומטית של מאגר הצמתים מופעלת

הערכת התוצאה

בדיקת מגבלות המשאבים ליצירה אוטומטית של מאגר צמתים

הערכת התוצאה

ניתוח התנהגות של מעבר לגיבוי אוטומטי

בדיקה אם משאבים לא זמינים

הערכת התוצאה

אימות מכסות הפרויקט

הערכת התוצאה

הגדרות מתקדמות

אימות הגדרות ה-GPU

הערכת התוצאה

אימות ההגדרה של מכונות וירטואליות מסוג Spot

הערכת התוצאה

התקינות הכללית של המידרוג האוטומטי של האשכול

בדיקה של פעולות בו-זמניות

הערכת התוצאה

בדיקת העברה פעילה

הערכת התוצאה

פנייה לתמיכה

המאמרים הבאים

פתרון בעיות בהגדרות אישיות של ComputeClass

אימות המדיניות של `unsatisfiable`