פתרון בעיות ב-GKE

במסמך הזה מפורטים מסמכים לפתרון בעיות נפוצות שאתם עשויים להיתקל בהן במהלך השימוש ב-Google Kubernetes Engine ‏ (GKE). המסמכים שמופיעים כאן יכולים לעזור לכם לאבחן שגיאות בעומסי עבודה כמו ImagePullBackOff ו-CrashLoopBackOff, לנפות באגים בהתנהגות של התאמה אוטומטית לעומס באשכול, לפתור בעיות ב-PersistentVolume או לפתור בעיות ברישום של צמתים.

אם אתם חדשים בפתרון בעיות ב-GKE, כדאי להתחיל עם מבוא לפתרון בעיות.

כדי לאבחן ולפתור בעיות שנתקלתם בהן, אפשר לעיין במסמכים שבקטעים הבאים:

לפתרון בעיות ברישות ב-GKE, אפשר לעיין במאמר פתרון בעיות ברישות ב-GKE במסמכי התיעוד של GKE בנושא רישות.

המסמך הזה מיועד לאדמינים ולאדריכלים, למומחי אבטחה, למומחי רשתות או למומחי אחסון שמבצעים פתרון בעיות בהגדרות של GKE. מידע נוסף על תפקידים ב-GKE זמין במאמר תפקידי משתמשים נפוצים ומשימות ב-GKE.

מבוא לפתרון בעיות

נושא תיאור
מבוא לפתרון בעיות ב-GKE כדי להתחיל לפתור בעיות ב-GKE, כדאי להכיר את התהליך הכללי ואת המושגים הבסיסיים.
בדיקת תקינות השירות ואירועים כאן מוסבר איך לבדוק את תקינות GKE ושירותים קשורים כדי להחריג בעיות בפלטפורמה. Google Cloud
הערכת התקינות של אשכולות ועומסי עבודה במסוף Google Cloud Google Cloud איך משתמשים במסוף כדי לחקור בעיות ב-GKE ולפתור אותן
חקירת מצב האשכול באמצעות kubectl כדאי לעיין kubectlבפקודות ובטכניקות נפוצות לאבחון בעיות באשכולות ובעומסי העבודה.
ביצוע ניתוח היסטורי באמצעות Cloud Logging הסבר על שימוש יעיל ב-Cloud Logging כדי למצוא את שורש הבעיה ב-GKE.
ביצוע מעקב פרואקטיבי באמצעות Cloud Monitoring אפשר להשתמש במדדים ובלוחות בקרה של Cloud Monitoring כדי לזהות, לאבחן ולפתור בעיות ב-GKE.
אבחון מהיר יותר עם Gemini Cloud Assist איך Gemini יכול לעזור באבחון ופתרון בעיות ב-GKE.
סיכום: תרחיש לדוגמה לפתרון בעיות במאמר הזה יש דוגמה מפורטת לפתרון בעיה בתרחיש נפוץ ב-GKE.

הגדרת אשכול

נושא תיאור
יצירת אשכולות פתרון בעיות שקשורות ליצירת אשכולות.
אשכולות Autopilot אבחון ופתרון בעיות באשכולות GKE Autopilot, כולל בעיות שקשורות ליצירת אשכולות, מחיקת מרחבי שמות, שינוי גודל ועומסי עבודה.
כלי שורת הפקודה Kubectl פתרון בעיות בכלי שורת הפקודה kubectl ב-GKE, כולל בעיות באימות ובמתן הרשאות. בדף הזה יש גם עצות לפתרון בעיות בשרת ה-proxy של Konnectivity כדי לבדוק אם הוא גורם לכך שהפקודות kubectl logs,‏ attach,‏ exec או port-forward מפסיקות להגיב.
מאגרי צמתים רגילים פתרון בעיות במאגרי צמתים ב-GKE Standard, כולל בעיות ביצירת מאגרי צמתים, הקצאת משאבים על בסיס התוצאה הטובה ביותר, מטא-נתונים פגומים של מופעים ומיגרציה של עומסי עבודה למאגרי צמתים חדשים.
הסטטוס של צומת NotReady במאמר הזה מוסבר איך לאבחן ולפתור את הבעיה בסטטוס הצומת NotReady ב-GKE. לשם כך, נפתור בעיות שנובעות מסיבות נפוצות כמו מחסור במשאבים, בעיות ברשת וכשלים ברכיבים.
רישום צומת פתרון בעיות שמתרחשות כשמוסיפים צמתים לאשכול GKE Standard, כמו כשלים ברישום צמתים ודרישות מוקדמות חסרות לרישום צמתים מוצלח.
זמן ריצה של מאגר פתרון בעיות בזמני ריצה של קונטיינרים ב-GKE, כולל בעיות ב-containerd וב-dockershim, ובמאגרי רישום פרטיים.

התאמה אוטומטית לעומס (Automatic scaling)

נושא תיאור
מידרוג אוטומטי של אשכול לא מקטין את האשכול אבחון ופתרון של סיבות נפוצות לכך שלא מתבצעת הסרה של צמתים שלא נעשה בהם שימוש מספיק באשכול. כאן מוסבר איך לבדוק אם יש בעיות כמו PodDisruptionBudgets מגביל, Pods עם אחסון מקומי או הערות ספציפיות (לדוגמה, "cluster-autoscaler.kubernetes.io/safe-to-evict": "false") שמונעות את פינוי הצומת.
מידרוג אוטומטי של אשכול לא מגדיל את גודל האשכול למה המידרוג האוטומטי של האשכול לא מוסיף צמתים חדשים כדי לעמוד בדרישות. בודקים אם יש פודים שלא ניתן לתזמן, מוודאים שלא חרגתם ממגבלות הגודל של מאגר הצמתים או האשכול, ומזהים בעיות פוטנציאליות במכסות משאבים או בזמינות של מכונות וירטואליות אזוריות.
התאמה אופקית של קבוצות Pod לעומס פתרון בעיות שקשורות ל-Horizontal Pod Autoscaler (HPA) שלא מבצע שינוי גודל של רפליקות ה-Pod של האפליקציה. פתרון בעיות נפוצות, כמו אובייקטים של HorizontalPodAutoscaler שהוגדרו בצורה שגויה או בעיות בצינור הנתונים של המדדים.

אחסון

נושא תיאור
אחסון פתרון בעיות באחסון, כולל בעיות בדיסקים לאחסון מתמיד אזורי, בביצועי הדיסק ובהרחבת הנפח.

אבטחת אשכולות

נושא תיאור
אימות פתרון בעיות באימות ב-GKE, כולל בעיות ב-RBAC, באיחוד זהויות של עומסי עבודה ל-GKE ובשרת המטא-נתונים של GKE.
חשבונות שירות פתרון בעיות בחשבונות שירות, כולל שחזור חשבון השירות שמוגדר כברירת מחדל והפעלת חשבון השירות שמוגדר כברירת מחדל ב-Compute Engine.
סודות בשכבת האפליקציה פתרון בעיות שיכולות לקרות כשמגדירים הצפנה של סודות בשכבת האפליקציה, כולל עדכונים שנכשלו ושגיאות שבהן אי אפשר להשתמש במפתח Cloud KMS או שבהן גרסת המפתח של Cloud KMS הושמדה.

התוקף של רשות אישורי הבסיס של האשכול יפוג בקרוב

נושא תיאור
תוקף של רשות אישורי בסיס (CA) עומד לפוג אם תוקף רשות אישורי הבסיס (CA) של האשכול עומד לפוג בקרוב, כדאי לקרוא איך לבצע רוטציית פרטי כניסה כדי למנוע שיבושים בפעולות הרגילות של האשכול.

עומסי עבודה

נושא תיאור
עומסי עבודה שנפרסו פתרון בעיות שקשורות לעומסי עבודה שפועלים באשכול GKE, כולל PodUnschedulable. בקטע PodUnschedulable מופיעים טיפים לפתרון שגיאות כמו MatchNodeSelector ו- Does not have minimum availability.
שליפת תמונות פתרון בעיות שקשורות לשליפת תמונות. כאן מוסבר מה גורם לסטטוסים כמו ImagePullBackOff ו-ErrImagePull ואיך לפתור בעיות נפוצות כמו בעיות באימות ובקישוריות לרשת.
אירועים של CrashLoopBackOff פתרון בעיות באירועי CrashLoopBackOff ב-GKE. אבחון בעיות כמו מיצוי משאבים, הגדרות שגויות של אפליקציות וכישלונות של בדיקות פעילות.
אירועי OOM פתרון בעיות באירועים של חוסר זיכרון (OOM) ב-Kubernetes. לזהות את הסיבות, להבחין בין סוגי אירועים ולהחיל פתרונות יעילים לבעיות של OOM ברמת המאגר וברמת הצומת.
עומסי עבודה של Arm פתרון בעיות שקשורות לעומסי עבודה של Arm, כולל קריסה של Pods בצמתי Arm.
TPUs פתרון בעיות ב-TPU, כולל בעיות במכסת השימוש, בהקצאה אוטומטית של צמתים, בהגדרת עומס העבודה ובתזמון.
GPUs פתרון בעיות ב-GPU, כולל בעיות בהתקנת מנהלי התקנים (דרייברים) של GPU, שגיאות בתוספים של מכשירים ותמונות של קונטיינרים.

ניהול אשכולות

נושא תיאור
שדרוגי אשכולות פתרון בעיות בשדרוג של אשכולות GKE וצמתים, כולל שדרוגים ארוכים או לא מלאים, שדרוגים אוטומטיים לא צפויים, כשלים ובעיות אחרי השדרוג.
Webhooks הסבר על פתרון בעיות והבטחת היציבות של מישור הבקרה של האשכול כשמשתמשים ב-webhooks של הרשאות.
מרחב שמות תקוע במצב Terminating כדי לפתור בעיות שקשורות למרחבי שמות שנתקעו במצב Terminating, צריך לזהות ולהסיר את הרכיבים הבעייתיים שמונעים את המחיקה.
פעולות מקבילות כדי לפתור בעיות שקשורות לפעולות מקבילות, צריך לזהות את השגיאות האלה ולחכות עד שהפעולות יסתיימו.

מעקב

נושא תיאור
מדדי מערכת פתרון בעיות שקשורות למדדי מערכת שלא מופיעים ב-Cloud Monitoring.
מרכזי בקרה של מעקב פתרון בעיות בלוחות בקרה של ניטור, כולל בעיות בהפעלת הניטור, משאבי Kubernetes חסרים והרשאות.
פתרון בעיות שקשורות ליומנים חסרים פתרון בעיות שקשורות ליומנים חסרים ב-GKE. כאן מוסבר איך לבדוק את הסטטוס של API, את הגדרות האשכול, ההרשאות, המכסות, המסננים וההתנהגות של האפליקציה.

שגיאות 4xx

נושא תיאור
שגיאות 4xx פתרון בעיות שקשורות לחלק מהשגיאות 400, 401, 403 ו-404 שאתם עשויים להיתקל בהן כשאתם משתמשים ב-GKE. בדף הזה מוסבר גם איך לפתור בעיות שקשורות לשגיאות בחשבון שמונעות עריכה.

בעיות מוכרות

נושא תיאור
בעיות מוכרות לזהות ולפתור בעיות מוכרות שעשויות להשפיע על השימוש ב-GKE.

המאמרים הבאים