התאמה אישית של הגדרות המערכת של הצומת

במאמר הזה מוסבר איך להתאים אישית את הגדרות הצומת ב-Google Kubernetes Engine‏ (GKE) באמצעות קובץ תצורה שנקרא הגדרות מערכת של צומת.

תצורת מערכת של צומת היא קובץ תצורה שמאפשר לשנות קבוצה מוגבלת של הגדרות מערכת. במאגר הצמתים, אפשר להשתמש בהגדרות מערכת של צומת כדי לציין הגדרות בהתאמה אישית עבור סוכן הצמתים של kubelet Kubernetes ועבור הגדרות של ליבת לינוקס ברמה נמוכה sysctl.

במאמר הזה מפורטות ההגדרות הזמינות להגדרת מערכת צמתים, ומוסבר איך להחיל אותן על מאגרי הצמתים שלכם ב-GKE Standard. שימו לב: באשכולות GKE Autopilot יש סביבת צמתים מנוהלת יותר, ולכן אפשרויות ההגדרה הישירה של מערכת הצמתים מוגבלות בהשוואה למאגרי צמתים של GKE Standard.

למה כדאי להשתמש בהגדרות מערכת של צמתים

היתרונות של הגדרות מערכת של צמתים:

  • שיפור הביצועים: אופטימיזציה של ביצועי מחסנית הרשת, ניהול הזיכרון, תזמון ה-CPU או התנהגות הקלט/פלט עבור אפליקציות תובעניות כמו אימון או הגשה של AI, מסדי נתונים, שרתי אינטרנט עם תנועה גבוהה או שירותים שרגישים לזמן האחזור.
  • הגברת האבטחה: החלת הגדרות אבטחה ספציפיות ברמת ליבת המערכת או הגבלת התנהגויות מסוימות של המערכת כדי לצמצם את שטח הפנים של המתקפה.
  • ניהול משאבים: שינוי ההגדרות של האופן שבו kubelet מנהל מזהי תהליכים (PID), מקום בכונן, איסוף של תמונות או משאבי מעבד וזיכרון.
  • תאימות לעומסי עבודה: עוזרת לוודא שסביבת הצומת עומדת בדרישות מוקדמות ספציפיות לתוכנה מיוחדת או לאפליקציות ישנות יותר שדורשות הגדרות ליבה מסוימות.

אפשרויות נוספות להתאמה אישית של הגדרות הצמתים

אפשר גם להתאים אישית את הגדרת הצומת בשיטות אחרות:

אין תמיכה בהגדרות של מערכת הצמתים בצמתים של Windows Server.

לפני שמתחילים

לפני שמתחילים, חשוב לבצע את הפעולות הבאות:

  • התקנה של כלי שורת הפקודה:
    • אם אתם משתמשים בדוגמאות של ה-CLI של gcloud במסמך הזה, הקפידו להתקין ולהגדיר את Google Cloud CLI.
    • אם אתם משתמשים בדוגמאות של Terraform, הקפידו להתקין ולהגדיר את Terraform.
  • הענקת הרשאות: אתם צריכים הרשאות IAM מתאימות כדי ליצור ולעדכן אשכולות GKE ומאגרי צמתים, כמו container.clusterAdmin או תפקיד אחר עם הרשאות שוות ערך.
  • תכנון שיבושים פוטנציאליים בעומס העבודה: הגדרות צמתים מותאמות אישית מוחלות ברמת מאגר הצמתים. בדרך כלל, שינויים מפעילים עדכון בהדרגה (rolling) של הצמתים במאגר, שכולל יצירה מחדש של הצמתים. כדאי לתכנן מראש את האפשרות של שיבוש בעומס העבודה ולהשתמש בתקציבים לשיבוש Pod (PDB) במקומות המתאימים.
  • גיבוי ובדיקה של כל השינויים: תמיד כדאי לבדוק שינויים בהגדרות בסביבת פיתוח או בסביבת הכנה לפני שמחילים אותם על סביבת הייצור. הגדרות שגויות עלולות לגרום לחוסר יציבות של הצומת או לכשלים בעומסי העבודה.
  • בדיקת הגדרות ברירת המחדל של GKE: תמונות של צמתים ב-GKE מגיעות עם הגדרות ברירת מחדל שעברו אופטימיזציה. מומלץ להתאים אישית את הפרמטרים רק אם יש לכם צורך ספציפי ואתם מבינים את ההשפעה של השינויים.

שימוש בהגדרת מערכת של צומת במצב GKE Standard

כשמשתמשים בהגדרת מערכת של צומת, משתמשים בקובץ YAML שמכיל את פרמטרי ההגדרה של kubelet ושל ליבת Linux. אף על פי שהגדרות של מערכת הצמתים זמינות גם במצב GKE Autopilot, השלבים במסמך הזה מראים איך ליצור קובץ הגדרה ולעשות בו שימוש במצב GKE Standard.

כדי להשתמש בהגדרת מערכת של צומת במצב GKE Standard:

  1. יוצרים קובץ תצורה. הקובץ הזה מכיל את ההגדרות של kubelet ושל sysctl.
  2. מוסיפים את ההגדרה כשיוצרים אשכול, או כשיוצרים או מעדכנים מאגר צמתים.

יצירת קובץ תצורה

כותבים את הגדרות המערכת של הצומת ב-YAML. בדוגמה הבאה מוסיפים הגדרות לאפשרויות kubelet ו-sysctl:

kubeletConfig:
  cpuManagerPolicy: static
  allowedUnsafeSysctls:
    - 'kernel.shm*'
    - 'kernel.msg*'
    - 'kernel.sem'
    - 'fs.mqueue.*'
    - 'net.*'
linuxConfig:
  sysctl:
    net.core.somaxconn: '2048'
    net.ipv4.tcp_rmem: '4096 87380 6291456'

בדוגמה הזו, התנאים הבאים חלים:

  • השדה cpuManagerPolicy: static מגדיר את kubelet לשימוש במדיניות ניהול CPU סטטי. ‫+ השדה net.core.somaxconn: '2048' מגביל את socket listen() ה-backlog ל-2,048 בייט.
  • בשדה net.ipv4.tcp_rmem: '4096 87380 6291456' מוגדרים הערך המינימלי, ערך ברירת המחדל והערך המקסימלי של מאגר הקבלה של שקע TCP ל-4,096 בייט, 87,380 בייט ו-6,291,456 בייט, בהתאמה.

אם רוצים להוסיף הגדרות רק ל-kubelet או ל-sysctl, צריך לכלול רק את הקטע הזה בהגדרת מערכת הצמתים. לדוגמה, כדי להוסיף הגדרה של kubelet, יוצרים את הקובץ הבא:

kubeletConfig:
  cpuManagerPolicy: static

רשימה מלאה של השדות שאפשר להוסיף להגדרת מערכת הצמתים מופיעה בקטעים אפשרויות ההגדרה של Kubelet ואפשרויות ההגדרה של Sysctl.

הוספת ההגדרה למאגר צמתים רגיל

אחרי שיוצרים את תצורת מערכת הצמתים, מוסיפים את הדגל --system-config-from-file באמצעות Google Cloud CLI. אפשר להוסיף את הדגל הזה כשיוצרים אשכול, או כשיוצרים או מעדכנים מאגר צמתים. אי אפשר להוסיף הגדרת מערכת של צומת באמצעות מסוף Google Cloud .

יצירת אשכול עם הגדרת מערכת הצמתים

אפשר להוסיף הגדרת מערכת של צומת במהלך יצירת אשכול באמצעות ה-CLI של gcloud או Terraform. ההוראות הבאות חלות על מאגר הצמתים שמוגדר כברירת מחדל:

‫CLI של gcloud

gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --system-config-from-file=SYSTEM_CONFIG_PATH

מחליפים את מה שכתוב בשדות הבאים:

  • CLUSTER_NAME: השם של האשכול
  • LOCATION: אזור המחשוב או האזור של האשכול
  • SYSTEM_CONFIG_PATH: הנתיב לקובץ שמכיל את ההגדרות של kubelet ושל sysctl

אחרי שמחילים תצורת מערכת של צומת, מאגר הצמתים שמוגדר כברירת מחדל באשכול משתמש בהגדרות שהגדרתם.

Terraform

כדי ליצור אשכול אזורי עם תצורת מערכת צמתים בהתאמה אישית באמצעות Terraform, אפשר להיעזר בדוגמה הבאה:

resource "google_container_cluster" "default" {
  name     = "gke-standard-regional-cluster"
  location = "us-central1"

  initial_node_count = 1

  node_config {
    # Kubelet configuration
    kubelet_config {
      cpu_manager_policy = "static"
    }

    linux_node_config {
      # Sysctl configuration
      sysctls = {
        "net.core.netdev_max_backlog" = "10000"
      }

      # Linux cgroup mode configuration
      cgroup_mode = "CGROUP_MODE_V2"

      # Linux huge page configuration
      hugepages_config {
        hugepage_size_2m = "1024"
      }
    }
  }
}

מידע נוסף על השימוש ב-Terraform זמין במאמר תמיכה ב-Terraform ל-GKE.

יצירת מאגר צמתים חדש עם הגדרת מערכת הצמתים

אפשר להוסיף הגדרת מערכת של צומת כשמשתמשים ב-ה-CLI של gcloud או ב-Terraform כדי ליצור מאגר צמתים חדש.

ההוראות הבאות מתייחסות להחלת ההגדרה של מערכת הצמתים על מאגר צמתים חדש:

‫CLI של gcloud

gcloud container node-pools create POOL_NAME \
     --cluster CLUSTER_NAME \
     --location=LOCATION \
     --system-config-from-file=SYSTEM_CONFIG_PATH

מחליפים את מה שכתוב בשדות הבאים:

  • POOL_NAME: השם של מאגר הצמתים
  • CLUSTER_NAME: שם האשכול שרוצים להוסיף לו מאגר צמתים
  • LOCATION: אזור המחשוב או האזור של האשכול
  • SYSTEM_CONFIG_PATH: הנתיב לקובץ שמכיל את ההגדרות של kubelet ושל sysctl

Terraform

כדי ליצור מאגר צמתים עם הגדרת מערכת צמתים מותאמת אישית באמצעות Terraform, אפשר להיעזר בדוגמה הבאה:

resource "google_container_node_pool" "default" {
  name    = "gke-standard-regional-node-pool"
  cluster = google_container_cluster.default.name

  node_config {
    # Kubelet configuration
    kubelet_config {
      cpu_manager_policy = "static"
    }

    linux_node_config {
      # Sysctl configuration
      sysctls = {
        "net.core.netdev_max_backlog" = "10000"
      }

      # Linux cgroup mode configuration
      cgroup_mode = "CGROUP_MODE_V2"

      # Linux huge page configuration
      hugepages_config {
        hugepage_size_2m = "1024"
      }
    }
  }
}

מידע נוסף על השימוש ב-Terraform זמין במאמר תמיכה ב-Terraform ל-GKE.

עדכון הגדרת המערכת של הצומת במאגר צמתים קיים

אפשר להגדיר או לעדכן את הגדרות המערכת של הצומת במאגר צמתים קיים. מידע נוסף על עדכון של הגדרה קיימת זמין במאמר עריכה באמצעות עדכון של מאגר צמתים קיים.

מריצים את הפקודה הבאה כדי לעדכן את מאגר הצמתים הקיים:

   gcloud container node-pools update POOL_NAME \
      --cluster=CLUSTER_NAME \
      --location=LOCATION \
      --system-config-from-file=SYSTEM_CONFIG_PATH

מחליפים את מה שכתוב בשדות הבאים:

  • POOL_NAME: השם של מאגר הצמתים שרוצים לעדכן
  • CLUSTER_NAME: שם האשכול שרוצים לעדכן
  • LOCATION: אזור המחשוב או האזור של האשכול
  • SYSTEM_CONFIG_PATH: הנתיב לקובץ שמכיל את ההגדרות של kubelet ושל sysctl

כדי לבצע את השינוי הזה צריך ליצור מחדש את הצמתים, וזה עלול לשבש את עומסי העבודה הפעילים. מידע נוסף על השינוי הספציפי הזה זמין בשורה המתאימה בטבלה שינויים ידניים שיוצרים מחדש את הצמתים באמצעות אסטרטגיית שדרוג צמתים בלי להתחשב במדיניות התחזוקה.

מידע נוסף על עדכוני צמתים זמין במאמר תכנון שיבושים בעדכוני צמתים.

עריכה של הגדרת מערכת של צומת

כדי לערוך את הגדרות המערכת של צומת, אפשר ליצור מאגר צמתים חדש עם ההגדרות הרצויות, או לעדכן את הגדרות המערכת של צומת במאגר צמתים קיים.

עריכה באמצעות יצירה של מאגר צמתים

כדי לערוך את תצורת המערכת של הצומת על ידי יצירת מאגר צמתים:

  1. יוצרים קובץ תצורה עם ההגדרה הרצויה.
  2. מוסיפים את ההגדרה למאגר צמתים חדש.
  3. מעבירים את עומסי העבודה למאגר הצמתים החדש.
  4. מוחקים את מאגר הצמתים הישן.

עריכה על ידי עדכון של מאגר צמתים קיים

כדי לערוך את הגדרת המערכת הקיימת של צומת במאגר צמתים קיים, פועלים לפי ההוראות שבכרטיסייה עדכון מאגר צמתים בקטע הוספת ההגדרה למאגר צמתים. כשמעדכנים את הגדרות המערכת של צומת, וההגדרות החדשות מבטלות את הגדרות המערכת הקיימות של מאגר הצמתים, צריך ליצור מחדש את הצמתים. אם משמיטים פרמטרים במהלך עדכון, הפרמטרים מוגדרים לערכי ברירת המחדל שלהם.

אחזור ההגדרה הקיימת של מערכת הצמתים

כדי לאחזר את הגדרת המערכת הקיימת של הצומת במאגר הצמתים – למשל, אם כבר התאמתם אישית את ההגדרה ואתם רוצים להוסיף לה – משתמשים בפקודה gcloud container node-pools describe. בפלט של הפקודה מופיעות כל ההגדרות הקיימות בקטע kubeletConfig ובקטע linuxNodeConfig. לדוגמה, קטע הקוד הבא:

  kubeletConfig:
    allowedUnsafeSysctls:
    - kernel.shm*
    - kernel.msg*
    - kernel.sem
    - fs.mqueue.*
    - net.*
    cpuManagerPolicy: static
    insecureKubeletReadonlyPortEnabled: false
    maxParallelImagePulls: 2
  linuxNodeConfig:
    sysctls:
      net.core.somaxconn: '2048'
      net.ipv4.tcp_rmem: 4096 87380 6291456

אם עדיין לא הגדרתם תצורת מערכת של צומת, הפלט לא יכלול את kubeletConfig או linuxNodeConfig.

ודאו שאם אתם מעדכנים את אפשרויות ההגדרה של מצב cgroup ב-Linux, עליכם להזין מחדש את הערכים תחת linuxConfig, גם אם פלט הפקודה מציג אותם כ-linuxNodeConfig.

איפוס ההגדרה הקיימת של מערכת הצמתים

אם רוצים לאפס את הגדרות המערכת של הצומת בחזרה לברירות המחדל, צריך לעדכן את קובץ התצורה עם ערכים ריקים בשדות kubelet ו-sysctl, למשל:

kubeletConfig: {}
linuxConfig:
  sysctl: {}

מחיקת הגדרת מערכת של צומת

כדי להסיר הגדרת מערכת של צומת, פועלים לפי השלבים הבאים:

  1. יצירת מאגר צמתים
  2. מעבירים את עומסי העבודה למאגר הצמתים החדש.
  3. מוחקים את מאגר הצמתים עם הגדרת המערכת הישנה של הצמתים.

אפשרויות ההגדרה של kubelet

בטבלאות שבקטע הזה מפורטות האפשרויות של kubelet שאפשר לשנות.

ניהול מעבד (CPU)

בטבלה הבאה מפורטות האפשרויות לניהול מעבד ל-kubelet.

הגדרות תצורה kubelet הגבלות הגדרת ברירת המחדל תיאור
cpuCFSQuota הערך חייב להיות true או false. true ההגדרה הזו אוכפת את מגבלת המעבד של ה-Pod. הגדרה של הערך הזה ל-false פירושה שמגבלות ה-CPU של ה-Pods מתעלמות.

התעלמות ממגבלות ה-CPU עשויה להיות מועילה בתרחישים מסוימים שבהם ה-Pods רגישים למגבלות ה-CPU. הסיכון בהשבתת cpuCFSQuota הוא ש-Pod לא מורשה עלול לצרוך יותר משאבי CPU מהמתוכנן.
cpuCFSQuotaPeriod חייב להיות משך זמן. "100ms" ההגדרה הזו קובעת את ערך התקופה של מכסת ה-CPU CFS, ‏ cpu.cfs_period_us, שמציין את התקופה שבה צריך להקצות מחדש את הגישה של cgroup למשאבי ה-CPU. האפשרות הזו מאפשרת לכם לשנות את התנהגות ויסות הנתונים של יחידת העיבוד המרכזית (CPU).

ניהול זיכרון ופינוי נתונים

בטבלה הבאה מפורטות האפשרויות שניתנות לשינוי לניהול הזיכרון ולפינוי נתונים. בקטע הזה יש גם טבלה נפרדת שמתארת את האפשרויות שניתנות לשינוי עבור הדגל evictionSoft.

הגדרות תצורה kubelet הגבלות הגדרת ברירת המחדל תיאור
evictionSoft מפה של שמות האותות. הגבלות על ערכים מפורטות בטבלה הבאה. none ההגדרה הזו ממפה שמות של אותות לכמות או לאחוז שמגדירים ספי הרחקה רכה. לסף פינוי רך חייבת להיות תקופת חסד. ה-kubelet לא מסיר Pods עד שתקופת ההמתנה מסתיימת.
evictionSoftGracePeriod מפה של שמות האותות. לכל שם של אות, הערך צריך להיות משך חיובי שקטן מ-5m. יחידות הזמן התקפות הן ns,‏ us (או µs),‏ ms,‏ s או m. none ההגדרה הזו ממפה שמות של אותות למשכי זמן שמגדירים תקופות חסד לספים של פינוי רך. לכל סף של פינוי רך צריך להיות תקופת חסד תואמת.
evictionMinimumReclaim מפה של שמות האותות. לכל שם של אות, הערך צריך להיות אחוז חיובי שקטן מ-10%. none ההגדרה הזו ממפה שמות של אותות לאחוזים שמגדירים את הכמות המינימלית של משאב נתון ש-kubelet משחרר כשהוא מבצע פינוי של Pod.
evictionMaxPodGracePeriodSeconds הערך צריך להיות מספר שלם בין 0 ל-300. 0 ההגדרה הזו מגדירה, בשניות, את תקופת החסד המקסימלית לסיום של Pod במהלך פינוי.

בטבלה הבאה מוצגות האפשרויות שניתנות לשינוי עבור הדגל evictionSoft. אותן אפשרויות חלות גם על הדגלים evictionSoftGracePeriod ו-evictionMinimumReclaim עם הגבלות שונות.

הגדרות תצורה kubelet הגבלות הגדרת ברירת המחדל תיאור
memoryAvailable הערך חייב להיות כמות גדולה מ-100Mi וקטנה מ-50% של הזיכרון של הצומת. none ההגדרה הזו מייצגת את כמות הזיכרון שזמינה לפני הוצאה רכה. ההגדרה קובעת את עוצמת האות memory.available ב-kubelet .
nodefsAvailable הערך צריך להיות בין 10% ל-50%. none ההגדרה הזו מייצגת את ה-nodefs שזמין לפני הוצאה רכה. ההגדרה קובעת את עוצמת האות nodefs.available ב-kubelet .
nodefsInodesFree הערך צריך להיות בין 5% ל-50%. none ההגדרה הזו מייצגת את ה-inodes של nodefs שפנויים לפני הוצאה רכה. ההגדרה קובעת את עוצמת האות nodefs.inodesFree ב-kubelet .
imagefsAvailable הערך צריך להיות בין 15% ל-50%. none ההגדרה הזו מייצגת את מערכת הקבצים של התמונות שזמינה לפני הוצאה רכה. ההגדרה קובעת את עוצמת האות imagefs.available ב-kubelet .
imagefsInodesFree הערך צריך להיות בין 5% ל-50%. none ההגדרה הזו מייצגת את צמתי ה-inode של imagefs שפנויים לפני הוצאה רכה. ההגדרה קובעת את עוצמת האות imagefs.inodesFree ב-kubelet.
pidAvailable הערך צריך להיות בין 10% ל-50%. none ההגדרה הזו מייצגת את מזהי התהליכים שזמינים לפני הוצאה רכה. ההגדרה קובעת את עוצמת האות pid.available ב-kubelet.
singleProcessOOMKill הערך חייב להיות true או false. true לצמתים של cgroupv1, ‏ false לצמתים של cgroupv2. ההגדרה הזו קובעת אם התהליכים במאגר נסגרים בגלל חריגה מזיכרון בנפרד או כקבוצה.

זמין בגרסאות GKE‏ ‎1.32.4-gke.1132000, ‏ ‎1.33.0-gke.1748000 ואילך.

ניהול PID

בטבלה הבאה מפורטות האפשרויות שניתן לשנות לניהול מזהי PID.

הגדרות תצורה kubelet הגבלות הגדרת ברירת המחדל תיאור
podPidsLimit הערך צריך להיות בין 1024 ל-4194304. none ההגדרה הזו קובעת את המספר המקסימלי של מזהי תהליכים (PID) שכל Pod יכול להשתמש בהם.

רישום ביומן

בטבלה הבאה מתוארות האפשרויות שניתן לשנות לגבי הרישום ביומן.

הגדרות תצורה kubelet הגבלות הגדרת ברירת המחדל תיאור
containerLogMaxSize הערך חייב להיות מספר חיובי וסיומת של יחידה בין 10Mi ל-500Mi, כולל. 10Mi ההגדרה הזו שולטת בהגדרה containerLogMaxSize של מדיניות רוטציה של יומן כלי המכיל, שמאפשרת להגדיר את הגודל המקסימלי של כל קובץ יומן. ערך ברירת המחדל הוא 10Mi. יחידות המרחק הקבילות הן Ki,‏ Mi ו-Gi.
containerLogMaxFiles הערך צריך להיות מספר שלם בין 2 ל-10, כולל. 5 ההגדרה הזו שולטת בהגדרה containerLogMaxFiles של מדיניות הרוטציה של קובצי יומן הכלי המכיל, שמאפשרת לכם להגדיר את המספר המקסימלי של קבצים שמותרים לכל כלי מכיל בנפרד. ערך ברירת המחדל הוא 5. הגודל הכולל של היומן (container_log_max_size*container_log_max_files) לכל מאגר לא יכול לחרוג מ-1% מהאחסון הכולל של הצומת.

איסוף אשפה של תמונות

בטבלה הבאה מתוארות האפשרויות שניתנות לשינוי לגבי איסוף של תמונות.

הגדרות תצורה kubelet הגבלות הגדרת ברירת המחדל תיאור
imageGCHighThresholdPercent הערך צריך להיות מספר שלם בין 10 ל-85, כולל, וגבוה מ-imageGcLowThresholdPercent. 85 ההגדרה הזו מגדירה את אחוז השימוש בדיסק שמעליו מתבצע איסוף של תמונות. הוא מייצג את השימוש הכי גבוה בדיסק שצריך לבצע בו איסוף אשפה. כדי לחשב את האחוז, מחלקים את הערך של השדה הזה ב-100.
imageGCLowThresholdPercent הערך חייב להיות מספר שלם בין 10 ל-85, כולל, וקטן מ-imageGcHighThresholdPercent. 80 ההגדרה הזו מגדירה את אחוז השימוש בדיסק שלפניו אף פעם לא מופעל איסוף של תמונות. הערך הזה מייצג את השימוש הכי נמוך בדיסק שצריך להגיע אליו כדי לבצע איסוף אשפה. כדי לחשב את האחוז, מחלקים את הערך של השדה הזה ב-100.
imageMinimumGcAge הערך חייב להיות משך זמן שלא עולה על 2m. יחידות הזמן התקפות הן ns,‏ us (או µs),‏ ms,‏ s,‏ m או h. 2m ההגדרה הזו מגדירה את הגיל המינימלי של תמונה לא בשימוש לפני שהיא נאספת על ידי איסוף האשפה.
imageMaximumGcAge הערך חייב להיות משך זמן. 0s

ההגדרה הזו מגדירה את הגיל המקסימלי של תמונה שלא נעשה בה שימוש לפני שהיא נאספת כזבל. ערך ברירת המחדל של השדה הזה הוא 0s, שמשבית את השדה. לכן, תמונות לא יימחקו על סמך העובדה שלא נעשה בהן שימוש. אם מציינים את הערך הזה, הוא צריך להיות גדול מהערך בשדה imageMinimumGcAge.

זמין בגרסאות GKE‏ ‎1.30.7-gke.1076000, ‏ ‎1.31.3-gke.1023000 ואילך.

שליפת תמונות

בטבלה הבאה מתוארות האפשרויות שניתן לשנות לגבי משיכת תמונות.

הגדרות תצורה kubelet הגבלות הגדרת ברירת המחדל תיאור
maxParallelImagePulls הערך חייב להיות מספר שלם בין 2 ל-5, כולל. 2 או 3 בהתאם לסוג הדיסק. ההגדרה הזו מגדירה את המספר המקסימלי של משיכות תמונות במקביל. ערך ברירת המחדל נקבע לפי סוג דיסק האתחול.

אבטחה ופעולות לא בטוחות

בטבלה הבאה מפורטות האפשרויות שניתנות לשינוי להגדרת אבטחה ולטיפול בפעולות לא בטוחות.

הגדרות תצורה kubelet הגבלות הגדרת ברירת המחדל תיאור
allowedUnsafeSysctls

רשימה של sysctl שמות או קבוצות. הקבוצות המותרות הן:sysctl

  • kernel.shm*
  • kernel.msg*
  • kernel.sem
  • fs.mqueue.*
  • net.*.
none ההגדרה הזו מגדירה רשימת היתרים של שמות או קבוצות לא בטוחים של sysctl, שמופרדים באמצעות פסיקים, שאפשר להגדיר ב-Pods.sysctl
insecureKubeletReadonlyPortEnabled הערך חייב להיות בוליאני, כלומר true או false. true ההגדרה הזו משביתה את היציאה הלא מאובטחת kubelet לקריאה בלבד 10255 בכל מאגר צמתים חדש באשכול. אם מגדירים את ההגדרה הזו בקובץ הזה, אי אפשר להשתמש בלקוח GKE API כדי לשנות את ההגדרה ברמת האשכול.

מנהלי משאבים

‫Kubernetes מציע חבילה של מנהלי משאבים. אפשר להגדיר את מנהלי המשאבים האלה כדי לתאם ולבצע אופטימיזציה של התאמת משאבי הצמתים ל-Pods שהוגדרו עם דרישות ספציפיות למשאבי מעבדים, מכשירים וזיכרון (hugepages).

בטבלה הבאה מפורטות האפשרויות שניתנות לשינוי במנהלי משאבים.

הגדרות תצורה kubelet הגבלות הגדרת ברירת המחדל תיאור
cpuManagerPolicy הערך חייב להיות none או static. none ההגדרה הזו קובעת את kubelet מדיניות ניהול המעבד. ערך ברירת המחדל הוא none, שהוא סכמת זיקה (affinity) של CPU שמוגדרת כברירת מחדל, ולא מספקת זיקה מעבר למה שמתזמן מערכת ההפעלה עושה באופן אוטומטי.

הגדרת הערך הזה ל-static מאפשרת להקצות מעבדי CPU בלעדיים ל-Pods שנמצאים גם במחלקת QoS‏ Guaranteed וגם יש להם בקשות CPU של מספרים שלמים.
memoryManager.policy הערך חייב להיות None או Static. None

ההגדרה הזו קובעת את kubelet מדיניות ניהול הזיכרון. עם ערך ברירת המחדל None, ‏ Kubernetes פועל כאילו מנהל הזיכרון לא קיים.

אם מגדירים את הערך הזה ל-Static, מדיניות ניהול הזיכרון שולחת רמזים לגבי הטופולוגיה שתלויים בסוג ה-Pod. פרטים נוספים זמינים במאמר בנושא מדיניות סטטית.

ההגדרה הזו נתמכת באשכולות שמישור הבקרה שלהם מריץ את GKE בגרסה 1.32.3-gke.1785000 ואילך.

topologyManager

הערך צריך להיות אחת מההגדרות הנתמכות לכל אחד מהשדות הרלוונטיים.

אי אפשר להגדיר את השדה topologyManager כשמשתמשים בהוראות של Terraform כדי להוסיף את ההגדרה למאגר צמתים רגיל.

  • policy: none
  • scope: container

ההגדרות האלה שולטות בהגדרות של kubelet Topology Manager באמצעות שדות המשנה policy ו-scope. מנהל הטופולוגיה מתאם בין קבוצת הרכיבים שאחראים לאופטימיזציה של הביצועים שקשורה לבידוד המעבד, לזיכרון ולמיקום המכשיר.

אפשר להגדיר את המדיניות ואת הגדרות ההיקף בנפרד. מידע נוסף על ההגדרות האלה זמין במאמר היקפים ומדיניות של Topology Manager.

ההגדרה הזו נתמכת במשאבי GKE הבאים:

  • אשכולות שמישור הבקרה שלהם מריץ את GKE בגרסה ‎1.32.3-gke.1785000 ואילך. במקרים של אשכולות עם מישור הבקרה וצמתים שמופעלת בהם גרסה 1.33.0-gke.1712000 ואילך, Topology Manager מקבל גם מידע על טופולוגיית ה-GPU.
  • צמתים עם סוגי המכונות הבאים: A2, ‏ A3, ‏ A4, ‏ C3, ‏ C4, ‏ C4A, ‏ G2, ‏ G4, ‏ M3, ‏ N4

אפשרויות הגדרה של Sysctl

כדי לשפר את הביצועים של המערכת, אפשר לשנות את הפרמטרים של ליבת Linux. בטבלאות שבקטע הזה מתוארים פרמטרים שונים של ליבת המערכת שאפשר להגדיר.

פרמטרים של מערכת קבצים (fs.*)

בטבלה הבאה מתוארים הפרמטרים שניתנים לשינוי במערכת הקבצים של Linux. ההגדרות האלה קובעות את ההתנהגות של מערכת הקבצים של Linux, כמו מגבלות על ידיות קבצים ומעקב אחרי אירועים.

פרמטר Sysctl הגבלות תיאור
fs.aio-max-nr הערך צריך להיות בין [65536, 4194304]. ההגדרה הזו מגדירה את המספר המקסימלי של בקשות קלט/פלט אסינכרוניות בכל המערכת.
fs.file-max הערך חייב להיות בין [104857, 67108864]. ההגדרה הזו מגדירה את המספר המקסימלי של ידיות קבצים שיכול ליבת Linux להקצות.
fs.inotify.max_user_instances הערך צריך להיות בין [8192, 1048576]. ההגדרה הזו מגדירה את המספר המקסימלי של מופעי inotify שמשתמש יכול ליצור.
fs.inotify.max_user_watches הערך צריך להיות בין [8192, 1048576]. ההגדרה הזו מגדירה את המספר המקסימלי של שעוני inotify שמשתמש יכול ליצור.
fs.nr_open הערך צריך להיות בין [1048576, 2147483584]. ההגדרה הזו מגדירה את המספר המקסימלי של מתארי קבצים שאפשר לפתוח בתהליך.

פרמטרים של ליבת המערכת (kernel.*)

בטבלה הבאה מפורטים הפרמטרים שניתנים לשינוי בקרנל של Linux. ההגדרות האלה קובעות את הפונקציות העיקריות של ליבת המערכת, כולל הקצאת זיכרון משותף.

פרמטר Sysctl הגבלות תיאור
kernel.shmmni הערך צריך להיות בין [4096, 32768]. ההגדרה הזו מגדירה את המספר המקסימלי של קטעי זיכרון משותפים בכל המערכת. אם לא מגדירים את הערך הזה, ברירת המחדל היא 4096.
kernel.shmmax הערך צריך להיות בין [0, 18446744073692774399]. ההגדרה הזו מגדירה את הגודל המקסימלי, בבייטים, של קטע זיכרון משותף יחיד שמותר לליבה להשתמש בו. המערכת מתעלמת מהערך הזה אם הוא גדול מכמות ה-RAM בפועל, כלומר, אפשר לשתף את כל ה-RAM הזמין.
kernel.shmall הערך צריך להיות בין [0, 18446744073692774399]. ההגדרה הזו מגדירה את המספר הכולל של דפי זיכרון משותף שאפשר להשתמש בהם במערכת בכל פעם. גודל הדף הוא 4,096 בייט בארכיטקטורה של AMD64 ו-Intel 64.
kernel.perf_event_paranoid הערך חייב להיות בין ‎[-1, 3]‎. ההגדרה הזו קובעת את השימוש במערכת אירועי הביצועים על ידי משתמשים ללא הרשאות שאין להם CAP_PERFMON. ערך ברירת המחדל הוא 2 בקרנל.
kernel.sched_rt_runtime_us הערך חייב להיות בין ‎[-1, 1000000]‎. ההגדרה הזו מגדירה מגבלה גלובלית על משך הזמן שבו אפשר להשתמש בתזמון בזמן אמת.
kernel.softlockup_panic אופציונלי (בוליאני). ההגדרה הזו קובעת אם הליבה תפסיק לפעול כשמתגלה נעילה רכה.
kernel.yama.ptrace_scope הערך חייב להיות בין 0 ל-3.

ההגדרה הזו מגדירה את ההיקף וההגבלות של קריאת המערכת ptrace(), ומשפיעה על ניפוי הבאגים של התהליך ועל המעקב אחריו. הערכים הנתמכים כוללים את האפשרויות הבאות:

  • 0: הרשאות ptrace קלאסיות.
  • 1: ptrace מוגבל, שמוגדר כברירת מחדל בהרבה הפצות. תהליכי צאצא או CAP_SYS_PTRACE בלבד.
  • 2: ptrace לאדמינים בלבד. רק תהליכים עם CAP_SYS_PTRACE.
  • 3: אין ptrace. אסור לבצע קריאות של ptrace.
kernel.kptr_restrict הערך צריך להיות בין [0, 2]. ההגדרה הזו מציינת אם יש הגבלות על חשיפת כתובות ליבה דרך /proc וממשקים אחרים.
kernel.dmesg_restrict אופציונלי (בוליאני). ההגדרה הזו מציינת אם משתמשים ללא הרשאות מנועים מלהשתמש ב-dmesg(8) כדי להציג הודעות ממאגר היומן של ליבת המערכת.
kernel.sysrq הערך חייב להיות בין [0, 511].

ההגדרה הזו קובעת אילו פונקציות מותר להפעיל באמצעות מקש SysRq. הערכים האפשריים כוללים:

  • 0: משבית לחלוטין את sysrq.
  • 1: מפעיל את כל הפונקציות של sysrq.
  • >1: ביטמסק של פונקציות sysrq מותרות. מידע נוסף זמין במאמר Linux Magic System Request Key Hacks.

פרמטרים של רשת (net.*)

בטבלה הבאה מפורטים הפרמטרים של הרשת שאפשר לשנות. ההגדרות האלה משפרות את הביצועים ואת ההתנהגות של מחסנית הרשת, החל ממאגרי שקעים ועד למעקב אחר חיבורים.

פרמטר Sysctl הגבלות תיאור
net.core.busy_poll מספר שלם חיובי כלשהו, קטן מ-2147483647. ההגדרה הזו מגדירה את הזמן הקצוב לתפוגה של סקרים עסוקים עם זמן אחזור נמוך עבור סקרים ובחירה. הערך הזה מייצג את הזמן המשוער במיקרו-שניות להמתנה בלולאה פעילה לאירועים.
net.core.busy_read מספר שלם חיובי כלשהו, קטן מ-2147483647. ההגדרה הזו מגדירה את הזמן הקצוב לתפוגה של סקר פעיל עם זמן אחזור נמוך לקריאות של שקעים. הערך הזה מייצג את הזמן המשוער במיקרו-שניות של לולאה פעילה בהמתנה לחבילות בתור של המכשיר.
net.core.netdev_max_backlog מספר שלם חיובי כלשהו, קטן מ-2147483647. ההגדרה הזו מגדירה את המספר המקסימלי של מנות, שנמצאות בתור בצד הקלט, כשהממשק מקבל מנות מהר יותר ממה שהליבה יכולה לעבד אותן.
net.core.rmem_default מספר שלם חיובי כלשהו, קטן מ-2147483647. הגדרה זו מגדירה את גודל ברירת המחדל של שטח האחסון הזמני של שקע הקבלה, בבייטים.
net.core.rmem_max מספר שלם חיובי כלשהו, קטן מ-2147483647. ההגדרה הזו מגדירה את הגודל המקסימלי של שטח האחסון הזמני של שקע הקבלה, בבייטים.
net.core.wmem_default מספר שלם חיובי כלשהו, קטן מ-2147483647. ההגדרה הזו מגדירה את הגדרת ברירת המחדל, בבייט, של מאגר השליחה של שקע.
net.core.wmem_max מספר שלם חיובי כלשהו, קטן מ-2147483647. ההגדרה הזו מגדירה את הגודל המקסימלי של שטח האחסון הזמני של שקע השליחה, בבייטים.
net.core.optmem_max מספר שלם חיובי כלשהו, קטן מ-2147483647. ההגדרה הזו מגדירה את הגודל המקסימלי של שטח האחסון הזמני של הנתונים הנלווים שמותר לכל שקע.
net.core.somaxconn הערך צריך להיות בין [‎128, 2147483647]. ההגדרה הזו מגדירה את המגבלה של ה-backlog של socket listen(), שנקרא במרחב המשתמש SOMAXCONN. ההגדרה הזו מוגדרת כברירת מחדל לערך 128.
net.ipv4.tcp_rmem ‫{min, default, max} (כל אחד מהערכים > 0, זיכרון בבייט). ההגדרה הזו מגדירה את הגודל המינימלי, בבייטים, של מאגר הנתונים הזמני לקבלה שמשמש שקעי UDP בפיקוח. הגדרת ברירת המחדל היא עמוד אחד.
net.ipv4.tcp_wmem ‫{min, default, max} (כל אחד מהערכים > 0, זיכרון בבייט). ההגדרה הזו מגדירה את הגודל המינימלי, בבייטים, של מאגר השליחה שמשמש שקעי UDP במצב מוגבל. הגדרת ברירת המחדל היא עמוד אחד.
net.ipv4.tcp_tw_reuse חייב להיות בין {0, 1}. ההגדרה הזו קובעת אם לאפשר שימוש חוזר בסוקטים במצב TIME_WAIT לחיבורים חדשים, כשזה בטוח מבחינת הפרוטוקול. ערך ברירת המחדל הוא 0.
net.ipv4.tcp_max_orphans הערך צריך להיות בין [16384, 262144]. ההגדרה הזו מגדירה את המספר המקסימלי של שקעי TCP שלא מצורפים ל-handle של קובץ משתמש כלשהו.
net.ipv4.tcp_max_tw_buckets הערך צריך להיות בין [4096, 2147483647]. ההגדרה הזו מגדירה את המספר המקסימלי של שקעי timewait שהמערכת יכולה להחזיק בו-זמנית. אם חורגים מהמספר הזה, שקע ההמתנה מושמד באופן מיידי ומוצגת אזהרה.
net.ipv4.tcp_syn_retries הערך חייב להיות בין [1, 127]. ההגדרה הזו מגדירה את מספר הפעמים שבהן מועברות מחדש בקשות SYN ראשוניות לניסיון חיבור TCP פעיל.
net.ipv4.tcp_ecn הערך צריך להיות בין [0, 2]. ההגדרה הזו קובעת את השימוש ב-Explicit Congestion Notification ‏ (ECN) על ידי TCP. השימוש ב-ECN מתבצע רק אם שני הצדדים של חיבור ה-TCP מציינים תמיכה בו.
net.ipv4.tcp_mtu_probing הערך צריך להיות בין [0, 2].

ההגדרה הזו שולטת ב-TCP Packetization-Layer Path MTU Discovery. הערכים הנתמכים הם:

  • 0: מושבת.
  • 1: מושבת כברירת מחדל, מופעל כשמזוהה חור שחור של ICMP.
  • 2: תמיד מופעל. שימוש ב-MSS הראשוני של tcp_base_mss.
net.ipv4.tcp_congestion_control חייב להיות אחד מהערכים הנתמכים בעמודה תיאור.

ההגדרה הזו לא נתמכת כש-GKE Dataplane V2 מופעל באשכול.

הערכים הנתמכים הבאים תלויים בסוג התמונה:

  • COS: reno, ‏ cubic, ‏ bbr, ‏ lp, ‏ htcp (זמין ב-GKE מגרסה 1.34.1-gke.3355001 ואילך)
  • Ubuntu: reno, cubic, bbr, lp, htcp, vegas, dctcp, bic, cdg, highspeed, hybla, illinois, nv, scalable, veno, westwood, yeah
net.ipv6.conf.all.disable_ipv6 בוליאני. שינוי הערך הזה זהה לשינוי ההגדרה conf/default/disable_ipv6 וגם לשינוי כל ההגדרות disable_ipv6 לכל ממשק לאותו ערך.
net.ipv6.conf.default.disable_ipv6 בוליאני. ההגדרה הזו משביתה את הפעולה של IPv6.
net.netfilter.nf_conntrack_acct חייב להיות בין {0, 1}. ההגדרה הזו מאפשרת את זרימת מעקב החיבורים. ערך ברירת המחדל הוא 0, כלומר ההגדרה מושבתת. זמין בגרסאות GKE‏ ‎1.32.0-gke.1448000 ואילך.
net.netfilter.nf_conntrack_max הערך צריך להיות בין [65536, 4194304]. ההגדרה הזו מגדירה את הגודל של טבלת מעקב החיבורים. אם מגיעים לערך המקסימלי, החיבור החדש ייכשל. זמין בגרסאות GKE‏ ‎1.32.0-gke.1448000 ואילך.
net.netfilter.nf_conntrack_buckets הערך חייב להיות בין [65536, 524288].

ההגדרה הזו מגדירה את הגודל של טבלת הגיבוב. ההגדרה המומלצת היא תוצאה של הפעולות הבאות: nf_conntrack_max = nf_conntrack_buckets * 4.

זמין בגרסאות GKE‏ ‎1.32.0-gke.1448000 ואילך.

net.netfilter.nf_conntrack_tcp_timeout_close_wait הערך צריך להיות בין [60, 3600].

ההגדרה הזו מגדירה את התקופה, בשניות, שבה חיבורי ה-TCP יכולים להישאר במצב CLOSE_WAIT. ערך ברירת המחדל הוא 3600.

זמין בגרסאות GKE‏ ‎1.32.0-gke.1448000 ואילך.

net.netfilter.nf_conntrack_tcp_timeout_established הערך חייב להיות בין [600, 86400].

ההגדרה הזו מגדירה את משך הזמן בשניות שבו חיבורים לא פעילים נשארים בטבלת מעקב החיבורים לפני שהם נמחקים ממנה באופן אוטומטי.

זמין בגרסאות GKE‏ ‎1.32.0-gke.1448000 ואילך.

net.netfilter.nf_conntrack_tcp_timeout_time_wait הערך חייב להיות בין [1, 600].

ההגדרה הזו מגדירה את התקופה, בשניות, שבה חיבורי ה-TCP יכולים להישאר במצב TIME_WAIT. ערך ברירת המחדל הוא 120.

זמין בגרסאות GKE‏ ‎1.32.0-gke.1448000 ואילך.

פרמטרים של זיכרון וירטואלי (vm.*)

בטבלה הבאה מפורטים הפרמטרים שניתן לשנות במערכת המשנה של הזיכרון הווירטואלי. ההגדרות האלה מנהלות את מערכת המשנה של הזיכרון הווירטואלי, שקובעת איך ליבת המערכת מטפלת בזיכרון, בהחלפה ובשמירת נתונים במטמון בדיסק.

פרמטר sysctl הגבלות תיאור
vm.max_map_count הערך חייב להיות בין [65536, 2147483647]. הקובץ הזה מגדיר את המספר המקסימלי של אזורי מיפוי זיכרון שיכולים להיות לתהליך.
vm.dirty_background_ratio הערך חייב להיות בין [1, 100]. הגדרה זו מגדירה את אחוז זיכרון המערכת שניתן למלא בדפים מלוכלכים לפני שתהליכי משנה של ניקוי ליבת הרקע יתחילו כתיבה חוזרת. הערך חייב להיות קטן מהערך של השדה vm.dirty_ratio.
vm.dirty_background_bytes הערך חייב להיות בין [0, 68719476736].

ההגדרה הזו מגדירה את כמות הזיכרון המלוכלך שבה השרשורים של מנקה הליבה ברקע מתחילים לכתוב בחזרה.

חשוב לדעת ש-vm.dirty_background_bytes הוא המקביל של vm.dirty_background_ratio. אפשר לציין רק אחת מההגדרות האלה.

vm.dirty_expire_centisecs הערך צריך להיות בין [0, 6000]. הגדרה זו מגדירה את הגיל המקסימלי, במאיות השנייה, שבו נתונים מלוכלכים יכולים להישאר בזיכרון לפני ששרשורי ניקוי של ליבת המערכת כותבים אותם לדיסק.
vm.dirty_ratio הערך חייב להיות בין [1, 100]. ההגדרה הזו מגדירה את אחוז זיכרון המערכת שאפשר למלא בדפים מלוכלכים לפני שתהליכים שמבצעים כתיבות נאלצים להיחסם ולכתוב נתונים מלוכלכים באופן סינכרוני.
vm.dirty_bytes הערך חייב להיות בין [0, 68719476736].

ההגדרה הזו מגדירה את כמות הזיכרון המלוכלך שבה תהליך שיוצר כתיבות לדיסק מתחיל לכתוב בעצמו. הערך המינימלי המותר של vm.dirty_bytes הוא שני עמודים בבייטים. המערכת תתעלם מכל ערך שיהיה נמוך מהמגבלה הזו, וההגדרה הקודמת תישמר.

חשוב לדעת ש-vm.dirty_bytes הוא המקביל של vm.dirty_ratio. אפשר לציין רק אחת מההגדרות האלה.

vm.dirty_writeback_centisecs הערך חייב להיות בין [0, 1000]. ההגדרה הזו מגדירה את המרווח, במאיות של שנייה, שבו השרשורים של הכלי לניקוי הליבה מתעוררים כדי לכתוב נתונים מלוכלכים ישנים לדיסק.
vm.overcommit_memory חייב להיות בין {0, 1, 2}.

ההגדרה הזו קובעת את האסטרטגיה של ליבת המערכת לטיפול בהקצאת יתר של זיכרון. הערכים האפשריים הם:

  • 0: דחיית הקצאות גדולות
  • 1: תמיד לאפשר (ערך ברירת המחדל)
  • 2: מניעת ביצוע commit מעבר ל-swap + יחס של RAM

ההגדרה הזו לא נתמכת במחשבים עם זיכרון של פחות מ-15 GB.

vm.overcommit_ratio הערך צריך להיות בין 0 ל-100. ההגדרה הזו מגדירה את אחוז ה-RAM הפיזי שמותר להקצאת יתר כשהערך של השדה vm.overcommit_memory מוגדר ל-2.
vm.vfs_cache_pressure הערך צריך להיות בין 0 ל-100. ההגדרה הזו משנה את ההעדפה של ליבת המערכת לגבי שחרור זיכרון שמשמש למטמון של dentry (ספרייה) ו-inode.
vm.swappiness הערך צריך להיות בין [0, 200]. ההגדרה הזו קובעת את הנטייה של ליבת מערכת ההפעלה להעביר תהליכים מזיכרון פיזי לדיסק ההחלפה. ערך ברירת המחדל הוא 60.
vm.watermark_scale_factor הערך צריך להיות בין [10, 3000]. ההגדרה הזו קובעת את רמת האגרסיביות של kswapd. הוא מגדיר את הזיכרון שנותר לפני ש-kswapd מתעורר ואת הזיכרון שצריך לפנות לפני שהוא נכנס למצב שינה. ערך ברירת המחדל הוא 10.
vm.min_free_kbytes הערך צריך להיות בין [67584, 1048576]. ההגדרה הזו מגדירה את הזיכרון הפנוי המינימלי לפני שגיאת OOM. ערך ברירת המחדל הוא 67584.

מידע נוסף על הערכים הנתמכים של כל דגל sysctl זמין במסמכי התיעוד של ה-CLI של gcloud בנושא ‎--system-config-from-file.

יכול להיות שלמרחבי שמות שונים של Linux יהיו ערכים ייחודיים עבור דגל sysctl מסוים, אבל יכול להיות שערכים אחרים יהיו גלובליים לכל הצומת. עדכון האפשרויות של sysctl באמצעות הגדרת מערכת צמתים עוזר לוודא שה-sysctl מוחל באופן גלובלי בצומת ובכל מרחב שמות, כך שלכל Pod יש ערכי sysctl זהים בכל מרחב שמות של Linux.

אפשרויות להגדרת מצב cgroup ב-Linux

זמן הריצה של המאגר ו-kubelet משתמשים ב-cgroups של ליבת Linux לניהול משאבים, כמו הגבלת כמות המעבד או הזיכרון שלכל מאגר ב-Pod יש גישה אליהם. קיימות שתי גרסאות של מערכת המשנה cgroup בליבה: cgroupv1 ו-cgroupv2. התמיכה ב-Kubernetes ב-cgroupv2 הושקה כאלפא ב-Kubernetes גרסה 1.18, כבטא בגרסה 1.22 וכ-GA בגרסה 1.25. מידע נוסף מופיע במאמרי העזרה בנושא Kubernetes cgroups v2.

הגדרת מערכת הצמתים מאפשרת להתאים אישית את הגדרת קבוצת הבקרה של מאגרי הצמתים. אפשר להשתמש ב-cgroupv1 או ב-cgroupv2. ‫GKE משתמש ב-cgroupv2 למאגרי צמתים חדשים במצב Standard שמריצים גרסה 1.26 ואילך, וב-cgroupv1 למאגרי צמתים שמריצים גרסאות מוקדמות מ-1.26. במאגרי צמתים שנוצרו באמצעות הקצאת צמתים אוטומטית (NAP), הגדרת cgroup תלויה בגרסה הראשונית של האשכול, ולא בגרסה של מאגר הצמתים. אין תמיכה ב-cgroupv1 במכונות Arm.

אתם יכולים להשתמש בהגדרת המערכת של הצומת כדי לשנות את ההגדרה של מאגר צמתים לשימוש ב-cgroupv1 או ב-cgroupv2 באופן מפורש. אם משדרגים מאגר צמתים קיים שמשתמש ב-cgroupv1 לגרסה 1.26, ההגדרה לא משתנה ל-cgroupv2. מאגרי צמתים קיימים שמופעלת בהם גרסה מוקדמת יותר מ-1.26 ושלא כוללים הגדרת cgroup בהתאמה אישית, ימשיכו להשתמש ב-cgroupv1. כדי לשנות את ההגדרה, צריך לציין במפורש את cgroupv2 עבור מאגר הצמתים הקיים.

לדוגמה, כדי להגדיר את מאגר הצמתים לשימוש ב-cgroupv2, משתמשים בקובץ תצורה של מערכת הצמתים כמו זה שבהמשך:

linuxConfig:
  cgroupMode: 'CGROUP_MODE_V2'

אלה האפשרויות הנתמכות של cgroupMode:

  • CGROUP_MODE_V1: שימוש ב-cgroupv1 במאגר הצמתים.
  • CGROUP_MODE_V2: שימוש ב-cgroupv2 במאגר הצמתים.
  • CGROUP_MODE_UNSPECIFIED: שימוש בהגדרת ברירת המחדל של GKE cgroup.

כדי להשתמש ב-cgroupv2, צריך לעמוד בדרישות ובמגבלות הבאות:

  • כדי להשתמש במאגר צמתים שפועלת בו גרסה קודמת ל-1.26, צריך להשתמש ב-CLI של gcloud בגרסה 408.0.0 ואילך. לחלופין, אפשר להשתמש ב-gcloud beta בגרסה 395.0.0 ואילך.
  • האשכול ומאגרי הצמתים צריכים להריץ GKE בגרסה 1.24.2-gke.300 ואילך.
  • חובה להשתמש בקובץ אימג' של צומת של מערכת הפעלה שמותאמת לקונטיינרים עם containerd או של Ubuntu עם containerd.
  • אם עומסי עבודה מסוימים שלכם מסתמכים על קריאה של מערכת הקבצים של cgroup ‏(/sys/fs/cgroup/...), חשוב לוודא שהם תואמים ל-API של cgroupv2.
  • אם אתם משתמשים בכלי ניטור או בכלי צד שלישי, חשוב לוודא שהם תואמים ל-cgroupv2.
  • אם אתם משתמשים בעומסי עבודה של Java‏ (JDK), מומלץ להשתמש בגרסאות שתומכות באופן מלא ב-cgroupv2, כולל JDK 8u372,‏ JDK 11.0.16 ואילך או JDK 15 ואילך.

אימות ההגדרה של cgroup

כשמוסיפים הגדרת מערכת של צומת, GKE צריך ליצור מחדש את הצמתים כדי להטמיע את השינויים. אחרי הוספת ההגדרה למאגר צמתים והצמתים נוצרים מחדש, אפשר לאמת את ההגדרה החדשה.

אפשר לוודא את ההגדרה של cgroup לצמתים במאגר צמתים באמצעות ה-CLI של gcloud או כלי שורת הפקודה kubectl:

‫CLI של gcloud

בודקים את ההגדרה של cgroup למאגר צמתים:

gcloud container node-pools describe POOL_NAME \
  --format='value(Config.effectiveCgroupMode)'

מחליפים את POOL_NAME בשם של מאגר הצמתים.

הפלט האפשרי הוא אחד מהבאים:

  • EFFECTIVE_CGROUP_MODE_V1: הצמתים משתמשים ב-cgroupv1
  • EFFECTIVE_CGROUP_MODE_V2: הצמתים משתמשים ב-cgroupv2

בפלט מוצגת רק ההגדרה החדשה של cgroup אחרי שהצמתים במאגר הצמתים נוצרו מחדש. הפלט ריק עבור מאגרי צמתים של שרת Windows, שלא תומכים ב-cgroup.

kubectl

כדי להשתמש ב-kubectl כדי לאמת את הגדרת ה-cgroup לצמתים במאגר הצמתים הזה, בוחרים צומת ומתחברים אליו באמצעות ההוראות הבאות:

  1. יצירת מעטפת אינטראקטיבית עם כל צומת במאגר הצמתים. בפקודה, מחליפים את mynode בשם של צומת כלשהו במאגר הצמתים.
  2. זיהוי הגרסה של cgroup בצמתי Linux

אפשרויות להגדרת דפי זיכרון גדולים ב-Linux

אפשר להשתמש בדפי ענק שהוקצו מראש באופן ידני או בדפי ענק שקופים שהוקצו באופן אוטומטי.

הקצאה מראש של דפי זיכרון גדולים

אפשר להשתמש בקובץ תצורה של מערכת הצמתים כדי להקצות מראש hugepages. ‫Kubernetes תומך בדפי זיכרון גדולים שהוקצו מראש כסוג משאב, בדומה למעבד או לזיכרון.

כדי להשתמש ב-hugepages, צריך לעמוד בדרישות הבאות ולשים לב להגבלות הבאות:

  • כדי לוודא שהצומת לא תפוסה לגמרי על ידי דפי ענק, הגודל הכולל של דפי הענק שהוקצו לא יכול לחרוג מאף אחת מהאפשרויות הבאות:
    • במחשבים עם זיכרון של פחות מ-30 GB: 60% מהזיכרון הכולל. לדוגמה, במכונה מסוג e2-standard-2 עם זיכרון של 8 GB, אי אפשר להקצות יותר מ-4.8 GB ל-hugepages.
    • במחשבים עם זיכרון בנפח של יותר מ-30GB: ‏ 80% מהזיכרון הכולל. לדוגמה, במכונות c4a-standard-8 עם זיכרון של 32 GB, גודל ה-hugepages לא יכול לחרוג מ-25.6 GB.
  • דפי ענק של 1GB זמינים רק בסוגי המכונות A3,‏ C2D,‏ C3,‏ C3D,‏ C4,‏ C4A,‏ C4D,‏ CT5E,‏ CT5LP,‏ CT6E,‏ H3,‏ M2,‏ M3,‏ M4 או Z3.

בטבלה הבאה מתוארות ההגדרות שניתנות לשינוי עבור Linux hugepages.

פרמטר הגדרה הגבלות ערך ברירת המחדל תיאור
hugepage_size2m מספר שלם. בכפוף למגבלות הקצאת הזיכרון שמתוארות למעלה. 0 ההגדרה הזו מקצה מראש מספר מסוים של דפי ענק בגודל 2 MB.
hugepage_size1g מספר שלם. בכפוף למגבלות על הזיכרון ועל סוג המכונה שמתוארות למעלה. 0 ההגדרה הזו מקצה מראש מספר מסוים של דפי ענק בגודל 1GB.

דפים גדולים שקופים (THP)

אתם יכולים להשתמש בקובץ תצורה של מערכת הצומת כדי להפעיל את התמיכה ב-Transparent HugePage של ליבת Linux. ב-THP, ליבת המערכת מקצה באופן אוטומטי דפי ענק לתהליכים ללא הקצאה מראש ידנית.

בטבלה הבאה מתוארים הפרמטרים שניתן לשנות ב-THP.

פרמטר הגדרה ערכים נתמכים ערך ברירת המחדל תיאור
transparentHugepageEnabled
  • TRANSPARENT_HUGEPAGE_ENABLED_ALWAYS: transparent hugepage מופעל בכל המערכת.
  • TRANSPARENT_HUGEPAGE_ENABLED_MADVISE: transparent hugepage מופעל באזורי MADV_HUGEPAGE. ההגדרה הזו היא הגדרת ברירת המחדל של ליבת המערכת.
  • TRANSPARENT_HUGEPAGE_ENABLED_NEVER: השבתה של דפי ענק שקופים.
  • TRANSPARENT_HUGEPAGE_ENABLED_UNSPECIFIED: ערך ברירת המחדל. ‫GKE לא משנה את הגדרת הליבה.
UNSPECIFIED ההגדרה הזו קובעת אם THP מופעל לזיכרון אנונימי.
transparentHugepageDefrag
  • TRANSPARENT_HUGEPAGE_DEFRAG_ALWAYS: אפליקציה שמבקשת THP נתקעת בגלל כשל בהקצאה, ומנסה להקצות THP באופן מיידי על ידי שחרור דפים ודחיסת זיכרון.
  • TRANSPARENT_HUGEPAGE_DEFRAG_DEFER: אפליקציה מעירה את kswapd ברקע כדי לשחרר דפים, ומעירה את kcompactd כדי לדחוס את הזיכרון כך ש-THP יהיה זמין בעתיד הקרוב. אחריותה של khugepaged היא להתקין את דפי ה-THP מאוחר יותר.
  • TRANSPARENT_HUGEPAGE_DEFRAG_DEFER_WITH_MADVISE: אפליקציה נכנסת לתהליך של שחרור זיכרון ישיר ודחיסה כרגיל, אבל רק לאזורים שנעשה בהם שימוש ב-madvise(MADV_HUGEPAGE). בכל שאר האזורים, התהליך kswapd מופעל ברקע כדי לשחרר דפים, והתהליך kcompactd מופעל כדי לדחוס את הזיכרון כך ש-THP יהיה זמין בעתיד הקרוב.
  • TRANSPARENT_HUGEPAGE_DEFRAG_MADVISE: אפליקציה נכנסת לתהליך של שחרור זיכרון ישיר ודחיסה כרגיל, אבל רק לאזורים שנעשה בהם שימוש ב-madvise(MADV_HUGEPAGE). בכל שאר האזורים, התהליך kswapd מופעל ברקע כדי לשחרר דפים, והתהליך kcompactd מופעל כדי לדחוס את הזיכרון כך ש-THP יהיה זמין בעתיד הקרוב.
  • TRANSPARENT_HUGEPAGE_DEFRAG_NEVER: אפליקציה אף פעם לא נכנסת למצב של שחזור ישיר או דחיסה.
  • TRANSPARENT_HUGEPAGE_DEFRAG_UNSPECIFIED: ערך ברירת המחדל. ‫GKE לא משנה את הגדרת הליבה.
UNSPECIFIED ההגדרה הזו מגדירה את ההגדרות של ביטול הפיצול של THP.

‫THP זמין ב-GKE מגרסה 1.33.2-gke.4655000 ואילך. היא מופעלת כברירת מחדל גם במאגרי צמתים חדשים של TPU בגרסה ‎1.33.2-gke.4655000 ואילך של GKE. התכונה THP לא מופעלת כשמשדרגים מאגרי צמתים קיימים לגרסה נתמכת או לגרסה חדשה יותר.

המאמרים הבאים