Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

סימולציה של כשל באזור באשכולות אזוריים של GKE

רגילה

דרישה רגולטורית נפוצה היא שחברה יכולה להוכיח את היכולת שלה להתאוששות מאסון (DR). באפליקציות שפועלות בענן, הדרישה הזו כוללת את האמינות והזמינות של השירותים כששרתים שמארחים באזור מסוים לא זמינים למשך תקופה מסוימת. המאמר הזה מיועד לאדמינים ולארכיטקטים, לאופרטורים ולאדמינים של גיבויים ותוכנית התאוששות מאסון (DR) שרוצים ללמוד איך לדמות יתירות כשל בתחום (zone) מסוים כשמשתמשים באשכול אזורי רגיל של Google Kubernetes Engine ‏(GKE).

אשכולות אזוריים של GKE נוצרים באזור שנבחר על ידי המשתמש, ומריצים את מישור הבקרה במכונות וירטואליות שנמצאות בכמה אזורים בתוך האזור שנבחר. אשכולות GKE Autopilot הם תמיד אזוריים, ואשכולות GKE Standard יכולים להיות אזוריים או לפי תחום. במדריך הזה נעשה שימוש באשכול אזורי של GKE Standard. הצמתים באשכול מתקשרים עם רמת הבקרה דרך מאזן עומסים, ולכן המיקום של הצומת והמיקום של מכונת ה-VM של רמת הבקרה לא תמיד זהים. בGoogle Cloud מסוף, אי אפשר להשבית אזור מסוים כשמשתמשים באשכול אזורי. מידע נוסף זמין במאמר בנושא ארכיטקטורת אשכול GKE.

במדריך הזה מוסברות שלוש שיטות שונות לסימול כשל באזור. אתם יכולים לבצע סימולציה של כשל באזור ולוודא שהתגובה של האפליקציה נכונה באמצעות השיטה שנדרשת לצורכי התאימות שלכם.

השיטות שמתוארות במסמך הזה רלוונטיות גם לאשכולות אזוריים, כולל אשכולות אזוריים יחידים ואשכולות אזוריים מרובים. השיטות האלה משפיעות רק על הצמתים באזורים הממוקדים, ולא על מישור הבקרה של GKE.

מטרות

יוצרים אשכול אזורי של GKE Standard באמצעות הגדרת ברירת המחדל.
פורסים אפליקציה לדוגמה של מיקרו-שירותים באשכול אזורי.
מדמים הפסקת חשמל באזור באמצעות אחת משלוש השיטות הבאות:
- מצמצמים את האזורים של מאגר הצמתים באשכול אזורי.
- משתמשים במאגר צמתים של אזור יחיד.
- מבודדים את הצמתים באזור הכשל המיועד ומרוקנים אותם.
מוודאים שהמיקרו-שירותים זמינים.

עלויות

במדריך הזה השתמשנו ברכיבים הבאים של Google Cloud, והשימוש בהם כרוך בתשלום:

Compute Engine
אשכול במצב רגיל ב-GKE

אפשר להשתמש במחשבון עלויות כדי ליצור הערכת עלויות בהתאם לשימוש החזוי.

לפני שמתחילים

נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.

התקינו את ה-CLI של Google Cloud.

אם אתם משתמשים בספק זהויות חיצוני (IdP), קודם אתם צריכים להיכנס ל-CLI של gcloud באמצעות המאגר המאוחד לניהול זהויות.

כדי לאתחל את ה-CLI של gcloud, הריצו את הפקודה הבאה:

gcloud init

יוצרים או בוחרים Google Cloud פרויקט.

תפקידים שנדרשים כדי לבחור או ליצור פרויקט

Select a project: כדי לבחור פרויקט לא צריך תפקיד IAM ספציפי – אפשר לבחור כל פרויקט שקיבלתם בו תפקיד.
יצירת פרויקט: כדי ליצור פרויקט, צריך את התפקיד Project Creator (יצירת פרויקטים) (roles/resourcemanager.projectCreator), שכולל את ההרשאה resourcemanager.projects.create. איך מקצים תפקידים

יוצרים Google Cloud פרויקט:
```
gcloud projects create PROJECT_ID
```
מחליפים את PROJECT_ID בשם של פרויקט Google Cloud שיוצרים.
בוחרים את הפרויקט שיצרתם: Google Cloud
```
gcloud config set project PROJECT_ID
```
מחליפים את PROJECT_ID בשם הפרויקט ב- Google Cloud .

מוודאים שהחיוב מופעל בפרויקט Google Cloud .

מפעילים את ממשקי ה-API של Kubernetes Engine ו-Compute Engine:

תפקידים שנדרשים להפעלת ממשקי API

כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים

gcloud services enable container.googleapis.com compute.googleapis.com

התקינו את ה-CLI של Google Cloud.

אם אתם משתמשים בספק זהויות חיצוני (IdP), קודם אתם צריכים להיכנס ל-CLI של gcloud באמצעות המאגר המאוחד לניהול זהויות.

כדי לאתחל את ה-CLI של gcloud, הריצו את הפקודה הבאה:

gcloud init

יוצרים או בוחרים Google Cloud פרויקט.

תפקידים שנדרשים כדי לבחור או ליצור פרויקט

Select a project: כדי לבחור פרויקט לא צריך תפקיד IAM ספציפי – אפשר לבחור כל פרויקט שקיבלתם בו תפקיד.
יצירת פרויקט: כדי ליצור פרויקט, צריך את התפקיד Project Creator (יצירת פרויקטים) (roles/resourcemanager.projectCreator), שכולל את ההרשאה resourcemanager.projects.create. איך מקצים תפקידים

יוצרים Google Cloud פרויקט:
```
gcloud projects create PROJECT_ID
```
מחליפים את PROJECT_ID בשם של פרויקט Google Cloud שיוצרים.
בוחרים את הפרויקט שיצרתם: Google Cloud
```
gcloud config set project PROJECT_ID
```
מחליפים את PROJECT_ID בשם הפרויקט ב- Google Cloud .

מוודאים שהחיוב מופעל בפרויקט Google Cloud .

מפעילים את ממשקי ה-API של Kubernetes Engine ו-Compute Engine:

תפקידים שנדרשים להפעלת ממשקי API

gcloud services enable container.googleapis.com compute.googleapis.com

יצירת אשכול רגיל אזורי

לפני שמדמים כשל באזור, צריך ליצור אשכול אזורי עם מאגר צמתים מרובה אזורים. רמת הבקרה והצמתים של האשכול משוכפלים בכמה תחומים באזור שצוין.

משתמשים ב-Google Cloud CLI כדי ליצור את האשכול:

יוצרים אשכול GKE Standard חדש באמצעות הגדרת ברירת המחדל:
```
gcloud container clusters create CLUSTER_NAME \
  --location CONTROL_PLANE_LOCATION \
  --num-nodes 2
```
מחליפים את הפרמטרים הבאים:
- ‫CLUSTER_NAME: השם של האשכול.
- ‫CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול, כמו us-central1.
תהליך יצירת האשכול ואימות הפעולה התקינה של כל הרכיבים ב-GKE נמשך כמה דקות. שני צמתים נוצרים בכל אזור באזור שאתם מציינים.

בודקים את האזורים של כל צומת שנוצר בשלב הקודם:

kubectl get node -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'

הפלט אמור להיראות כך:

NAME                                    ZONE                INT_IP
regional-cluster-1-default-pool-node1   asia-southeast1-c   10.128.0.37
regional-cluster-1-default-pool-node2   asia-southeast1-c   10.128.0.36
regional-cluster-1-default-pool-node3   asia-southeast1-b   10.128.0.38
regional-cluster-1-default-pool-node4   asia-southeast1-b   10.128.0.33
regional-cluster-1-default-pool-node5   asia-southeast1-a   10.128.0.35
regional-cluster-1-default-pool-node6   asia-southeast1-a   10.128.0.34

מתחברים לאשכול:

gcloud container clusters get-credentials CLUSTER_NAME \
    --location CONTROL_PLANE_LOCATION

פריסת אפליקציה לדוגמה של מיקרו-שירותים

כדי לראות את ההשפעה של המעבר לגיבוי במקרה של כשל שמוצג במסמך הזה, צריך לפרוס אפליקציה לדוגמה שמבוססת על מיקרו-שירותים באשכול. במסמך הזה משתמשים באפליקציה לדוגמה של Cymbal Bank:

במעטפת, משכפלים את מאגר GitHub הבא ועוברים לספרייה:

git clone https://github.com/GoogleCloudPlatform/bank-of-anthos.git
cd bank-of-anthos/

פורסים את האפליקציה לדוגמה Cymbal Bank לאשכול GKE שיצרתם בקטע הקודם:
```
kubectl apply -f ./extras/jwt/jwt-secret.yaml
kubectl apply -f ./kubernetes-manifests
```
מחכים שה-Pods יהיו מוכנים:
```
kubectl get pods
```

אחרי כמה דקות, הקפסולות אמורות להיות במצב Running:

NAME                                  READY   STATUS    RESTARTS   AGE
accounts-db-0                         1/1     Running   0          16s
balancereader-7dc7d9ff57-sstm5        0/1     Running   0          15s
contacts-7ddc76d94-rr28x              0/1     Running   0          14s
frontend-747b84bff4-2mtlv             0/1     Running   0          13s
ledger-db-0                           1/1     Running   0          13s
ledgerwriter-f6cc7889d-9qjfg          0/1     Running   0          13s
loadgenerator-57d4cb57cc-zqvqb        1/1     Running   0          13s
transactionhistory-5dd7c7fd77-lwkv8   0/1     Running   0          12s
userservice-cd5ddb4bb-wwhml           0/1     Running   0          12s

כשכל ה-Pods במצב Running, מקבלים את כתובת ה-IP החיצונית של שירות הקצה הקדמי:
```
kubectl get service frontend | awk '{print $4}'
```
בחלון של דפדפן אינטרנט, פותחים את כתובת ה-IP שמוצגת בפלט של הפקודה kubectl get service כדי לגשת למופע של Cymbal Bank.

פרטי הכניסה שמוגדרים כברירת מחדל מאוכלסים באופן אוטומטי, כך שתוכלו להיכנס לאפליקציה ולעיין בחלק מהיתרות והעסקאות לדוגמה. אין פעולות ספציפיות שצריך לבצע, מלבד לוודא שה-Cymbal Bank פועל בצורה תקינה. יכול להיות שיעברו כמה דקות עד שכל השירותים יתחילו לפעול בצורה תקינה ותוכלו להיכנס לחשבון. מחכים עד שכל ה-Pods יהיו במצב Running ועד שתוכלו להיכנס לאתר Cymbal Bank, לפני שתעברו לקטע הבא ותדמו כשל באזור.

סימולציה של כשל באזור

בקטע הזה, תדמו כשל באחד מהאזורים. יש שלוש דרכים שונות לדמות את המעבר הזה לגיבוי. צריך לבחור רק שיטה אחת. מבצעים סימולציה של כשל באזור ומוודאים שהתגובה הנכונה של האפליקציה מתקבלת באמצעות השיטה הנדרשת לצורכי התאימות שלכם.

הערה: אם האפליקציות שלכם מכילות עומסי עבודה עם מצב (stateful), כמו מסדי נתונים, חשוב לוודא שהנתונים מאוחסנים בנפח של Persistent Disk מנותק, ושהעותקים לקריאה (read replicas) נפרסים בכמה אזורים. כדאי לבדוק את נפח אחסון הנתונים הזה לפני שמוחקים מאגר צמתים (מדמים כשל באזור), או לשקול שימוש בדיסק קשיח אזורי. כדי להוסיף שכבת הגנה, אפשר גם להשתמש בגיבוי ל-GKE. עקביות הנתונים, המהימנות ואסטרטגיית המיתוג של StatefulSets לא נכללים במסגרת המסמך הזה. אם לא לוקחים בחשבון את הגורמים האלה שמשפיעים על האחסון, יש סיכון לאובדן נתונים. מומלץ לעיין בתיעוד של מסד הנתונים הספציפי או של האפליקציה עם שמירת מצב, כמו PostgreSQL, ‏ SQL Server, ‏ MongoDB,‏ Redis או Cassandra, כדי לקבל מידע על האסטרטגיות המומלצות לזמינות גבוהה ולתוכנית התאוששות מאסון (DR).

הפחתת מספר האזורים של מאגר הצמתים

כברירת מחדל, למאגר צמתים של אשכול אזורי יש צמתים שמשתרעים על פני כל האזורים באזור שלו. בתרשים הבא, Cloud Load Balancing מפזר את התנועה למאגר צמתים שמשתרע על פני שלושה אזורים. בכל אזור יש שני צמתים, וה-Pods יכולים לפעול בצמתים בכל אחד מהאזורים האלה.

מאזן עומסים מפנה תעבורה לאשכול אזורי שפועל בשלושה אזורים. בכל אזור יש שני צמתים.

בקטע הזה נדגים איך לדמות כשל באזור על ידי עדכון מאגר הצמתים כך שיפעל רק בשני מתוך שלושה אזורים. הגישה הזו מאמתת שהאפליקציה יכולה להגיב לאובדן של אזור על ידי חלוקה מחדש נכונה של ה-Pods והתנועה בין אזורים אחרים.

כדי לעדכן את מאגר הצמתים כך שיפעל רק באזורים מסוימים ולדמות כשל, מבצעים את השלבים הבאים:

בודקים את הזמינות של אשכול אזורי ושירותים:

kubectl get pods -o wide ; kubectl get nodes -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'

התוצאה אמורה להיות דומה לפלט הבא:

NAME                                  READY   STATUS    RESTARTS   AGE     IP          NODE
accounts-db-0                         1/1     Running   0          6m30s   10.28.1.5   regional-cluster-1-default-pool-node3
balancereader-7dc7d9ff57-shwg5        1/1     Running   0          6m30s   10.28.5.6   regional-cluster-1-default-pool-node1
contacts-7ddc76d94-qv4x5              1/1     Running   0          6m29s   10.28.4.6   regional-cluster-1-default-pool-node2
frontend-747b84bff4-xvjxq             1/1     Running   0          6m29s   10.28.3.6   regional-cluster-1-default-pool-node6
ledger-db-0                           1/1     Running   0          6m29s   10.28.5.7   regional-cluster-1-default-pool-node1
ledgerwriter-f6cc7889d-mttmb          1/1     Running   0          6m29s   10.28.1.6   regional-cluster-1-default-pool-node3
loadgenerator-57d4cb57cc-7fvrc        1/1     Running   0          6m29s   10.28.4.7   regional-cluster-1-default-pool-node2
transactionhistory-5dd7c7fd77-cmc2w   1/1     Running   0          6m29s   10.28.3.7   regional-cluster-1-default-pool-node6
userservice-cd5ddb4bb-zfr2g           1/1     Running   0          6m28s   10.28.5.8   regional-cluster-1-default-pool-node1

NAME                                    ZONE                INT_IP
regional-cluster-1-default-pool-node5   asia-southeast1-c   10.148.0.6
regional-cluster-1-default-pool-node6   asia-southeast1-c   10.148.0.7
regional-cluster-1-default-pool-node2   asia-southeast1-a   10.148.0.8
regional-cluster-1-default-pool-node1   asia-southeast1-a   10.148.0.9
regional-cluster-1-default-pool-node3   asia-southeast1-b   10.148.0.5
regional-cluster-1-default-pool-node4   asia-southeast1-b   10.148.0.4

בדוגמה הזו, כל עומסי העבודה של Cymbal Bank נפרסים בכל האזורים. כדי לדמות כשל, משביתים אחד מהאזורים, למשל asia-southeast1-c, שבו פרוס שירות ה-frontend.

יצירת סימולציה של הפסקת חשמל באזור. מעדכנים את מאגר הצמתים הקיים (default-pool) כדי לציין רק שני אזורים מתוך שלושת האזורים:
```
  gcloud container node-pools update default-pool \
    --cluster=CLUSTER_NAME \
    --node-locations=ZONE_A, ZONE_B \
    --location=CONTROL_PLANE_LOCATION
```
מחליפים את ZONE_A, ZONE_B בשני האזורים שבהם רוצים שמאגר הצמתים ימשיך לפעול.

בודקים את הזמינות של המיקרו-שירותים אחרי שמעדכנים את מאגר הצמתים:

kubectl get pods -o wide ; kubectl get nodes -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'

הפלט אמור להיראות כמו בדוגמה הבאה:

NAME                                    ZONE                INT_IP
regional-cluster-1-default-pool-node2   asia-southeast1-a   10.148.0.8
regional-cluster-1-default-pool-node1   asia-southeast1-a   10.148.0.9
regional-cluster-1-default-pool-node3   asia-southeast1-b   10.148.0.5
regional-cluster-1-default-pool-node4   asia-southeast1-b   10.148.0.4

NAME                                  READY   STATUS    RESTARTS   AGE     IP          NODE
accounts-db-0                         1/1     Running   0          28m     10.28.1.5   regional-cluster-1-default-pool-node3
balancereader-7dc7d9ff57-shwg5        1/1     Running   0          28m     10.28.5.6   regional-cluster-1-default-pool-node1
contacts-7ddc76d94-qv4x5              1/1     Running   0          28m     10.28.4.6   regional-cluster-1-default-pool-node2
frontend-747b84bff4-mdnkd             1/1     Running   0          9m21s   10.28.1.7   regional-cluster-1-default-pool-node3
ledger-db-0                           1/1     Running   0          28m     10.28.5.7   regional-cluster-1-default-pool-node1
ledgerwriter-f6cc7889d-mttmb          1/1     Running   0          28m     10.28.1.6   regional-cluster-1-default-pool-node3
loadgenerator-57d4cb57cc-7fvrc        1/1     Running   0          28m     10.28.4.7   regional-cluster-1-default-pool-node2
transactionhistory-5dd7c7fd77-w2vqs   1/1     Running   0          9m20s   10.28.4.8   regional-cluster-1-default-pool-node2
userservice-cd5ddb4bb-zfr2g           1/1     Running   0          28m     10.28.5.8   regional-cluster-1-default-pool-node1

בדוגמה הזו של הפלט, asia-southeast1-c כבר לא בשימוש. עדיין יש גישה לשירות הקצה הקדמי שאליו ניגשים מדפדפן עם כתובת ה-URL http://EXTERNAL_IP. משתמש עדיין יוכל לבצע פעולות של הפקדה ותשלום, גם אם אחד מהאזורים כבר לא זמין.

שימוש במאגר צמתים של אזור יחיד

בקטע הזה תדמו כשל באזור על ידי מחיקה של שני מאגרי הצמתים. הגישה הזו מאמתת שהאפליקציה יכולה להגיב לאובדן של מאגר צמתים על ידי חלוקה מחדש נכונה של Pods ותנועה במאגר צמתים באזור אחר. כדי לדמות הפסקת חשמל באזור באשכול אזורי, מרחיבים את האשכול הבסיסי שנוצר קודם, ומריצים את אפליקציית Cymbal Bank בכמה מאגרי צמתים. השיטה הזו לסימול של הפרעה באזור משקפת בצורה מדויקת יותר כשל באזור בפועל, בהשוואה לדוגמה הראשונה של עדכון אזורים פעילים במאגר צמתים, כי בדרך כלל יש כמה מאגרי צמתים באשכול:

מאזן עומסים מפנה תעבורה לאשכול אזורי שפועל בשלושה מאגרי צמתים. מאגר הצמתים שמוגדר כברירת מחדל פועל בכל האזורים, ושני מאגרי הצמתים האחרים פועלים כל אחד באזור אחד.

האשכול שתיצרו בקטע הזה כדי לדמות כשל במאגר צמתים באזור יחיד כולל את הרכיבים הבאים:

מאגר צמתים שמוגדר כברירת מחדל – בדרך כלל נוצר כשיוצרים אשכול אזורי של GKE Standard – זהו מאגר צמתים מרובה אזורים (default-pool).

האוסף הזה עם default-pool אחד הוא מה שיצרתם קודם במסמך הזה.
מאגרי צמתים נוספים (zonal-node-pool-1 ו-zonal-node-pool-2) שגם מריצים שירותים עבור אפליקציית Cymbal Bank לדוגמה.

הקווים המקווקווים בתרשים מראים איך התנועה מועברת רק אל zonal-node-pool-2 אחרי שמדמים כשל ב-default-pool וב-zonal-node-pool-1.

כדי ליצור מאגרי צמתים נוספים ולדמות כשל, מבצעים את השלבים הבאים:

בודקים את הזמינות של האשכול האזורי:

gcloud container node-pools list \
    --cluster=CLUSTER_NAME \
    --location CONTROL_PLANE_LOCATION

kubectl get node -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'

התוצאה אמורה להיות דומה לפלט הבא:

NAME: default-pool
MACHINE_TYPE: e2-medium
DISK_SIZE_GB: 100
NODE_VERSION: 1.27.8-gke.1067004

NAME                                         ZONE.               INT_IP
regional-cluster-1-default-pool-node5-pzmc   asia-southeast1-c   10.148.0.6
regional-cluster-1-default-pool-node6-qf1l   asia-southeast1-c   10.148.0.7
regional-cluster-1-default-pool-node2-dlk2   asia-southeast1-a   10.148.0.8
regional-cluster-1-default-pool-node1-pkfd   asia-southeast1-a   10.148.0.9
regional-cluster-1-default-pool-node3-6b6n   asia-southeast1-b   10.148.0.5
regional-cluster-1-default-pool-node4-h0lc   asia-southeast1-b   10.148.0.4

בפלט לדוגמה הזה, כל ה-Pods של Cymbal Bank נפרסים בכל האזורים באותו האשכול ופועלים ב-default-pool הקיים.

יוצרים שני מאגרי צמתים חדשים עם אזור יחיד:

gcloud beta container node-pools create zonal-node-pool-1 \
  --cluster CLUSTER_NAME \
  --location CONTROL_PLANE_LOCATION \
  --num-nodes 4 \
  --node-locations ZONE_A

gcloud beta container node-pools create zonal-node-pool-2 \
    --cluster CLUSTER_NAME \
    --location CONTROL_PLANE_LOCATION \
    --num-nodes 4 \
    --node-locations ZONE_B

מחליפים את ZONE_A ואת ZONE_B בשני התחומים שבהם רוצים שהמאגרים החדשים של צמתים בתחום יחיד יפעלו.

כדי לדמות כשל באזור, מוחקים את מאגר הצמתים האזורי default-pool ואחד ממאגרי הצמתים החדשים של אזור יחיד:

gcloud container node-pools delete default-pool \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION

gcloud container node-pools delete zonal-node-pool-1 \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION

במהלך תהליך המחיקה של node-pool, עומסי העבודה מושבתים ומתוזמנים מחדש למאגר צמתים זמין אחר. במהלך התהליך הזה, השירותים והפריסות לא זמינים. המשמעות של ההתנהגות הזו היא שצריך לציין חלונות של זמן השבתה בדוחות או במסמכים של DR.

בודקים שהמיקרו-שירותים ממשיכים להיות זמינים:

kubectl get pods -o wide ; kubectl get nodes -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'

הפלט שאתם מקבלים אמור להיראות כך:

NAME                                  ZONE                INT_IP
regional-cluster-1-node-pool3-node1   asia-southeast1-b   10.148.0.8
regional-cluster-1-node-pool3-node2   asia-southeast1-b   10.148.0.9
regional-cluster-1-node-pool3-node3   asia-southeast1-b   10.148.0.5
regional-cluster-1-node-pool3-node4   asia-southeast1-b   10.148.0.4

NAME                                  READY   STATUS    RESTARTS   AGE     IP          NODE
accounts-db-0                         1/1     Running   0          28m     10.28.1.5   regional-cluster-1-zonal-node-pool-2-node3
balancereader-7dc7d9ff57-shwg5        1/1     Running   0          28m     10.28.5.6   regional-cluster-1-zonal-node-pool-2-node1
contacts-7ddc76d94-qv4x5              1/1     Running   0          28m     10.28.4.6   regional-cluster-1-zonal-node-pool-2-node2
frontend-747b84bff4-mdnkd             1/1     Running   0          9m21s   10.28.1.7   regional-cluster-1-zonal-node-pool-2-node3
ledger-db-0                           1/1     Running   0          28m     10.28.5.7   regional-cluster-1-zonal-node-pool-2-node4
ledgerwriter-f6cc7889d-mttmb          1/1     Running   0          28m     10.28.1.6   regional-cluster-1-zonal-node-pool-2-node3
loadgenerator-57d4cb57cc-7fvrc        1/1     Running   0          28m     10.28.4.7   regional-cluster-1-zonal-node-pool-2-node2
transactionhistory-5dd7c7fd77-w2vqs   1/1     Running   0          9m20s   10.28.4.8   regional-cluster-1-zonal-node-pool-2-node2
userservice-cd5ddb4bb-zfr2g           1/1     Running   0          28m     10.28.5.8   regional-cluster-1-zonal-node-pool-2-node1

בפלט לדוגמה הזה, מכיוון שהשירותים default-pool ו-zonal-node-pool-1 כבר לא קיימים, כל השירותים פועלים ב-zonal-node-pool-2.

הגבלת גישה לצמתים וניקוז שלהם באזור

בקטע הזה, מגדירים גדר וריקון של צמתים ספציפיים באשכול. מגדירים גדר ומוציאים את כל הצמתים מאזור אחד, כדי לדמות את אובדן הפודים שפועלים בצמתים האלה באזור:

מאזן עומסים מפנה תעבורה לאשכול אזורי שפועל בשלושה אזורים. כל אזור מכיל שני צמתים, והפודים של אפליקציית הדוגמה Cymbal Bank פועלים בכל האזורים והצמתים.

בתרשים הזה, הצמתים באזור הראשון מוקפים בגדר ומתבצע בהם ניקוז. הצמתים בשני האזורים האחרים ממשיכים לפעול. הגישה הזו מאפשרת לוודא שהאפליקציה יכולה להגיב לאובדן של כל הצמתים באזור על ידי חלוקה מחדש נכונה של ה-Pods והתנועה בין הצמתים שפועלים באזורים אחרים.

כדי להגביל את הגישה לצמתים באחד מהאזורים ולנקז אותם, כדי לדמות כשל, מבצעים את השלבים הבאים:

בודקים את הזמינות של האשכול והשירותים האזוריים. בודקים את שמות הצמתים של אזור הכשל של היעד. רוצים לציין תחום (zone) שבו פועלים פודי ה-קצה קדמי:

kubectl get pods -o wide

הפלט אמור להיראות כמו בדוגמה הבאה:

NAME                                  READY   STATUS    RESTARTS   AGE     IP           NODE
accounts-db-0                         1/1     Running   0          4m7s    10.96.4.4    regional-cluster-1-default-pool-node2
balancereader-7dc7d9ff57-lv4z7        1/1     Running   0          4m7s    10.96.1.5    regional-cluster-1-default-pool-node1
contacts-7ddc76d94-wxvg5              1/1     Running   0          4m7s    10.96.6.11   regional-cluster-1-default-pool-node3
frontend-747b84bff4-gvktl             1/1     Running   0          4m7s    10.96.1.4    regional-cluster-1-default-pool-node1
ledger-db-0                           1/1     Running   0          4m7s    10.96.4.5    regional-cluster-1-default-pool-node2
ledger-db-1                           1/1     Running   0          3m50s   10.96.0.13   regional-cluster-1-default-pool-node5
ledgerwriter-f6cc7889d-4hqbm          1/1     Running   0          4m6s    10.96.0.12   regional-cluster-1-default-pool-node5
loadgenerator-57d4cb57cc-fmq52        1/1     Running   0          4m6s    10.96.4.6    regional-cluster-1-default-pool-node2
transactionhistory-5dd7c7fd77-72zpx   1/1     Running   0          4m6s    10.96.6.12   regional-cluster-1-default-pool-node3
userservice-cd5ddb4bb-b7862           1/1     Running   0          4m6s    10.96.1.6    regional-cluster-1-default-pool-node1

משייכים את ה-Pods שמופיעים בפלט הקודם לאזור של הצומת:

kubectl get node -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'

הפלט אמור להיראות כמו בדוגמה הבאה:

NAME                                    ZONE                INT_IP
regional-cluster-1-default-pool-node1   asia-southeast1-b   10.148.0.41
regional-cluster-1-default-pool-node2   asia-southeast1-b   10.148.0.42
regional-cluster-1-default-pool-node3   asia-southeast1-a   10.148.0.37
regional-cluster-1-default-pool-node4   asia-southeast1-a   10.148.0.38
regional-cluster-1-default-pool-node5   asia-southeast1-c   10.148.0.40
regional-cluster-1-default-pool-node6   asia-southeast1-c   10.148.0.39

בדוגמה הקודמת של הפלט, ה-Pods של הקצה הקדמי ממוקמים ב-regional-cluster-1-default-pool-node1 באזור asia-southeast1-b.

בשלב הבא, עוקבים אחרי כל הצמתים באזור asia-southeast1-b, שהם regional-cluster-1-default-pool-node1 ו-regional-cluster-1-default-pool-node2 בפלט של הדוגמה הזו

מגדירים את הצמתים לניקוז באחד מהתחומים ומנקזים אותם. בדוגמה הזו, אלה שני הצמתים ב-asia-southeast1-b:
```
kubectl drain regional-cluster-1-default-pool-node1 \
    --delete-emptydir-data --ignore-daemonsets

kubectl drain regional-cluster-1-default-pool-node2 \
    --delete-emptydir-data --ignore-daemonsets
```
הפקודה הזו מסמנת את הצמתים ככאלה שלא ניתן לתזמן אותם, ומדמה כשלים בצמתים. מערכת Kubernetes מתזמנת מחדש את ה-Pods לצמתים אחרים באזורים שפועלים.

בודקים איפה מתוזמנים מחדש ה-Pods החדשים של חזית האתר ו-Pods אחרים לדוגמה של Cymbal Bank שפעלו קודם לכן בצומת באזור הכשל:

kubectl get pods -o wide ; kubectl get nodes -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'

הפלט אמור להיראות כמו בדוגמה הבאה:

NAME                                  READY   STATUS    RESTARTS   AGE     IP           NODE
accounts-db-0                         1/1     Running   0          4m7s    10.96.4.4    regional-cluster-1-default-pool-node4
balancereader-7dc7d9ff57-lv4z7        1/1     Running   0          4m7s    10.96.1.5    regional-cluster-1-default-pool-node6
contacts-7ddc76d94-wxvg5              1/1     Running   0          4m7s    10.96.6.11   regional-cluster-1-default-pool-node3
frontend-747b84bff4-gvktl             1/1     Running   0          4m7s    10.96.1.4    regional-cluster-1-default-pool-node3
ledger-db-0                           1/1     Running   0          4m7s    10.96.4.5    regional-cluster-1-default-pool-node6
ledger-db-1                           1/1     Running   0          3m50s   10.96.0.13   regional-cluster-1-default-pool-node5
ledgerwriter-f6cc7889d-4hqbm          1/1     Running   0          4m6s    10.96.0.12   regional-cluster-1-default-pool-node5
loadgenerator-57d4cb57cc-fmq52        1/1     Running   0          4m6s    10.96.4.6    regional-cluster-1-default-pool-node4
transactionhistory-5dd7c7fd77-72zpx   1/1     Running   0          4m6s    10.96.6.12   regional-cluster-1-default-pool-node3
userservice-cd5ddb4bb-b7862           1/1     Running   0          4m6s    10.96.1.6    regional-cluster-1-default-pool-node3

NAME                                    ZONE                INT_IP
regional-cluster-1-default-pool-node3   asia-southeast1-a   10.148.0.37
regional-cluster-1-default-pool-node4   asia-southeast1-a   10.148.0.38
regional-cluster-1-default-pool-node5   asia-southeast1-c   10.148.0.40
regional-cluster-1-default-pool-node6   asia-southeast1-c   10.148.0.39

בדוגמה הזו לפלט, אין פודים לדוגמה של Cymbal Bank שפועלים בצמתים מבודדים, וכל הפודים פועלים עכשיו רק בשני האזורים האחרים.

יכול להיות שתקציבים לשיבוש Pod (PDB) בצמתים יחסמו את ניקוי הצמתים. חשוב להעריך את מדיניות ה-PDB לפני פעולת הגידור והניקוז. כדי להבין יותר על PDB ועל הקשר שלו לניהול שיבושים, אפשר לקרוא איך לוודא את האמינות וזמן הפעולה של אשכול GKE.

הסרת המשאבים

כדי להימנע מחיובים בחשבון Google Cloud על המשאבים שבהם השתמשתם במדריך הזה:

מחיקת הפרויקט

הדרך הקלה ביותר לבטל את החיוב היא למחוק את הפרויקט שיצרתם בשביל המדריך.

זהירות: כשמוחקים פרויקט:

התוכן של הפרויקט נמחק כולו. אם השתמשתם בפרויקט קיים כדי לתרגל את המשימות במדריך הזה, כשתמחקו אותו תימחק גם כל העבודה שביצעתם באותו פרויקט.
מאבדים את מזהה הפרויקט בהתאמה אישית. כשיצרתם את הפרויקט, יכולתם לבחור לו מזהה פרויקט בהתאמה אישית כדי להשתמש בו בעתיד. כדי לשמור על כתובות ה-URL שמשתמשות במזהה הפרויקט, כמו appspot.com, צריך למחוק את המשאבים שנבחרו בפרויקט אבל לא את הפרויקט כולו.

אם אתם מתכננים להיעזר בכמה ארכיטקטורות, מדריכים או מדריכים למתחילים, מומלץ להשתמש שוב באותו פרויקט כדי לא לחרוג ממכסות הפרויקטים.

במסוף Google Cloud , נכנסים לדף Manage resources.
כניסה לדף Manage resources
ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.
כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.

סימולציה של כשל באזור באשכולות אזוריים של GKE קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

מטרות

עלויות

לפני שמתחילים

יצירת אשכול רגיל אזורי

פריסת אפליקציה לדוגמה של מיקרו-שירותים

סימולציה של כשל באזור

הפחתת מספר האזורים של מאגר הצמתים

שימוש במאגר צמתים של אזור יחיד

הגבלת גישה לצמתים וניקוז שלהם באזור

הסרת המשאבים

מחיקת הפרויקט

המאמרים הבאים

סימולציה של כשל באזור באשכולות אזוריים של GKE