בדף הזה מוסבר איך לתכנן את השימוש ביחידות לעיבוד טנסורים (TPU) ב-Google Kubernetes Engine (GKE) כדי להקטין את הסיכון לבעיות בהגדרת ה-TPU, לשגיאות שקשורות לזמינות או להפרעות שנובעות מחריגה מהמכסה.
לפני שמשתמשים ב-TPU ב-GKE, חשוב להכיר את ההגדרות והטרמינולוגיה של TPU ב-GKE.
תכנון ההגדרה של TPU
כדי לעבוד עם TPU באשכולות GKE, צריך לתכנן את ההגדרה שלהם. מומלץ לפעול לפי השלבים הבאים:
בחירת מצב פעולה של GKE: הפעלת עומסי העבודה ב-TPU באשכול GKE Autopilot או Standard.
שיטה מומלצת: מומלץ להשתמש באשכול Autopilot כדי ליהנות מחוויית Kubernetes מנוהלת לחלוטין.
בחירת גרסת ה-TPU: לסוגים שונים של TPU יש יכולות שונות, כמו יחסי עלות-תועלת, תפוקת אימון וחביון של שרתים. סוגי ה-TPU משפיעים על קיבולות הזיכרון והמעבד הזמינות.
אימות הזמינות של TPU: מכשירי TPU זמינים באזורים ספציפיים Google Cloud כדי להשתמש בסוג TPU בעומס העבודה של GKE, האשכול צריך להיות באזור נתמך עבור הסוג הזה.
Choose the TPU Topology: The physical arrangement of the TPUs within a TPU slice. בוחרים טופולוגיה שמתאימה לדרישות המקביליות של המודל.
אפשר להשתמש בטבלאות ההפניה שבדף הזה כדי לזהות אם מאגרי הצמתים שלכם הם צמתים של חלקי TPU עם מארח יחיד או עם כמה מארחים.
בחירת מצב פעולה של GKE
אפשר להשתמש ב-TPU במצבי הפעולה הזמינים של GKE לאשכולות:
- מצב רגיל: אתם מנהלים את התשתית הבסיסית, כולל הגדרת הצמתים האישיים.
- מצב Autopilot (מומלץ): GKE מנהל את התשתית הבסיסית, כמו הגדרת הצמתים, התאמה אוטומטית לעומס, השדרוגים האוטומטיים, הגדרות האבטחה הבסיסיות והגדרת הרשת הבסיסית. ב-Autopilot, בוחרים סוג וטופולוגיה של TPU, ואז מציינים אותם במניפסט של Kubernetes. GKE מנהל את הקצאת הצמתים עם TPU ואת התזמון של עומסי העבודה.
כדי לבחור את מצב הפעולה של GKE שהכי מתאים לעומסי העבודה שלכם, אפשר לעיין במאמר בחירת מצב פעולה של GKE.
בחירת אפשרות שימוש ב-TPU
כשמתכננים את הגדרות ה-TPU ב-GKE, צריך לבחור אפשרות צריכה שתתאים לצרכים של עומס העבודה. האפשרות שתבחרו לצריכת משאבים תשפיע על גרסאות ה-TPU שיהיו זמינות לכם ועל המכסה שתצטרכו להגדיר. GKE מציע את האפשרויות הבאות לשימוש ב-TPU, כדי לעזור לכם לשפר את הקצאת המשאבים והעלויות תוך שמירה על ביצועי עומסי העבודה:
- Flex-start: כדי להקצות מכונות וירטואליות מסוג Flex-start למשך עד שבעה ימים, כאשר GKE מקצה את החומרה באופן אוטומטי על בסיס הזמינות. מידע נוסף זמין במאמר מידע על הקצאת GPU, TPU ו-H4D במצב הקצאה עם הפעלה גמישה.
- מכונות וירטואליות (VM) זמניות מסוג Spot: כדי להקצות מכונות וירטואליות זמניות מסוג Spot, אפשר לקבל הנחות משמעותיות, אבל המכונות האלה יכולות להיפסק בכל שלב, עם אזהרה של 30 שניות מראש. מידע נוסף זמין במאמר בנושא מכונות וירטואליות מסוג Spot.
- מקום שמור לעתיד ל-90 יום (במצב יומן): כדי להקצות משאבי TPU לתקופה של עד 90 יום, לתקופה מוגדרת. מידע נוסף זמין במאמר בנושא שליחת בקשה ל-TPU עם מקום שמור לעתיד במצב יומן.
- הזמנות של TPU: כדי לבקש מקום שמור לעתיד למשך שנה או יותר.
- על פי דרישה: כדי לצרוך TPU בלי לתכנן מראש את הקיבולת. לפני שמבקשים משאבים, צריך לוודא שיש מספיק מכסת שימוש לפי דרישה לסוג ולכמות הספציפיים של מכונות וירטואליות של TPU. האפשרות 'על פי דרישה' היא האפשרות הכי גמישה לשימוש במשאבים, אבל אין ערובה לכך שיהיו מספיק משאבים על פי דרישה כדי לספק את הבקשה שלכם.
אם לא מציינים אפשרות אחרת, מודל הצריכה שמוגדר כברירת מחדל ל-TPU ב-GKE הוא לפי דרישה. כדי לבחור את אפשרות הצריכה שעונה על הדרישות של עומס העבודה, אפשר לעיין במאמר מידע על אפשרויות צריכת מאיצים לעומסי עבודה של AI/ML ב-GKE.
בחירת גרסת ה-TPU
למכונות הווירטואליות בפרוסת TPU יש את המאפיינים הטכניים הבאים.
רגילה
| גרסת TPU | סוג המכונה | cloud.google.com/gke-tpu-accelerator |
מספר יחידות ה-vCPU | מספר הצ'יפים לכל מכונה וירטואלית | מספר הצמתים של NUMA | הסבירות להקדמת שידור |
|---|---|---|---|---|---|---|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
tpu7x |
224 | 4 | 2 | לא רלוונטי |
| TPU Trillium (v6e) | ct6e-standard-1t |
tpu-v6e-slice |
44 | 1 | 2 | גבוה יותר |
| TPU Trillium (v6e) | ct6e-standard-4t |
tpu-v6e-slice |
180 | 4 | 1 | בינוני |
| TPU Trillium (v6e) | ct6e-standard-8t |
tpu-v6e-slice |
180 | 8 | 2 | נמוך יותר |
| TPU v5p |
ct5p-hightpu-4t |
tpu-v5p-slice |
208 | 4 | 2 | לא רלוונטי |
| TPU v5e |
ct5lp-hightpu-1t |
tpu-v5-lite-podslice |
24 | 1 | 1 | גבוה יותר |
| TPU v5e |
ct5lp-hightpu-4t |
tpu-v5-lite-podslice |
112 | 4 | 1 | בינוני |
| TPU v5e |
ct5lp-hightpu-8t |
tpu-v5-lite-podslice |
224 | 8 | 1 | נמוכה |
| TPU v4 |
ct4p-hightpu-4t |
tpu-v4-podslice |
240 | 4 | 2 | לא רלוונטי |
| TPU v3 (מארח יחיד בלבד) |
ct3-hightpu-4t |
tpu-v3-device |
96 | 4 | 2 | לא רלוונטי |
| TPU v3 |
ct3p-hightpu-4t |
tpu-v3-slice |
48 | 4 | 1 | לא רלוונטי |
סוגי מכונות ct5lp- עם כמה מארחים מתאימים יותר להפעלת מודלים גדולים או לאימון. מכונות ct5lp- מרובות מארחים מחוברות זו לזו באמצעות קישורים מהירים.
טייס אוטומטי
| גרסת TPU | cloud.google.com/gke-tpu-accelerator |
מספר יחידות ה-vCPU | מספר הצמתים של NUMA | מספר מקסימלי של שבבי TPU בצומת של פלח TPU |
|---|---|---|---|---|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x |
224 | 2 | 2048 |
| TPU Trillium (v6e) | tpu-v6e-slice |
44 עד 180 | 1 עד 2 | 256 |
| TPU v5p |
tpu-v5p-slice |
208 | 2 | 6,144 |
| TPU v5e |
tpu-v5-lite-podslice |
24 עד 224 | 1 | 256 |
| TPU v4 |
tpu-v4-podslice |
240 | 2 | 4,096 |
| TPU v3 (מארח יחיד בלבד) |
tpu-v3-device |
96 | 2 | 8 |
| TPU v3 |
tpu-v3-slice |
48 | 1 | 256 |
כדי להחליט באיזו הגדרת TPU להשתמש, כדאי לעיין במפרטים ובמחירים של TPU במסמכי התמחור של Cloud TPU.
מגבלות
כשבוחרים את ה-TPU לשימוש, חשוב לקחת בחשבון את המגבלות האלה:
Ironwood (TPU7x) (תצוגה מקדימה) זמין בתצוגה מקדימה ויש לו את המגבלות הבאות:
- אשכולות רגילים בגרסה 1.34.0-gke.2201000.
- אשכולות במצב Autopilot בגרסה 1.34.1-gke.3084001.
- יש תמיכה רק ב-Google Cloud Hyperdisk Balanced.
- אין תמיכה בשימוש בריבוי-פרוסות (Multislice) בשיטת ההתחלה הגמישה (Flex-start).
- אין תמיכה ברישות מרובה ב-Managed Lustre.
- אין תמיכה בדיסק אתחול משני.
TPU Trillium זמין בגרסאות הבאות:
- אשכולות Standard בגרסה 1.31.1-gke.1846000 ואילך.
- אשכולות במצב Autopilot בגרסה 1.31.2-gke.1115000 ואילך.
TPU Trillium לא תומך בהגדרת SMT לערך
2ב-ct6e-standard-8t.אפשר להשתמש בשינוי גודל אוטומטי של TPU v5p באשכולות GKE עם מישורי בקרה שפועלים בגרסה 1.29.2-gke.1035000 או 1.28.7-gke.1020000 לפחות.
כדי להשתמש בהזמנת קיבולת, צריך להשתמש בהזמנה ספציפית.
אפשר להריץ עד 256 פודים במכונת TPU וירטואלית אחת.
הקצאת עלויות ב-GKE ומדידת השימוש לא כוללות נתונים על השימוש ב-TPU או על העלויות שלהם.
המידרוג האוטומטי של האשכול מבטל פעולות של הגדלת מספר הצמתים במאגר צמתים של TPU שנשארות במצב המתנה יותר מ-10 שעות. המידרוג האוטומטי של האשכול מנסה שוב לבצע פעולות כאלה של הגדלת הקיבולת כשהמשאבים זמינים. ההתנהגות הזו עלולה להקטין את הסיכוי לקבל TPU אם לא משתמשים בהזמנות.
אין תמיכה בצמתי Ubuntu.
ארכיטקטורת TPU Node הוצאה משימוש. TPU v3 היא הגרסה היחידה של TPU שעדיין תומכת בארכיטקטורת TPU Node ב-GKE.
אימות הזמינות של TPU ב-GKE
מכשירי TPU זמינים באזורים ספציפיים. Google Cloud כדי להשתמש בסוג TPU באשכול GKE, האשכול צריך להיות באזור נתמך עבור הסוג הזה.
רגילה
| גרסת TPU | סוג המכונה מתחיל ב- | גרסת GKE מינימלית | זמינות | תחום (zone) |
|---|---|---|---|---|
| TPU Ironwood (TPU7x) |
tpu7x-standard-4t
|
1.34.0-gke.2201000 | גרסת טרום-השקה ציבורית |
|
| TPU Trillium (v6e) |
ct6e-
|
1.31.2-gke.1115000 | GA |
|
| TPU v5e |
ct5lp-
|
1.27.2-gke.2100 | GA |
|
| TPU v5p |
ct5p-
|
1.28.3-gke.1024000 | GA |
|
| TPU גרסה 4 |
ct4p-
|
1.26.1-gke.1500 | GA |
|
| TPU v3 |
ct3p-
|
1.31.1-gke.1146000 | GA |
|
| TPU v3 |
ct3-
|
1.31.0-gke.1500 | GA |
|
טייס אוטומטי
| גרסת TPU |
cloud.google.com/gke-tpu-accelerator
|
גרסת GKE מינימלית | זמינות | תחום (zone) |
|---|---|---|---|---|
| TPU Ironwood (TPU7x) |
tpu7x
|
1.34.1-gke.3084001 | גרסת טרום-השקה ציבורית |
|
| TPU Trillium (v6e) |
tpu-v6e-slice
|
1.31.2-gke.1384000 | GA |
|
| TPU v5e |
tpu-v5-lite-podslice
|
1.27.2-gke.2100 | GA |
|
| TPU v5p |
tpu-v5p-slice
|
1.28.3-gke.1024000 | GA |
|
| TPU גרסה 4 |
tpu-v4-podslice
|
1.26.1-gke.1500 | GA |
|
| TPU v3 |
tpu-v3-slice
|
1.31.1-gke.1146000 | GA |
|
| TPU v3 |
tpu-v3-device
|
1.31.0-gke.1500 | GA |
|
בחירת טופולוגיה
אחרי שבוחרים גרסת TPU, בוחרים טופולוגיה נתמכת. טופולוגיה מגדירה את הסידור הפיזי של שבבי TPU בתוך פרוסת TPU. טופולוגיות גדולות יותר מספקות יותר שבבי TPU, מה שמאפשר עיבוד מקבילי רב יותר כדי לאמן מודלים גדולים מהר יותר או עם מערכי נתונים גדולים יותר.
GKE מנהל באופן אוטומטי את הקצאת המכונות הווירטואליות, אבל כדי להבין איך מספר השבבים בטופולוגיה קשור למכונות הווירטואליות הבסיסיות, חשוב להבין את ההבדל בין מאגרי צמתים עם מארח יחיד לבין מאגרי צמתים עם כמה מארחים:
- Single-host: פרוסת TPU שבה כל הצ'יפים נמצאים במכונה וירטואלית אחת. הפעולה הזו כוללת מספר קטן יותר של צ'יפים, בדרך כלל ארבעה צ'יפים או פחות.
- Multi-host: פרוסת TPU שבה הצ'יפים מפוזרים על פני כמה מכונות וירטואליות. זה נפוץ ברוב עומסי העבודה של TPU בקנה מידה גדול.
אם תבקשו טופולוגיה שבה המספר הכולל של שבבים חורג ממספר השבבים שזמינים במכונה וירטואלית אחת לגרסת ה-TPU הזו, GKE יקצה אותה באופן אוטומטי כסביבה מרובת מארחים. בתרחיש הזה, GKE מפעיל כמה צמתים כדי לחלק את השבבים.
לדוגמה, סוג המכונה ct6e-standard-4t והטופולוגיה 4x4:
- לסוג המכונה
ct6e-standard-4tיש 4 שבבים לכל מכונה וירטואלית. - הטופולוגיה
4x4דורשת 16 שבבים בסך הכול (4 * 4). - מכיוון ש-16 (מספר השבבים בטופולוגיה) גדול מ-4 (מספר השבבים בכל מכונת VM), ההגדרה הזו יוצרת מאגר צמתים של פרוסת TPU מרובת מארחים. מערכת GKE תחלק את 16 השבבים בין 4 מכונות וירטואליות.
כדי לבחור את סוג מכונת ה-TPU והטופולוגיה לתרחיש השימוש שלכם, תוכלו להיעזר בטבלה הבאה:
רגילה
אחרי שבוחרים את סוג ה-TPU והטופולוגיה, מציינים אותם במניפסט של עומס העבודה. הוראות מפורטות מופיעות במאמר פריסת עומסי עבודה של TPU ב-GKE Standard.
| גרסת TPU | סוג המכונה | סוג מאגר הצמתים | מפרטים טכניים |
|---|---|---|---|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארח יחיד |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x-standard-4t |
מארחים מרובים |
|
| TPU Trillium (v6e) | ct6e-standard-1t |
מארח יחיד |
|
| TPU Trillium (v6e) | ct6e-standard-8t |
מארח יחיד |
|
| TPU Trillium (v6e) | ct6e-standard-4t |
מארח יחיד |
|
| TPU Trillium (v6e) | ct6e-standard-4t |
מארחים מרובים |
|
| TPU Trillium (v6e) | ct6e-standard-4t |
מארחים מרובים |
|
| TPU Trillium (v6e) | ct6e-standard-4t |
מארחים מרובים |
|
| TPU Trillium (v6e) | ct6e-standard-4t |
מארחים מרובים |
|
| TPU Trillium (v6e) | ct6e-standard-4t |
מארחים מרובים |
|
| TPU Trillium (v6e) | ct6e-standard-4t |
מארחים מרובים |
|
| TPU v5p | ct5p-hightpu-4t |
מארח יחיד |
|
| TPU v5p | ct5p-hightpu-4t |
מארחים מרובים |
|
| TPU v5p | ct5p-hightpu-4t |
מארחים מרובים |
|
| TPU v5p | ct5p-hightpu-4t |
מארחים מרובים |
|
| TPU v5p | ct5p-hightpu-4t |
מארחים מרובים |
|
| TPU v5e | ct5lp-hightpu-1t |
מארח יחיד |
|
| TPU v5e | ct5lp-hightpu-4t |
מארח יחיד |
|
| TPU v5e | ct5lp-hightpu-8t |
מארח יחיד |
|
| TPU v5e | ct5lp-hightpu-4t |
מארחים מרובים |
|
| TPU v5e | ct5lp-hightpu-4t |
מארחים מרובים |
|
| TPU v5e | ct5lp-hightpu-4t |
מארחים מרובים |
|
| TPU v5e | ct5lp-hightpu-4t |
מארחים מרובים |
|
| TPU v5e | ct5lp-hightpu-4t |
מארחים מרובים |
|
| TPU v5e | ct5p-hightpu-4t |
מארחים מרובים |
|
| TPU v5e | ct5p-hightpu-4t |
מארח יחיד |
|
| TPU גרסה 4 | ct4p-hightpu-4t |
מארחים מרובים |
|
| TPU גרסה 4 | ct4p-hightpu-4t |
מארחים מרובים |
|
| TPU גרסה 4 | ct4p-hightpu-4t |
מארחים מרובים |
|
| TPU גרסה 4 | ct4p-hightpu-4t |
מארחים מרובים |
|
| TPU v3 | ct3-hightpu-4t |
מארח יחיד |
|
| TPU v3 | ct3p-hightpu-4t |
מארחים מרובים |
|
| TPU v3 | ct3p-hightpu-4t |
מארחים מרובים |
|
| TPU v3 | ct3p-hightpu-4t |
מארחים מרובים |
|
| TPU v3 | ct3p-hightpu-4t |
מארחים מרובים |
|
| TPU v3 | ct3p-hightpu-4t |
מארחים מרובים |
|
| TPU v3 | ct3p-hightpu-4t |
מארחים מרובים |
|
| TPU v3 | ct3p-hightpu-4t |
מארחים מרובים |
|
-
החישוב מתבצע כך: מכפלת המוצר של הטופולוגיה חלקי ארבע. ↩
טייס אוטומטי
אחרי שבוחרים את סוג ה-TPU והטופולוגיה, מציינים אותם במניפסט של עומס העבודה. הוראות מפורטות מופיעות במאמר בנושא פריסת עומסי עבודה של TPU ב-GKE Autopilot.
| גרסת TPU | סוג המכונה | סוג מאגר הצמתים | מפרטים טכניים |
|---|---|---|---|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x |
מארח יחיד |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x |
מארחים מרובים |
|
| Ironwood (TPU7x) (תצוגה מקדימה) | tpu7x |
מארחים מרובים |
|
| TPU Trillium (v6e) | tpu-v6e-slice |
מארח יחיד |
|
| TPU Trillium (v6e) | tpu-v6e-slice |
מארח יחיד |
|
| TPU Trillium (v6e) | tpu-v6e-slice |
מארח יחיד |
|
| TPU Trillium (v6e) | tpu-v6e-slice |
מארחים מרובים |
|
| TPU Trillium (v6e) | tpu-v6e-slice |
מארחים מרובים |
|
| TPU Trillium (v6e) | tpu-v6e-slice |
מארחים מרובים |
|
| TPU Trillium (v6e) | tpu-v6e-slice |
מארחים מרובים |
|
| TPU Trillium (v6e) | tpu-v6e-slice |
מארחים מרובים |
|
| TPU v5p | tpu-v5p-slice |
מארח יחיד |
|
| TPU v5p | tpu-v5p-slice |
מארחים מרובים |
|
| TPU v5p | tpu-v5p-slice |
מארחים מרובים |
|
| TPU v5p | tpu-v5p-slice |
מארחים מרובים |
|
| TPU v5p | tpu-v5p-slice |
מארחים מרובים |
|
| TPU v5p | tpu-v5p-slice |
מארחים מרובים |
|
| TPU v5e | tpu-v5-lite-podslice |
מארח יחיד |
|
| TPU v5e | tpu-v5-lite-podslice |
מארח יחיד |
|
| TPU v5e | tpu-v5-lite-podslice |
מארח יחיד |
|
| TPU v5e | tpu-v5-lite-podslice |
מארחים מרובים |
|
| TPU v5e | tpu-v5-lite-podslice |
מארחים מרובים |
|
| TPU v5e | tpu-v5-lite-podslice |
מארחים מרובים |
|
| TPU v5e | tpu-v5-lite-podslice |
מארחים מרובים |
|
| TPU v5e | tpu-v5-lite-podslice |
מארחים מרובים |
|
| TPU v5e | tpu-v5-lite-podslice |
מארחים מרובים |
|
| TPU גרסה 4 | tpu-v4-podslice |
מארח יחיד |
|
| TPU גרסה 4 | tpu-v4-podslice |
מארחים מרובים |
|
| TPU גרסה 4 | tpu-v4-podslice |
מארחים מרובים |
|
| TPU גרסה 4 | tpu-v4-podslice |
מארחים מרובים |
|
| TPU גרסה 4 | tpu-v4-podslice |
מארחים מרובים |
|
| TPU גרסה 4 | tpu-v4-podslice |
מארחים מרובים |
|
| TPU v3 | tpu-v3-slice |
מארחים מרובים |
|
| TPU v3 | tpu-v3-slice |
מארחים מרובים |
|
| TPU v3 | tpu-v3-slice |
מארחים מרובים |
|
| TPU v3 | tpu-v3-slice |
מארחים מרובים |
|
| TPU v3 | tpu-v3-slice |
מארחים מרובים |
|
| TPU v3 | tpu-v3-device |
מארח יחיד |
|
-
החישוב מתבצע כך: מכפלת המוצר של הטופולוגיה חלקי ארבע. ↩
יש תמיכה בטופולוגיות מותאמות אישית ליותר מ-64 שבבים. התנאים הבאים חלים:
- אם יש יותר מ-64 צ'יפים, הערכים
{A},{B}ו-{C}צריכים להיות כפולות של 4 - הטופולוגיה הגדולה ביותר היא
16x16x24 - הערכים צריכים להיות
{A}≤{B}≤{C}, למשל8x12x16.
- אם יש יותר מ-64 צ'יפים, הערכים
-
אין תמיכה בטופולוגיות בהתאמה אישית.
הגדרות מתקדמות
בקטעים הבאים מתוארות שיטות מומלצות לתזמון של הגדרות מתקדמות של TPU.
אזורי AI
אזורי AI הם אזורים מיוחדים שמשמשים לאימון AI/ML ולעומסי עבודה של הסקת מסקנות. האזורים האלה מספקים קיבולת משמעותית של מאיצי ML. מידע נוסף זמין במאמר בנושא אזורי AI.
לפני שמשתמשים באזור AI ב-GKE, כדאי להביא בחשבון את המאפיינים הבאים:
- אזורי ה-AI נפרדים פיזית מאזורים רגילים כדי לספק נפח אחסון נוסף וחשמל. ההפרדה הזו עשויה להוביל לזמן אחזור ארוך יותר, שבדרך כלל נסבל בעומסי עבודה של AI/ML.
- לאזורי AI יש סיומת עם הסימון
ai. לדוגמה, אזור AI באזורus-central1נקראus-central1-ai1a. - בשלב הזה יש תמיכה רק במכונות וירטואליות של TPU.
- מישור הבקרה של האשכול פועל באזור רגיל אחד או יותר באותו אזור כמו אזור ה-AI.
אפשר להריץ מכונות וירטואליות בלי יחידות TPU מצורפות באזור AI רק אם מתקיימות הדרישות הבאות:
- כבר מריצים עומסי עבודה אחרים שמשתמשים במכונות וירטואליות של TPU באותו אזור.
- המכונות הווירטואליות שאינן TPU הן מכונות וירטואליות מסוג Spot, מכונות וירטואליות שמשוריינות או מכונות וירטואליות שמשויכות למאגר צמתים עם יחס ספציפי בין מאיץ לבין מכונה וירטואלית לשימוש כללי.
אזורי AI חולקים רכיבים, כמו חיבורי רשת ופריסות תוכנה, עם אזורים רגילים שיש להם את אותו סיומת באותו אזור. לסביבות עבודה עם זמינות גבוהה, מומלץ להשתמש באזורים שונים. לדוגמה, לא מומלץ להשתמש גם ב-
us-central1-ai1aוגם ב-us-central1-aכדי להשיג זמינות גבוהה.
כברירת מחדל, GKE לא פורס את עומסי העבודה שלכם באזורי AI. כדי להשתמש באזור AI, צריך להגדיר אחת מהאפשרויות הבאות:
- (מומלץ) ComputeClasses: מגדירים את העדיפות הכי גבוהה לבקשה של TPU לפי דרישה באזור AI. בעזרת ComputeClasses אפשר להגדיר רשימה מתועדפת של תצורות חומרה לעומסי העבודה. דוגמה מופיעה במאמר מידע על ComputeClasses.
- Node auto-provisioning: use a
nodeSelectorornodeAffinityin your Pod specification to instruct node auto-provisioning to create a node pool in the AI zone. אם עומס העבודה שלכם לא מכוון באופן מפורש לאזור AI, הקצאת משאבים אוטומטית של צמתים תתייחס רק לאזורים רגילים או לאזורים מ---autoprovisioning-locationsכשיוצרים מאגרי צמתים חדשים. ההגדרה הזו מבטיחה שעומסי עבודה שלא מריצים מודלים של AI/ML יישארו באזורים רגילים, אלא אם תגדירו אחרת באופן מפורש. דוגמה למניפסט שמשתמש ב-nodeSelectorמופיעה במאמר הגדרת אזורי ברירת המחדל לצמתים שנוצרו באופן אוטומטי. - GKE Standard: אם אתם מנהלים ישירות את מאגרי הצמתים, השתמשו באזור AI בדגל
--node-locationsכשאתם יוצרים מאגר צמתים. לדוגמה, אפשר לעיין במאמר פריסת עומסי עבודה של TPU ב-GKE Standard.
התאמה אוטומטית לעומס (autoscaling) של מעבדי TPU ב-GKE
GKE תומך ביחידות לעיבוד טנסורים (TPU) כדי להאיץ עומסי עבודה של למידת מכונה. גם מאגר צמתים של פרוסת TPU במארח יחיד וגם מאגר צמתים של פרוסת TPU במארחים מרובים תומכים בהתאמה אוטומטית לעומס (autoscaling) ובהקצאת משאבים אוטומטית.
אם מגדירים את הדגל --enable-autoprovisioning באשכול GKE, GKE יוצר או מוחק מאגרי צמתים של חלקי TPU עם מארח יחיד או עם כמה מארחים, עם גרסת TPU וטופולוגיה שעומדות בדרישות של עומסי עבודה בהמתנה.
כשמשתמשים ב---enable-autoscaling, מערכת GKE משנה את גודל מאגר הצמתים על סמך הסוג שלו, באופן הבא:
מאגר צמתים של פרוסת TPU עם מארח יחיד: GKE מוסיף או מסיר צמתי TPU במאגר הצמתים הקיים. מאגר הצמתים יכול להכיל כל מספר של צמתי TPU בין אפס לבין הגודל המקסימלי של מאגר הצמתים, כפי שנקבע על ידי הדגלים --max-nodes ו---total-max-nodes. כשמאפשרים שינוי גודל של מאגר הצמתים, לכל צומתי ה-TPU במאגר הצמתים יש את אותו סוג מכונה ואותה טופולוגיה. במאמר יצירת מאגר צמתים מוסבר איך ליצור מאגר צמתים של פרוסות TPU במארח יחיד.
מאגר צמתים של פרוסת TPU עם מארחים מרובים: מערכת GKE מבצעת הגדלה אטומית של מאגר הצמתים מאפס למספר הצמתים שנדרש כדי לעמוד בדרישות הטופולוגיה של ה-TPU. לדוגמה, במאגר צמתי TPU עם סוג מכונה
ct5lp-hightpu-4tוטופולוגיה16x16, מאגר הצמתים מכיל 64 צמתים. המידרוג האוטומטי של GKE מוודא שבמאגר הצמתים הזה יש בדיוק 0 או 64 צמתים. כשמצמצמים את מספר הצמתים, GKE מוציא את כל הפודים המתוזמנים ומרוקן את כל מאגר הצמתים לאפס. כדי ללמוד עוד איך ליצור מאגר צמתים עם פרוסת TPU בכמה מארחים, ראו יצירת מאגר צמתים.
הקצאת נפח אחסון נוסף לפרוסת TPU
מכונה וירטואלית (VM) בפרוסת TPU כוללת דיסק אתחול של 100 GiB. אם נדרש נפח אחסון נוסף לפלח ה-TPU לצורך אימון או עיבוד מקדים, או אם צריך לשמור נקודות ביקורת, אפשר להשתמש באחסון Google Cloud Hyperdisk או דיסק אחסון מתמיד מאוזן אם הוא זמין ל-TPU. מידע נוסף על סוגי הדיסקים הנתמכים בכל גרסת TPU זמין במאמר תמיכת TPU ב-Hyperdisk וב-Persistent Disk.
מעבד (CPU) באשכולות רגילים
הקטע הזה לא רלוונטי לאשכולות Autopilot כי GKE ממקם כל פרוסת TPU בצומת משלה. איך יחידות TPU פועלות במצב אוטומטי
במקרים של אשכולות רגילים, כדאי להשתמש בשיטות המומלצות הבאות לתזמון.
כדי לתזמן עומס עבודה שאינו TPU במכונה וירטואלית בצומת של פרוסת TPU, צריך לוודא ש-Pod של GKE יכול לסבול את ה-taint google.com/tpu. אם רוצים לפרוס את עומס העבודה לצמתים ספציפיים, משתמשים בבוררי צמתים.
בניהול משאבי Kubernetes ובקביעת העדיפות, המכונות הווירטואליות ב-TPU מטופלות כמו סוגים אחרים של מכונות וירטואליות. כדי לתת עדיפות בתזמון ל-Pods שדורשים TPU על פני Pods אחרים באותם צמתים, צריך לבקש את המקסימום של CPU או זיכרון עבור חלקי ה-TPU האלה. לפרוסות TPU עם עדיפות נמוכה צריך להיות:
- מגדירים בקשות נמוכות של מעבד וזיכרון כדי לוודא שלצומת יש מספיק משאבים להקצאה לעומסי העבודה של ה-TPU. מידע נוסף זמין במאמר איך Kubernetes מיישם בקשות ומגבלות של משאבים.
- כדי לוודא ש-Pods יכולים להשתמש בכל המחזורים הלא מנוצלים, צריך להגדיר את המגבלה של יחידת העיבוד המרכזית (CPU) ללא הגבלה.
- כדאי להגדיר מגבלות זיכרון מתאימות כדי לוודא שרכיבי ה-Pod יוכלו לפעול בצורה תקינה בלי להסתכן בפינוי בגלל עומס על הצומת.
אם פוד של Kubernetes לא מבקש מעבד וזיכרון (גם אם הוא מבקש TPU), Kubernetes מחשיב אותו כפוד שפועל כמיטב היכולת, ואין ערובה לכך שהוא צריך מעבד וזיכרון. התחייבויות כאלה תקפות רק לגבי Pods שמבקשים באופן מפורש משאבי CPU וזיכרון. כדי לתזמן Kubernetes באופן ספציפי, צריך להגדיר את צורכי ה-Pod עם בקשת מעבד (CPU) וזיכרון מפורשת. מידע נוסף זמין במאמר בנושא ניהול משאבים עבור פודים וקונטיינרים.
מידע נוסף על שיטות מומלצות זמין במאמר שיטות מומלצות ל-Kubernetes: בקשות ומגבלות של משאבים.
הפחתת ההפרעות בעומס העבודה
אם אתם משתמשים ב-TPU כדי לאמן מודל של למידת מכונה ועומס העבודה שלכם מופסק, כל העבודה שבוצעה מאז נקודת הבדיקה האחרונה אובדת. כדי להקטין את הסיכוי להפרעה בעומס העבודה, כדאי:
- הגדרת עדיפות גבוהה יותר למשימה הזו מאשר לכל שאר המשימות: אם המשאבים מוגבלים, מתזמן GKE מבצע קדימה למשימות בעדיפות נמוכה יותר כדי לתזמן משימה בעדיפות גבוהה יותר. כך גם מוודאים שעומס העבודה עם העדיפות הגבוהה יותר מקבל את כל המשאבים שהוא צריך (עד למספר המשאבים הכולל שזמינים באשכול). מידע נוסף זמין במאמר בנושא עדיפות של Pod ודחיקה.
- הגדרת החרגה מתחזוקה: החרגה מתחזוקה היא חלון זמן חד-פעמי שבו אסור לבצע תחזוקה אוטומטית. מידע נוסף מופיע במאמר בנושא החרגות מתחזוקה.
- שימוש ב-Pods עם זמן ריצה מורחב ב-Autopilot: אפשר להשתמש בPods עם זמן ריצה מורחב כדי לקבל תקופת חסד של עד שבעה ימים לפני ש-GKE יסיים את ה-Pods שלכם לצורך הקטנת הקיבולת או שדרוגי צמתים.
- שימוש בתזמון של אוספים ב-TPU Trillium: שימוש באוספים כדי לציין שמאגר הצמתים של פרוסת TPU הוא חלק מעומס עבודה של שרתים. Google Cloud מגביל ומייעל את ההפרעות לפעולות של עומסי עבודה של הסקה. מידע נוסף זמין במאמר בנושא איך פועל תזמון הגבייה.
ההמלצות האלה עוזרות לצמצם את השיבושים, אבל לא למנוע אותם. לדוגמה, עדיין יכולה להתרחש הפסקה זמנית בגלל כשל בחומרה או הפסקה זמנית לצורך דפרגמנטציה. באופן דומה, הגדרת החרגה של תחזוקה ב-GKE לא מונעת אירועי תחזוקה ב-Compute Engine.
מומלץ לשמור נקודות ביקורת לעיתים קרובות ולהוסיף קוד לסקריפט האימון כדי להתחיל מנקודת הביקורת האחרונה כשממשיכים את האימון.
התמודדות עם שיבושים עקב תחזוקת צמתים
הצמתים של GKE שמארחים את ה-TPU כפופים לאירועי תחזוקה או לשיבושים אחרים שעלולים לגרום לסגירת הצומת. באשכולות GKE עם מישור הבקרה בגרסה 1.29.1-gke.1425000 ואילך, אפשר לצמצם את השיבושים בעומסי העבודה על ידי הגדרת GKE להפסקת עומסי העבודה בצורה מסודרת.
כדי להבין, להגדיר ולעקוב אחרי אירועי שיבוש שעשויים להתרחש בצמתי GKE שמריצים עומסי עבודה של AI/ML, אפשר לעיין במאמר ניהול שיבושים בצמתי GKE עבור מעבדי GPU ו-TPU.
מקסום השימוש ב-TPU
כדי למקסם את ההשקעה שלכם ב-TPU, כדאי לתזמן שילוב של עדיפויות של משימות ולהוסיף אותן לתור כדי למקסם את משך הזמן שבו ה-TPU פועלים. כדי לתזמן משימות ברמת המשימה ולבצע הפסקה זמנית, צריך להשתמש בתוסף ל-Kubernetes שמארגן משימות בתורים.
אפשר להשתמש ב-Kueue כדי לתזמן את העבודות בתורים.
המאמרים הבאים
- כדי להגדיר Cloud TPU עם GKE, פועלים לפי ההוראות במאמר פריסת עומסי עבודה של TPU ב-GKE.
- שיטות מומלצות לשימוש ב-Cloud TPU למשימות של למידת מכונה.
- איך בונים למידת מכונה בקנה מידה גדול ב-Cloud TPU באמצעות GKE
- הפעלת מודלים גדולים של שפה (LLM) באמצעות KubeRay ב-TPU