סקירה כללית של TPU Cluster Director

הכלי TPU Cluster Director נועד לתת לכם שליטה ישירה על מאיצי ה-AI שלכם, על בסיס הזמנה. Google Cloud ב-Cloud TPU, היכולות הבסיסיות של Cluster Director מספקות רמת שירות שהיא מעבר להצעה של דיירים מרובים, ומספקות קיבולת TPU מבודדת פיזית:

  • קיבולת ייעודית שמוקמת פיזית באותו מיקום: אתם מקבלים הזמנות של TPU צפופות שמוקמות באותו מיקום, וכך אתם מקבלים שליטה מלאה על החומרה כדי להשיג ביצועים אופטימליים ברשת ותזמון אופטימלי של עומסי העבודה.
  • תחזוקה ושליטה מתקדמות: אתם מקבלים שליטה מדויקת באירועי תחזוקה, עם אפשרות לטרגט מכונות וירטואליות ספציפיות, קוביות, יחידות Pod או הזמנות שלמות, ולנהל את הרצף והקצב של האירועים האלה כדי למזער את ההשפעה על העסק.
  • תזמון שמודע לטופולוגיה: מקבלים תצוגה מלאה של הטופולוגיה הפיזית, התקינות והניצול של החומרה, וכך אפשר למקם עומסי עבודה בצורה חכמה יותר שמבוססת על ביצועים.

הכלי Cluster Director foundations משולב באופן מלא עם Google Kubernetes Engine. השילוב הזה מציע כמה תכונות שיכולות לשפר את עומסי העבודה של AI בקנה מידה גדול:

  • יעילות משופרת, עמידות בפני תקלות וחוסן: מספק סביבה חזקה למשימות AI תובעניות.
  • מאגרי צמתים ומיקום עומסי עבודה שמודעים לטופולוגיה: הזמנות צפופות במיקום משותף מאפשרות לכם לטרגט פודים או קוביות ספציפיים. כך אפשר לתזמן עומסי עבודה בצורה מדויקת יותר.

עם Cluster Director ב-GKE, אתם נהנים מניצול טוב יותר, מביצועים גבוהים יותר ומגמישות של עומסי העבודה, משיפור של קצב העברת הנתונים האפקטיבי והאמינות, ומאפשרות מקיפה של מעקב אחרי הקיבולת הפיזית (ממארחים ועד אשכולות GKE).

התכונה 'TPUs Cluster Director foundations on GKE' זמינה באמצעות ההזמנה החדשה במצב 'כל הקיבולת'.

כל מצב הקיבולת

כברירת מחדל, קיבולת TPU מוצעת במצב 'מנוהל', שבו Google מחליפה באופן אוטומטי מכונות TPU פגומות, אבל שומרת חלק מהקיבולת שהוזמנה כדי לוודא שלפרוסות ה-TPU יש את המשאבים הדרושים להפעלה מחדש. יש מצב קיבולת חלופי ל-TPU שנקרא מצב All Capacity. במצב הקיבולת הזה, יש לכם גישה מלאה לטופולוגיית החומרה של TPU, לסטטוס השימוש ולסטטוס התקינות של הקיבולת שהזמנתם. יש לכם גם גישה לקיבולת המלאה שהזמנתם, אבל אתם אחראים לניהול של כשלים ותחזוקה מתוכננת.

התכונות העיקריות של מצב 'כל הקיבולת' כוללות:

  • שליטה מלאה ויכולת מלאה לראות את ההתקדמות: יש לכם שליטה מלאה בקיבולת השמורה ויכולת מלאה לראות את התקינות והטופולוגיה של החומרה. המשמעות היא שאתם יכולים לראות את כל הקיבולת הזמינה, כולל קיבולת שמוקצית לגיבוי, ולנהל תקלות במכונות באופן ישיר.
  • קיבולת ייעודית: אתם יכולים לגשת לקיבולת ייעודית שתמיד זמינה לעומסי העבודה של ה-AI. עם קיבולת מלאה וללא הגבלות, אתם מקבלים יכולת חיזוי טובה יותר והקצאה גבוהה יותר, כך שתוכלו לנצל כל חלק מקיבולת ה-TPU שהזמנתם. עכשיו, גם הקיבולת של תקופת ההמתנה זמינה להרצת עומסי עבודה בעדיפות נמוכה יותר.
  • ביצועים אופטימליים: מצב 'כל הקיבולת' של TPU מאפשר מיקום משותף צפוף של משאבי האצה גדולים עם רשת בעלת זמן טעינה קצר במיוחד, שחשובה לעומסי עבודה של למידת מכונה (ML) ומחשוב עתיר ביצועים (HPC) בקנה מידה גדול, שבהם יש תלות הדדית גבוהה. הארכיטקטורה מותאמת לביצועים מקסימליים בעומסי עבודה של אימון והסקת מסקנות.

דורות TPU נתמכים

התכונות והמצב 'כל הקיבולת' של TPU זמינים ב-Trillium‏ (TPU v6e), ב-TPU Ironwood‏ (TPU7x) ובדורות עתידיים של TPU. מצב TPU All Capacity לא נתמך בדורות ישנים יותר של TPU.

מינוח של TPU Cluster Director

הטופולוגיה של Cluster Director מורכבת מארבע רמות: אשכול, בלוק, תת-בלוק ומארח. אשכול הוא יחידת פריסה של Google עם קיבולת פיזית של TPU בכפולות של Pod. כל קיבולת ה-TPU באשכול נמצאת באזור אחד. הזמנת TPU במצב 'כל הקיבולת' היא תמיד במסגרת אשכול אחד. ב-TPU, שאר המושגים שקשורים לטופולוגיה ממופים לרכיבים פיזיים, כמו שמוצג בטבלאות הבאות.

Trillium

מושגים בנושא טופולוגיה Trillium ליבות צ'יפס מארחים
--- צ'יפ 1 1 לא רלוונטי
מארח מארח 8 8 1
Sub-block Trillium Pod 256 256 32
חסימה כמה תאי Trillium (עד 16) בהזמנה

עד 4,096

עד 4,096

עד 512

--- פרוסות מותרות בחסימת משנה ‫1x1,‏ 2x2,‏ 2x4,‏ 4x4,‏ 4x8,‏ 8x8,‏ 8x16 ו-16x16
--- בהזמנה אחת יכולים להיות כמה בלוקים, ובכל בלוק יכולים להיות 1 עד 16 תאים של Trillium

מידע נוסף על גודלי הפרוסות של Trillium זמין במאמר הגדרות נתמכות של Trillium.

Ironwood

מושגים בנושא טופולוגיה Ironwood ליבות צ'יפס מארחים
--- צ'יפ 2 1 ---
מארח מארח 8 4 1
Sub-block קובייה 128 64 16
חסימה כמה קוביות Ironwood עד למילוי מלא של Pod עד 9,216 (144 קוביות) עד 2,304
--- דוגמאות לגדלים מותרים של פרוסות בבלוק ‫1x1x1,‏ 2x2x1,‏ 2x2x2,‏ 2x4x4,‏ 4x4x4,‏ 8x8x8,‏ 16x8x8,‏ 16x16x8 ו-12x24x24 (ועוד הרבה)
--- בהזמנה יכול להיות קובייה אחת או יותר של Ironwood, עד ל-Ironwood Pod מלא.

מידע נוסף על גדלי הפרוסות של Ironwood זמין במאמר תצורות נתמכות של TPU7x.