TPU v5e

במאמר הזה מתוארת הארכיטקטורה של Cloud TPU v5e וההגדרות הנתמכות שלו.

‫TPU v5e תומך באימון עם מארח יחיד ועם כמה מארחים, ובהסקת מסקנות עם מארח יחיד. הסקת מסקנות בכמה מארחים נתמכת באמצעות Sax. מידע נוסף זמין במאמר בנושא הסקת מסקנות ב-Cloud TPU.

ארכיטקטורת המערכת

כל שבב v5e מכיל ליבת TensorCore אחת. לכל TensorCore יש ארבע יחידות כפל מטריצות (MXU), יחידת וקטור ויחידה סקלרית.

הדיאגרמה הבאה ממחישה שבב TPU v5e.

דיאגרמה של צ'יפ v5e

בטבלה הבאה מוצגים המפרטים העיקריים והערכים שלהם בגרסה v5e.

מפרט ערכים
ביצועים/עלות הבעלות הכוללת (TCO) (צפוי) 0.65x
שיא החישוב לכל שבב (bf16) ‫197 TFLOPs
שיא יכולת החישוב לכל שבב (Int8) ‫393 TOPs
קיבולת HBM לכל שבב ‫16GB
רוחב פס HBM לכל שבב ‫800GBps
רוחב פס של חיבור בין-צ'יפי דו-כיווני (ICI) (לכל צ'יפ) ‫400GBps
יציאות ICI לכל שבב 4
זיכרון DRAM לכל מארח ‫512 GiB
צ'יפים לכל מארח 8
גודל ה-TPU Pod ‫256 צ'יפים
טופולוגיית Interconnect טורוס דו-ממדי
BF16 peak compute per Pod ‫50.63 פטה-פלופס
רוחב הפס של כל הפחתה לכל Pod ‫51.2TB/s
רוחב פס של חצייה לכל Pod ‫1.6TB/s
הגדרה של כרטיס רשת לכל מארח 2 x 100 Gbps NIC
רוחב הפס של הרשת במרכז הנתונים לכל Pod ‫6.4 Tbps
שיא עוצמת החישוב לכל Pod ‫100 פטה-אופס (Int8)

הגדרות אישיות

‫Cloud TPU v5e הוא מוצר משולב לאימון ולהסקת מסקנות (הצגה). משימות אימון עוברות אופטימיזציה לתפוקה ולזמינות, ומשימות הגשה עוברות אופטימיזציה לזמן אחזור. לדוגמה, זמינות נמוכה יותר של משימת אימון ב-TPU שהוקצו להצגת מודלים, או זמן טעינה ארוך יותר של משימת הצגת מודלים ב-TPU שהוקצו לאימון.

הצורות הבאות של פרוסות דו-ממדיות נתמכות בגרסה 5e:

טופולוגיה מספר שבבי ה-TPU מספר המארחים
‫1x1 1 1/8
2x2 4 1/2
2x4 8 1
4x4 16 2
4x8 32 4
8x8 64 8
‫8x16 128 16
‫16x16 256 32

סוגי מכונות וירטואליות

כל TPU VM בפרוסת TPU v5e מכיל 1, 4 או 8 שבבים. בפרוסות של 4 שבבים ומטה, כל שבבי ה-TPU חולקים את אותו צומת של גישה לזיכרון לא אחיד (NUMA).

במכונות וירטואליות של TPU עם 8 שבבים מדגם v5e, התקשורת בין CPU ל-TPU תהיה יעילה יותר במחיצות NUMA. לדוגמה, באיור הבא, התקשורת CPU0-Chip0 תהיה מהירה יותר מהתקשורת CPU0-Chip4.

תקשורת בין צמתי NUMA

בטבלה הבאה מוצגת השוואה בין סוגי מכונות וירטואליות של TPU v5e:

סוג ה-VM סוג המכונה (GKE API) מספר יחידות ה-vCPU לכל מכונה וירטואלית ‫RAM ‏ (GB) לכל מכונה וירטואלית מספר צמתי NUMA לכל מכונה וירטואלית
מכונה וירטואלית עם שבב אחד ct5lp-hightpu-1t 24 48 1
מכונה וירטואלית עם 4 שבבים ct5lp-hightpu-4t 112 192 1
מכונה וירטואלית עם 8 שבבים ct5lp-hightpu-8t 224 384 2

סוגי Cloud TPU v5e להצגת מודלים

הצגה ממארח יחיד נתמכת בעד 8 שבבי v5e. ההגדרות הבאות נתמכות: פלחים בגודל 1x1, ‏ 2x2 ו-2x4. בכל פרוסה יש 1, 4 ו-8 צ'יפים בהתאמה.

תצורות TPU v5e שתומכות בהצגת מודלים: 1x1,‏ 2x2 ו-2x4.

כדי להקצות TPU למשימת הגשה, צריך להשתמש באחד מגודלי פרוסות ה-TPU הבאים בבקשת יצירת ה-TPU ב-CLI או ב-API:

מספר שבבי ה-TPU סוג המכונה (GKE API)
1 ct5lp-hightpu-1t
4 ct5lp-hightpu-4t
8 ct5lp-hightpu-8t

מידע נוסף על ניהול TPU זמין במאמר ניהול TPU. מידע נוסף על ארכיטקטורת המערכת של Cloud TPU זמין במאמר ארכיטקטורת המערכת.

אפשר להשתמש ב-Sax כדי להפעיל מודלים ביותר מ-8 שבבי v5e, שנקרא גם הפעלה מרובת מארחים. מידע נוסף זמין במאמר הסקת מסקנות ב-Cloud TPU.

סוגי Cloud TPU v5e לאימון

האימון נתמך בעד 256 שבבים.

כדי להקצות TPU למשימת אימון של v5e, משתמשים באחד מגודלי ה-TPU slice הבאים בבקשת יצירת TPU ב-CLI או ב-API:

מספר שבבי ה-TPU סוג המכונה (GKE API) טופולוגיה
16 ct5lp-hightpu-4t 4x4
32 ct5lp-hightpu-4t 4x8
64 ct5lp-hightpu-4t 8x8
128 ct5lp-hightpu-4t ‫8x16
256 ct5lp-hightpu-4t ‫16x16

מידע נוסף על ניהול TPU זמין במאמר ניהול TPU. מידע נוסף על ארכיטקטורת המערכת של Cloud TPU זמין במאמר ארכיטקטורת המערכת.