TPU v5e
במאמר הזה מתוארת הארכיטקטורה של Cloud TPU v5e וההגדרות הנתמכות שלו.
TPU v5e תומך באימון עם מארח יחיד ועם כמה מארחים, ובהסקת מסקנות עם מארח יחיד. הסקת מסקנות בכמה מארחים נתמכת באמצעות Sax. מידע נוסף זמין במאמר בנושא הסקת מסקנות ב-Cloud TPU.
ארכיטקטורת המערכת
כל שבב v5e מכיל ליבת TensorCore אחת. לכל TensorCore יש ארבע יחידות כפל מטריצות (MXU), יחידת וקטור ויחידה סקלרית.
הדיאגרמה הבאה ממחישה שבב TPU v5e.

בטבלה הבאה מוצגים המפרטים העיקריים והערכים שלהם בגרסה v5e.
| מפרט | ערכים |
|---|---|
| ביצועים/עלות הבעלות הכוללת (TCO) (צפוי) | 0.65x |
| שיא החישוב לכל שבב (bf16) | 197 TFLOPs |
| שיא יכולת החישוב לכל שבב (Int8) | 393 TOPs |
| קיבולת HBM לכל שבב | 16GB |
| רוחב פס HBM לכל שבב | 800GBps |
| רוחב פס של חיבור בין-צ'יפי דו-כיווני (ICI) (לכל צ'יפ) | 400GBps |
| יציאות ICI לכל שבב | 4 |
| זיכרון DRAM לכל מארח | 512 GiB |
| צ'יפים לכל מארח | 8 |
| גודל ה-TPU Pod | 256 צ'יפים |
| טופולוגיית Interconnect | טורוס דו-ממדי |
| BF16 peak compute per Pod | 50.63 פטה-פלופס |
| רוחב הפס של כל הפחתה לכל Pod | 51.2TB/s |
| רוחב פס של חצייה לכל Pod | 1.6TB/s |
| הגדרה של כרטיס רשת לכל מארח | 2 x 100 Gbps NIC |
| רוחב הפס של הרשת במרכז הנתונים לכל Pod | 6.4 Tbps |
| שיא עוצמת החישוב לכל Pod | 100 פטה-אופס (Int8) |
הגדרות אישיות
Cloud TPU v5e הוא מוצר משולב לאימון ולהסקת מסקנות (הצגה). משימות אימון עוברות אופטימיזציה לתפוקה ולזמינות, ומשימות הגשה עוברות אופטימיזציה לזמן אחזור. לדוגמה, זמינות נמוכה יותר של משימת אימון ב-TPU שהוקצו להצגת מודלים, או זמן טעינה ארוך יותר של משימת הצגת מודלים ב-TPU שהוקצו לאימון.
הצורות הבאות של פרוסות דו-ממדיות נתמכות בגרסה 5e:
| טופולוגיה | מספר שבבי ה-TPU | מספר המארחים |
|---|---|---|
| 1x1 | 1 | 1/8 |
| 2x2 | 4 | 1/2 |
| 2x4 | 8 | 1 |
| 4x4 | 16 | 2 |
| 4x8 | 32 | 4 |
| 8x8 | 64 | 8 |
| 8x16 | 128 | 16 |
| 16x16 | 256 | 32 |
סוגי מכונות וירטואליות
כל TPU VM בפרוסת TPU v5e מכיל 1, 4 או 8 שבבים. בפרוסות של 4 שבבים ומטה, כל שבבי ה-TPU חולקים את אותו צומת של גישה לזיכרון לא אחיד (NUMA).
במכונות וירטואליות של TPU עם 8 שבבים מדגם v5e, התקשורת בין CPU ל-TPU תהיה יעילה יותר במחיצות NUMA. לדוגמה, באיור הבא, התקשורת CPU0-Chip0 תהיה מהירה יותר מהתקשורת CPU0-Chip4.

בטבלה הבאה מוצגת השוואה בין סוגי מכונות וירטואליות של TPU v5e:
| סוג ה-VM | סוג המכונה (GKE API) | מספר יחידות ה-vCPU לכל מכונה וירטואלית | RAM (GB) לכל מכונה וירטואלית | מספר צמתי NUMA לכל מכונה וירטואלית |
|---|---|---|---|---|
| מכונה וירטואלית עם שבב אחד | ct5lp-hightpu-1t |
24 | 48 | 1 |
| מכונה וירטואלית עם 4 שבבים | ct5lp-hightpu-4t |
112 | 192 | 1 |
| מכונה וירטואלית עם 8 שבבים | ct5lp-hightpu-8t |
224 | 384 | 2 |
סוגי Cloud TPU v5e להצגת מודלים
הצגה ממארח יחיד נתמכת בעד 8 שבבי v5e. ההגדרות הבאות נתמכות: פלחים בגודל 1x1, 2x2 ו-2x4. בכל פרוסה יש 1, 4 ו-8 צ'יפים בהתאמה.

כדי להקצות TPU למשימת הגשה, צריך להשתמש באחד מגודלי פרוסות ה-TPU הבאים בבקשת יצירת ה-TPU ב-CLI או ב-API:
| מספר שבבי ה-TPU | סוג המכונה (GKE API) |
|---|---|
1 |
ct5lp-hightpu-1t |
4 |
ct5lp-hightpu-4t |
8 |
ct5lp-hightpu-8t |
מידע נוסף על ניהול TPU זמין במאמר ניהול TPU. מידע נוסף על ארכיטקטורת המערכת של Cloud TPU זמין במאמר ארכיטקטורת המערכת.
אפשר להשתמש ב-Sax כדי להפעיל מודלים ביותר מ-8 שבבי v5e, שנקרא גם הפעלה מרובת מארחים. מידע נוסף זמין במאמר הסקת מסקנות ב-Cloud TPU.
סוגי Cloud TPU v5e לאימון
האימון נתמך בעד 256 שבבים.
כדי להקצות TPU למשימת אימון של v5e, משתמשים באחד מגודלי ה-TPU slice הבאים בבקשת יצירת TPU ב-CLI או ב-API:
| מספר שבבי ה-TPU | סוג המכונה (GKE API) | טופולוגיה |
|---|---|---|
16 |
ct5lp-hightpu-4t |
4x4 |
32 |
ct5lp-hightpu-4t |
4x8 |
64 |
ct5lp-hightpu-4t |
8x8 |
128 |
ct5lp-hightpu-4t |
8x16 |
256 |
ct5lp-hightpu-4t |
16x16 |
מידע נוסף על ניהול TPU זמין במאמר ניהול TPU. מידע נוסף על ארכיטקטורת המערכת של Cloud TPU זמין במאמר ארכיטקטורת המערכת.