TPU v6e
במאמר הזה מתוארת הארכיטקטורה של Cloud TPU v6e (Trillium) וההגדרות הנתמכות שלו. בכל הממשקים הטכניים, כמו ה-API והיומנים, ובכל המסמך הזה, Trillium יופיע כ-v6e.
עם שטח של 256 שבבים לכל Pod, v6e דומה מאוד ל-v5e. המערכת הזו מותאמת לאימון, לכוונון עדין ולאספקת טרנספורמר, יצירת תמונות לפי טקסט ורשתות נוירונים קונבולוציוניות (CNN).
ארכיטקטורת המערכת
כל שבב v6e מכיל TensorCore אחד. לכל TensorCore יש 2 יחידות כפל מטריצות (MXU), יחידת וקטור ויחידה סקלרית. בטבלה הבאה מוצגים המפרטים העיקריים של TPU v6e והערכים שלהם.
| מפרט | ערכים |
|---|---|
| ביצועים/עלות הבעלות הכוללת (TCO) (צפוי) | 1 |
| שיא החישוב לכל שבב (bf16) | 918 TFLOPs |
| שיא יכולת החישוב לכל שבב (Int8) | 1836 TOPs |
| קיבולת HBM לכל שבב | 32GB |
| רוחב פס HBM לכל שבב | 1,600GBps |
| רוחב פס של חיבור בין-צ'יפי דו-כיווני (ICI) (לכל צ'יפ) | 800GBps |
| יציאות ICI לכל שבב | 4 |
| זיכרון DRAM לכל מארח | 1,536 GiB |
| צ'יפים לכל מארח | 8 |
| גודל ה-TPU Pod | 256 צ'יפים |
| טופולוגיית Interconnect | טורוס דו-ממדי |
| BF16 peak compute per Pod | 234.9 PFLOPs |
| רוחב הפס של כל הפחתה לכל Pod | 102.4TB/s |
| רוחב פס של חצייה לכל Pod | 3.2TB/s |
| הגדרה של כרטיס רשת לכל מארח | 4 x 200 Gbps NIC |
| רוחב הפס של הרשת במרכז הנתונים לכל Pod | 25.6 Tbps |
| תכונות מיוחדות | SparseCore |
הגדרות נתמכות
בטבלה הבאה מוצגים הצורות של פרוסות דו-ממדיות שנתמכות בגרסה v6e:
| טופולוגיה | צ'יפים של TPU | מארחים | VMs (מכונות וירטואליות) | סוג המכונה (GKE API) | היקף |
|---|---|---|---|---|---|
| 1x1 | 1 | 1/8 | 1 | ct6e-standard-1t |
מארח משני |
| 2x2 | 4 | 1/2 | 1 | ct6e-standard-4t |
מארח משני |
| 2x4 | 8 | 1 | 1 | ct6e-standard-8t |
מארח יחיד |
| 2x4 | 8 | 1 | 2 | ct6e-standard-4t |
מארח יחיד |
| 4x4 | 16 | 2 | 4 | ct6e-standard-4t |
מארחים מרובים |
| 4x8 | 32 | 4 | 8 | ct6e-standard-4t |
מארחים מרובים |
| 8x8 | 64 | 8 | 16 | ct6e-standard-4t |
מארחים מרובים |
| 8x16 | 128 | 16 | 32 | ct6e-standard-4t |
מארחים מרובים |
| 16x16 | 256 | 32 | 64 | ct6e-standard-4t |
מארחים מרובים |
פרוסות עם 8 שבבים (v6e-8) שמצורפים למכונה וירטואלית אחת מותאמות להסקת מסקנות, ומאפשרות שימוש בכל 8 השבבים בעומס עבודה של מנה אחת. אתם יכולים לבצע הסקה מרובת מארחים באמצעות Pathways on Cloud. מידע נוסף מופיע במאמר בנושא ביצוע הסקה מרובת מארחים באמצעות Pathways.
מידע על מספר המכונות הווירטואליות בכל טופולוגיה זמין במאמר סוגי מכונות וירטואליות.
סוגי מכונות וירטואליות
כל מכונה וירטואלית של TPU v6e יכולה להכיל 1, 4 או 8 צ'יפים. לפרוסות של 4 שבבים ומטה יש אותו צומת של גישה לזיכרון לא אחיד (NUMA). מידע נוסף על צמתי NUMA זמין במאמר Non-uniform memory access (גישה לזיכרון לא אחיד) ב-Wikipedia.

פרוסות v6e נוצרות באמצעות מכונות וירטואליות של חצי מארח, כל אחת עם 4 שבבי TPU. יש שני חריגים לכלל הזה:
-
v6e-1: מכונה וירטואלית עם צ'יפ יחיד, שמיועדת בעיקר לבדיקות -
v6e-8: מכונה וירטואלית שלמה שמותאמת לתרחיש שימוש של הסקת מסקנות, עם כל 8 השבבים שמחוברים למכונה וירטואלית אחת.
בטבלה הבאה מוצגת השוואה בין סוגי מכונות וירטואליות של TPU v6e:
| סוג ה-VM | מספר יחידות ה-vCPU לכל מכונה וירטואלית | RAM (GB) לכל מכונה וירטואלית | מספר צמתי NUMA לכל מכונה וירטואלית |
|---|---|---|---|
| מכונה וירטואלית עם שבב אחד | 44 | 176 | 1 |
| מכונה וירטואלית עם 4 שבבים | 180 | 720 | 1 |
| מכונה וירטואלית עם 8 שבבים | 180 | 1440 | 2 |