TPU v6e

במאמר הזה מתוארת הארכיטקטורה של Cloud TPU v6e ‏ (Trillium) וההגדרות הנתמכות שלו. בכל הממשקים הטכניים, כמו ה-API והיומנים, ובכל המסמך הזה, Trillium יופיע כ-v6e.

עם שטח של 256 שבבים לכל Pod, ‏ v6e דומה מאוד ל-v5e. המערכת הזו מותאמת לאימון, לכוונון עדין ולאספקת טרנספורמר, יצירת תמונות לפי טקסט ורשתות נוירונים קונבולוציוניות (CNN).

ארכיטקטורת המערכת

כל שבב v6e מכיל TensorCore אחד. לכל TensorCore יש 2 יחידות כפל מטריצות (MXU), יחידת וקטור ויחידה סקלרית. בטבלה הבאה מוצגים המפרטים העיקריים של TPU v6e והערכים שלהם.

מפרט ערכים
ביצועים/עלות הבעלות הכוללת (TCO) (צפוי) 1
שיא החישוב לכל שבב (bf16) ‫918 TFLOPs
שיא יכולת החישוב לכל שבב (Int8) ‫1836 TOPs
קיבולת HBM לכל שבב ‫32GB
רוחב פס HBM לכל שבב ‫1,600GBps
רוחב פס של חיבור בין-צ'יפי דו-כיווני (ICI) (לכל צ'יפ) ‫800GBps
יציאות ICI לכל שבב 4
זיכרון DRAM לכל מארח ‫1,536 GiB
צ'יפים לכל מארח 8
גודל ה-TPU Pod ‫256 צ'יפים
טופולוגיית Interconnect טורוס דו-ממדי
BF16 peak compute per Pod ‫234.9 PFLOPs
רוחב הפס של כל הפחתה לכל Pod ‫102.4TB/s
רוחב פס של חצייה לכל Pod ‫3.2TB/s
הגדרה של כרטיס רשת לכל מארח ‫4 x 200 Gbps NIC
רוחב הפס של הרשת במרכז הנתונים לכל Pod ‫25.6 Tbps
תכונות מיוחדות SparseCore

הגדרות נתמכות

בטבלה הבאה מוצגים הצורות של פרוסות דו-ממדיות שנתמכות בגרסה v6e:

טופולוגיה צ'יפים של TPU מארחים VMs (מכונות וירטואליות) סוג המכונה (GKE API) היקף
‫1x1 1 1/8 1 ct6e-standard-1t מארח משני
2x2 4 1/2 1 ct6e-standard-4t מארח משני
2x4 8 1 1 ct6e-standard-8t מארח יחיד
2x4 8 1 2 ct6e-standard-4t מארח יחיד
4x4 16 2 4 ct6e-standard-4t מארחים מרובים
4x8 32 4 8 ct6e-standard-4t מארחים מרובים
8x8 64 8 16 ct6e-standard-4t מארחים מרובים
‫8x16 128 16 32 ct6e-standard-4t מארחים מרובים
‫16x16 256 32 64 ct6e-standard-4t מארחים מרובים

פרוסות עם 8 שבבים (v6e-8) שמצורפים למכונה וירטואלית אחת מותאמות להסקת מסקנות, ומאפשרות שימוש בכל 8 השבבים בעומס עבודה של מנה אחת. אתם יכולים לבצע הסקה מרובת מארחים באמצעות Pathways on Cloud. מידע נוסף מופיע במאמר בנושא ביצוע הסקה מרובת מארחים באמצעות Pathways.

מידע על מספר המכונות הווירטואליות בכל טופולוגיה זמין במאמר סוגי מכונות וירטואליות.

סוגי מכונות וירטואליות

כל מכונה וירטואלית של TPU v6e יכולה להכיל 1, 4 או 8 צ'יפים. לפרוסות של 4 שבבים ומטה יש אותו צומת של גישה לזיכרון לא אחיד (NUMA). מידע נוסף על צמתי NUMA זמין במאמר Non-uniform memory access (גישה לזיכרון לא אחיד) ב-Wikipedia.

תרשים של מארח v6e

פרוסות v6e נוצרות באמצעות מכונות וירטואליות של חצי מארח, כל אחת עם 4 שבבי TPU. יש שני חריגים לכלל הזה:

  • v6e-1: מכונה וירטואלית עם צ'יפ יחיד, שמיועדת בעיקר לבדיקות
  • v6e-8: מכונה וירטואלית שלמה שמותאמת לתרחיש שימוש של הסקת מסקנות, עם כל 8 השבבים שמחוברים למכונה וירטואלית אחת.

בטבלה הבאה מוצגת השוואה בין סוגי מכונות וירטואליות של TPU v6e:

סוג ה-VM מספר יחידות ה-vCPU לכל מכונה וירטואלית ‫RAM ‏ (GB) לכל מכונה וירטואלית מספר צמתי NUMA לכל מכונה וירטואלית
מכונה וירטואלית עם שבב אחד 44 176 1
מכונה וירטואלית עם 4 שבבים 180 720 1
מכונה וירטואלית עם 8 שבבים 180 1440 2

המאמרים הבאים