TPU v5p

במאמר הזה מתוארת הארכיטקטורה של Cloud TPU v5p וההגדרות הנתמכות שלו.

ארכיטקטורת המערכת

בקטע הזה מתוארת ארכיטקטורת המערכת שספציפית לגרסה v5p. לכל TensorCore יש ארבע יחידות כפל מטריצות (MXU), יחידת וקטור ויחידה סקלרית.

יש 8,960 צ'יפים במארז v5p. העבודה הגדולה ביותר שאפשר לתזמן היא עבודה של 96 קוביות (6,144 שבבים).

בטבלה הבאה מפורטים המפרטים העיקריים של TPU v5p.

מפרט ערכים
מספר הצ'יפים בכל תרמיל 8960
שיא העיבוד לכל שבב (BF16) (TFLOPs) 459
שיא העיבוד לכל שבב (FP8) (TFLOPs) 459
קיבולת HBM לכל שבב (GiB) 95
רוחב הפס של HBM לכל שבב (GBps) 2765
מספר יחידות ה-vCPU (מכונה וירטואלית עם 4 שבבים) 208
‫RAM ‏ (GB) (מכונה וירטואלית עם 4 שבבים) 448
מספר ליבות Tensor בכל שבב 2
מספר ליבות SparseCore בכל שבב 4
רוחב פס דו-כיווני של חיבור בין-שבבי (ICI) לכל שבב (GBps) 1200
רוחב הפס של רשת מרכז הנתונים (DCN) לכל שבב (Gbps) 50
טופולוגיית Interconnect טורוס תלת-ממדי *

הגדרות אישיות

כל TPU v5p Pod מורכב מ-8,960 שבבים שמחוברים ביניהם באמצעות קישורים מהירים שניתנים להגדרה מחדש. הגמישות ברשת של TPU v5p מאפשרת לחבר את הצ'יפים בפרוסה באותו גודל בכמה דרכים.

בטבלה הבאה מפורטים הצורות הנפוצות ביותר של פרוסות בודדות שנתמכות בגרסה v5p, וגם רוב הצורות של קוביות מלאות שגדולות מקובייה אחת (אבל לא כולן). הצורה המקסימלית של v5p היא 16x16x24 (6,144 שבבים, 96 קוביות).

טופולוגיה ליבות צ'יפס מארחים Cubes יש תמיכה ב-Twisted?
2x2x1 8 4 1 לא רלוונטי לא רלוונטי
2x2x2 16 8 2 לא רלוונטי לא רלוונטי
2x4x4 64 32 8 לא רלוונטי לא רלוונטי
4x4x4 128 64 16 1 לא רלוונטי
4x4x8 256 128 32 2 כן
4x8x8 512 256 64 4 כן
8x8x8 1024 512 128 8 לא רלוונטי
8x8x16 2048 1024 256 16 כן
‫8x16x16 4096 2048 512 32 כן
‫16x16x16 8192 4096 1024 64 לא רלוונטי
‫16x16x24 12288 6144 1536 96 לא רלוונטי

יש תמיכה באימון של פרוסה אחת עם עד 6,144 שבבים. אפשר להגדיל את מספר השבבים עד 18,432 באמצעות Multislice. מידע נוסף על Multislice זמין במאמר סקירה כללית על Multislice ב-Cloud TPU.

חוסן של Cloud TPU ICI

התכונה ICI resiliency עוזרת לשפר את עמידות התקלות של קישורים אופטיים ושל מתגי מעגלים אופטיים (OCS) שמחברים בין יחידות TPU בין קוביות. (חיבורי ICI בתוך קובייה משתמשים בקישורי נחושת שלא מושפעים). הגמישות של ICI מאפשרת לנתב חיבורי ICI במקרים של תקלות ב-OCS וב-ICI אופטי. כתוצאה מכך, יש שיפור בזמינות של פלחים של TPU לתזמון, אבל יש פגיעה זמנית בביצועים של ICI.

בדומה ל-Cloud TPU v4, חוסן ICI מופעל כברירת מחדל עבור פרוסות v5p שהן קובייה אחת או יותר (טופולוגיה של 4x4x4).

מאפייני מכונה וירטואלית, מארח ופרוסה

מאפיין (property) הערך ב-TPU
# of v5p chips 4
מספר מעבדי vCPU ‫208 (אפשר להשתמש רק בחצי מהם אם משתמשים ב-NUMA binding כדי להימנע מפגיעה בביצועים ב-NUMA)
RAM (GB) ‫448 (רק חצי מהם ניתנים לשימוש אם משתמשים ב-NUMA binding כדי להימנע מפגיעה בביצועים ב-NUMA)
מספר צמתי NUMA 2
קצב העברת הנתונים של כרטיס הרשת (Gbps) 200

הקשר בין מספר ליבות Tensor, שבבים, מארחים/מכונות וירטואליות וקוביות ב-Pod:

ליבות צ'יפס מארחים/מכונות וירטואליות Cubes
מארח 8 4 1
Cube (rack) 128 64 16 1
הפרוסה הגדולה ביותר שנתמכת 12288 6144 1536 96
v5p full Pod 17920 8960 2240 140