TPU v5p

במאמר הזה מתוארת הארכיטקטורה של Cloud TPU v5p וההגדרות הנתמכות שלו.

ארכיטקטורת המערכת

בקטע הזה מתוארת ארכיטקטורת המערכת שספציפית לגרסה v5p. לכל TensorCore יש ארבע יחידות כפל מטריצות (MXU), יחידת וקטור ויחידה סקלרית.

יש 8,960 צ'יפים במארז v5p. העבודה הגדולה ביותר שאפשר לתזמן היא עבודה של 96 קוביות (6,144 שבבים).

בטבלה הבאה מפורטים המפרטים העיקריים של TPU v5p.

מפרט	ערכים
מספר הצ'יפים בכל תרמיל	8960
שיא העיבוד לכל שבב (BF16) (TFLOPs)	459
שיא העיבוד לכל שבב (FP8) (TFLOPs)	459
קיבולת HBM לכל שבב (GiB)	95
רוחב הפס של HBM לכל שבב (GBps)	2765
מספר יחידות ה-vCPU (מכונה וירטואלית עם 4 שבבים)	208
‫RAM ‏ (GB) (מכונה וירטואלית עם 4 שבבים)	448
מספר ליבות Tensor בכל שבב	2
מספר ליבות SparseCore בכל שבב	4
רוחב פס דו-כיווני של חיבור בין-שבבי (ICI) לכל שבב (GBps)	1200
רוחב הפס של רשת מרכז הנתונים (DCN) לכל שבב (Gbps)	50
טופולוגיית Interconnect	טורוס תלת-ממדי *

הגדרות אישיות

כל TPU v5p Pod מורכב מ-8,960 שבבים שמחוברים ביניהם באמצעות קישורים מהירים שניתנים להגדרה מחדש. הגמישות ברשת של TPU v5p מאפשרת לחבר את הצ'יפים בפרוסה באותו גודל בכמה דרכים.

בטבלה הבאה מפורטים הצורות הנפוצות ביותר של פרוסות בודדות שנתמכות בגרסה v5p, וגם רוב הצורות של קוביות מלאות שגדולות מקובייה אחת (אבל לא כולן). הצורה המקסימלית של v5p היא 16x16x24 (6,144 שבבים, 96 קוביות).

טופולוגיה	ליבות	צ'יפס	מארחים	Cubes	יש תמיכה ב-Twisted?
2x2x1	8	4	1	לא רלוונטי	לא רלוונטי
2x2x2	16	8	2	לא רלוונטי	לא רלוונטי
2x4x4	64	32	8	לא רלוונטי	לא רלוונטי
4x4x4	128	64	16	1	לא רלוונטי
4x4x8	256	128	32	2	כן
4x8x8	512	256	64	4	כן
8x8x8	1024	512	128	8	לא רלוונטי
8x8x16	2048	1024	256	16	כן
‫8x16x16	4096	2048	512	32	כן
‫16x16x16	8192	4096	1024	64	לא רלוונטי
‫16x16x24	12288	6144	1536	96	לא רלוונטי

יש תמיכה באימון של פרוסה אחת עם עד 6,144 שבבים. אפשר להגדיל את מספר השבבים עד 18,432 באמצעות Multislice. מידע נוסף על Multislice זמין במאמר סקירה כללית על Multislice ב-Cloud TPU.

חוסן של Cloud TPU ICI

התכונה ICI resiliency עוזרת לשפר את עמידות התקלות של קישורים אופטיים ושל מתגי מעגלים אופטיים (OCS) שמחברים בין יחידות TPU בין קוביות. (חיבורי ICI בתוך קובייה משתמשים בקישורי נחושת שלא מושפעים). הגמישות של ICI מאפשרת לנתב חיבורי ICI במקרים של תקלות ב-OCS וב-ICI אופטי. כתוצאה מכך, יש שיפור בזמינות של פלחים של TPU לתזמון, אבל יש פגיעה זמנית בביצועים של ICI.

בדומה ל-Cloud TPU v4, חוסן ICI מופעל כברירת מחדל עבור פרוסות v5p שהן קובייה אחת או יותר (טופולוגיה של 4x4x4).

מאפייני מכונה וירטואלית, מארח ופרוסה

מאפיין (property)	הערך ב-TPU
# of v5p chips	4
מספר מעבדי vCPU	‫208 (אפשר להשתמש רק בחצי מהם אם משתמשים ב-NUMA binding כדי להימנע מפגיעה בביצועים ב-NUMA)
RAM (GB)	‫448 (רק חצי מהם ניתנים לשימוש אם משתמשים ב-NUMA binding כדי להימנע מפגיעה בביצועים ב-NUMA)
מספר צמתי NUMA	2
קצב העברת הנתונים של כרטיס הרשת (Gbps)	200

הקשר בין מספר ליבות Tensor, שבבים, מארחים/מכונות וירטואליות וקוביות ב-Pod:

	ליבות	צ'יפס	מארחים/מכונות וירטואליות	Cubes
מארח	8	4	1
Cube (rack)	128	64	16	1
הפרוסה הגדולה ביותר שנתמכת	12288	6144	1536	96
v5p full Pod	17920	8960	2240	140