TPU v5p
במאמר הזה מתוארת הארכיטקטורה של Cloud TPU v5p וההגדרות הנתמכות שלו.
ארכיטקטורת המערכת
בקטע הזה מתוארת ארכיטקטורת המערכת שספציפית לגרסה v5p. לכל TensorCore יש ארבע יחידות כפל מטריצות (MXU), יחידת וקטור ויחידה סקלרית.
יש 8,960 צ'יפים במארז v5p. העבודה הגדולה ביותר שאפשר לתזמן היא עבודה של 96 קוביות (6,144 שבבים).
בטבלה הבאה מפורטים המפרטים העיקריים של TPU v5p.
| מפרט | ערכים |
|---|---|
| מספר הצ'יפים בכל תרמיל | 8960 |
| שיא העיבוד לכל שבב (BF16) (TFLOPs) | 459 |
| שיא העיבוד לכל שבב (FP8) (TFLOPs) | 459 |
| קיבולת HBM לכל שבב (GiB) | 95 |
| רוחב הפס של HBM לכל שבב (GBps) | 2765 |
| מספר יחידות ה-vCPU (מכונה וירטואלית עם 4 שבבים) | 208 |
| RAM (GB) (מכונה וירטואלית עם 4 שבבים) | 448 |
| מספר ליבות Tensor בכל שבב | 2 |
| מספר ליבות SparseCore בכל שבב | 4 |
| רוחב פס דו-כיווני של חיבור בין-שבבי (ICI) לכל שבב (GBps) | 1200 |
| רוחב הפס של רשת מרכז הנתונים (DCN) לכל שבב (Gbps) | 50 |
| טופולוגיית Interconnect | טורוס תלת-ממדי * |
הגדרות אישיות
כל TPU v5p Pod מורכב מ-8,960 שבבים שמחוברים ביניהם באמצעות קישורים מהירים שניתנים להגדרה מחדש. הגמישות ברשת של TPU v5p מאפשרת לחבר את הצ'יפים בפרוסה באותו גודל בכמה דרכים.
בטבלה הבאה מפורטים הצורות הנפוצות ביותר של פרוסות בודדות שנתמכות בגרסה v5p, וגם רוב הצורות של קוביות מלאות שגדולות מקובייה אחת (אבל לא כולן). הצורה המקסימלית של v5p היא 16x16x24 (6,144 שבבים, 96 קוביות).
| טופולוגיה | ליבות | צ'יפס | מארחים | Cubes | יש תמיכה ב-Twisted? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | לא רלוונטי | לא רלוונטי |
| 2x2x2 | 16 | 8 | 2 | לא רלוונטי | לא רלוונטי |
| 2x4x4 | 64 | 32 | 8 | לא רלוונטי | לא רלוונטי |
| 4x4x4 | 128 | 64 | 16 | 1 | לא רלוונטי |
| 4x4x8 | 256 | 128 | 32 | 2 | כן |
| 4x8x8 | 512 | 256 | 64 | 4 | כן |
| 8x8x8 | 1024 | 512 | 128 | 8 | לא רלוונטי |
| 8x8x16 | 2048 | 1024 | 256 | 16 | כן |
| 8x16x16 | 4096 | 2048 | 512 | 32 | כן |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | לא רלוונטי |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | לא רלוונטי |
יש תמיכה באימון של פרוסה אחת עם עד 6,144 שבבים. אפשר להגדיל את מספר השבבים עד 18,432 באמצעות Multislice. מידע נוסף על Multislice זמין במאמר סקירה כללית על Multislice ב-Cloud TPU.
חוסן של Cloud TPU ICI
התכונה ICI resiliency עוזרת לשפר את עמידות התקלות של קישורים אופטיים ושל מתגי מעגלים אופטיים (OCS) שמחברים בין יחידות TPU בין קוביות. (חיבורי ICI בתוך קובייה משתמשים בקישורי נחושת שלא מושפעים). הגמישות של ICI מאפשרת לנתב חיבורי ICI במקרים של תקלות ב-OCS וב-ICI אופטי. כתוצאה מכך, יש שיפור בזמינות של פלחים של TPU לתזמון, אבל יש פגיעה זמנית בביצועים של ICI.
בדומה ל-Cloud TPU v4, חוסן ICI מופעל כברירת מחדל עבור פרוסות v5p שהן קובייה אחת או יותר (טופולוגיה של 4x4x4).
מאפייני מכונה וירטואלית, מארח ופרוסה
| מאפיין (property) | הערך ב-TPU |
|---|---|
| # of v5p chips | 4 |
| מספר מעבדי vCPU | 208 (אפשר להשתמש רק בחצי מהם אם משתמשים ב-NUMA binding כדי להימנע מפגיעה בביצועים ב-NUMA) |
| RAM (GB) | 448 (רק חצי מהם ניתנים לשימוש אם משתמשים ב-NUMA binding כדי להימנע מפגיעה בביצועים ב-NUMA) |
| מספר צמתי NUMA | 2 |
| קצב העברת הנתונים של כרטיס הרשת (Gbps) | 200 |
הקשר בין מספר ליבות Tensor, שבבים, מארחים/מכונות וירטואליות וקוביות ב-Pod:
| ליבות | צ'יפס | מארחים/מכונות וירטואליות | Cubes | |
|---|---|---|---|---|
| מארח | 8 | 4 | 1 | |
| Cube (rack) | 128 | 64 | 16 | 1 |
| הפרוסה הגדולה ביותר שנתמכת | 12288 | 6144 | 1536 | 96 |
| v5p full Pod | 17920 | 8960 | 2240 | 140 |