TPU7x (Ironwood)
בדף הזה מתוארת הארכיטקטורה של TPU7x, ה-TPU הכי חדש שזמין ב- Google Cloud, ומוסברות ההגדרות הזמינות שלו. TPU7x היא הגרסה הראשונה במשפחת Ironwood, Google Cloud's TPU מהדור השביעי. דור Ironwood מיועד לאימון AI ולהסקת מסקנות בקנה מידה גדול.
ל-TPU7x יש 9,216 שבבים לכל Pod, והוא דומה מאוד ל-TPU v5p. TPU7x מספק ביצועים גבוהים למודלים צפופים ולמודלים של MoE בקנה מידה גדול, לאימון מקדים, לדגימה ולהסקת מסקנות עם פענוח כבד.
כדי להשתמש ב-TPU7x, צריך להשתמש ב-Google Kubernetes Engine (GKE). מידע נוסף זמין במאמר מידע על TPU ב-GKE.
אפשר גם להשתמש ב-TPU7x וב-GKE עם TPU Cluster Director. אפשר להשתמש ב-TPU Cluster Director באמצעות הזמנה במצב All Capacity (כל הקיבולת), שנותנת לכם גישה מלאה לכל הקיבולת שהזמנתם (ללא הגבלות) ושקיפות מלאה לגבי טופולוגיית חומרת ה-TPU, סטטוס הניצול וסטטוס התקינות. מידע נוסף זמין במאמר סקירה כללית של מצב 'כל הקיבולת'.
כדי לקבל גישה ל-TPU7x, צריך לפנות לצוות ניהול החשבון.
ארכיטקטורת המערכת
כל שבב TPU7x מכיל שני TensorCore וארבע ליבות SparseCore. בטבלה הבאה מוצגים המפרטים העיקריים והערכים שלהם עבור TPU7x בהשוואה לדורות קודמים.
| מפרט | v5p | v6e (Trillium) | TPU7x (Ironwood) |
|---|---|---|---|
| מספר הצ'יפים בכל תרמיל | 8960 | 256 | 9216 |
| שיא העיבוד לכל שבב (BF16) (TFLOPs) | 459 | 918 | 2307 |
| שיא העיבוד לכל שבב (FP8) (TFLOPs) | 459 | 918 | 4614 |
| קיבולת HBM לכל שבב (GiB) | 95 | 32 | 192 |
| רוחב הפס של HBM לכל שבב (GBps) | 2765 | 1638 | 7380 |
| מספר יחידות ה-vCPU (מכונה וירטואלית עם 4 שבבים) | 208 | 180 | 224 |
| RAM (GB) (מכונה וירטואלית עם 4 שבבים) | 448 | 720 | 960 |
| מספר ליבות Tensor בכל שבב | 2 | 1 | 2 |
| מספר ליבות SparseCore בכל שבב | 4 | 2 | 4 |
| רוחב פס דו-כיווני של חיבור בין-שבבי (ICI) לכל שבב (GBps) | 1200 | 800 | 1200 |
| רוחב הפס של רשת מרכז הנתונים (DCN) לכל שבב (Gbps) | 50 | 100 | 100 |
התרשים הבא מדגים את הארכיטקטורה של Ironwood:

ארכיטקטורה של שני צ'יפלטים
מודל התכנות של Ironwood מאפשר גישה לשני מכשירי TPU במקום לליבה לוגית אחת (שנקראת גם MegaCore) שבה נעשה שימוש בדורות הקודמים (TPU v4 ו-v5p). השינוי הזה משפר את היעילות הכלכלית של ייצור השבב. העיצוב החדש מייצג שינוי ארכיטקטוני, אבל הוא מאפשר לכם לעשות שימוש חוזר במודלים קיימים של תוכנה עם שינויים מינימליים.
מערכות Ironwood TPU מורכבות משני צ'יפלטים נפרדים. זהו שינוי מהמרחב המאוחד של הזיכרון בארכיטקטורת MegaCore.
הרכב של Chiplet: כל Chiplet היא יחידה עצמאית עם TensorCore אחד, שני SparseCore ו-96GB של זיכרון HBM (זיכרון עם רוחב פס גבוה).
חיבור מהיר בין רכיבים: שני הצ'יפלטים מחוברים באמצעות ממשק בין ליבות (D2D) שמהיר פי שישה מקישור ICI (חיבור בין רכיבים) חד-ממדי. התקשורת בין הצ'יפלטים מנוהלת באמצעות פעולות קולקטיביות.
חשיפה של מודל תכנות ומסגרת
מודל התכנות של Ironwood דומה לזה של דורות TPU שקדמו לגרסה 4, כמו TPU v3. הארכיטקטורה החדשה מוצגת בדרכים הבאות:
שני מכשירים לכל שבב: פלטפורמות כמו JAX חושפות כל שבב Ironwood כשני 'מכשירים' נפרדים, אחד לכל שבב קטן.
טופולוגיה 4D: JAX מוסיף מימד רביעי לטופולוגיה כדי לציין באיזה משני המכשירים שבשבב להשתמש. כך תוכלו להשתמש במודלים קיימים של תוכנה עם שינויים מינימליים.
מידע נוסף על השגת ביצועים אופטימליים באמצעות ארכיטקטורת dual-chiplet זמין במאמר המלצות לשיפור הביצועים של ארכיטקטורת dual-chiplet של Ironwood.
הגדרות נתמכות
לשבבי TPU7x יש חיבור ישיר לשבבים השכנים הקרובים ביותר ב-3 מימדים, וכתוצאה מכך נוצר אריג תלת-ממדי של חיבורי רשת. פרוסות גדולות מ-64 שבבים מורכבות מקובייה אחת או יותר של 4x4x4 שבבים.
בטבלה הבאה מוצגים צורות נפוצות של פרוסות תלת-ממדיות שנתמכות ב-TPU7x:
| טופולוגיה | צ'יפים של TPU | מארחים | VMs (מכונות וירטואליות) | Cubes | היקף |
|---|---|---|---|---|---|
| 2x2x1 | 4 | 1 | 1 | 1/16 | מארח יחיד |
| 2x2x2 | 8 | 2 | 2 | 1/8 | מארחים מרובים |
| 2x2x4 | 16 | 4 | 4 | 1/4 | מארחים מרובים |
| 2x4x4 | 32 | 8 | 8 | 1/2 | מארחים מרובים |
| 4x4x4 | 64 | 16 | 16 | 1 | מארחים מרובים |
| 4x4x8 | 128 | 32 | 32 | 2 | מארחים מרובים |
| 4x8x8 | 256 | 64 | 64 | 4 | מארחים מרובים |
| 8x8x8 | 512 | 128 | 128 | 8 | מארחים מרובים |
| 8x8x16 | 1024 | 256 | 256 | 16 | מארחים מרובים |
| 8x16x16 | 2048 | 512 | 512 | 32 | מארחים מרובים |
TPU7x VM
כל מכונה וירטואלית (VM) של TPU7x מכילה 4 שבבים. לכל מכונה וירטואלית יש גישה לשני צמתי NUMA. מידע נוסף על צמתי NUMA זמין במאמר Non-uniform memory access (גישה לזיכרון לא אחיד) ב-Wikipedia.
כל חלקי ה-TPU7x משתמשים במכונות וירטואליות של מארח מלא עם 4 שבבים. המפרט הטכני של מכונת TPU7x וירטואלית הוא:
- מספר המעבדים הווירטואליים לכל מכונה וירטואלית: 224
- RAM לכל מכונה וירטואלית: 960GB
- מספר צמתי NUMA לכל מכונה וירטואלית: 2
Hyperdisk
כברירת מחדל, דיסק האתחול של מכונת ה-VM עבור TPU7x הוא Hyperdisk Balanced. אתם יכולים לצרף דיסקים נוספים של Hyperdisk Balanced למכונת ה-TPU שלכם כדי לקבל נפח אחסון נוסף.
מידע נוסף על Hyperdisk זמין במאמר סקירה כללית על Hyperdisk. מידע נוסף על אפשרויות אחסון ל-Cloud TPU מופיע במאמר אפשרויות אחסון לנתוני Cloud TPU.
המאמרים הבאים
- שימוש ב-TPU7x עם GKE
- שימוש ב-TPU7x עם TPU Cluster Director
- שימוש בפלטפורמת האבחון של Google Cloud ML כדי לבצע אופטימיזציה של עומסי העבודה ולאבחן אותם
- הפעלת עומס עבודה של אימון באמצעות מתכון שעבר אופטימיזציה ל-TPU7x
- הפעלת מיקרו-בנצ'מרק TPU7x