Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

‫TPU7x (Ironwood)

בדף הזה מתוארת הארכיטקטורה של TPU7x, ה-TPU הכי חדש שזמין ב- Google Cloud, ומוסברות ההגדרות הזמינות שלו. ‫TPU7x היא הגרסה הראשונה במשפחת Ironwood, Google Cloud's TPU מהדור השביעי. דור Ironwood מיועד לאימון AI ולהסקת מסקנות בקנה מידה גדול.

ל-TPU7x יש 9,216 שבבים לכל Pod, והוא דומה מאוד ל-TPU v5p. ‫TPU7x מספק ביצועים גבוהים למודלים צפופים ולמודלים של MoE בקנה מידה גדול, לאימון מקדים, לדגימה ולהסקת מסקנות עם פענוח כבד.

כדי להשתמש ב-TPU7x, צריך להשתמש ב-Google Kubernetes Engine‏ (GKE). מידע נוסף זמין במאמר מידע על TPU ב-GKE.

אפשר גם להשתמש ב-TPU7x וב-GKE עם TPU Cluster Director. אפשר להשתמש ב-TPU Cluster Director באמצעות הזמנה במצב All Capacity (כל הקיבולת), שנותנת לכם גישה מלאה לכל הקיבולת שהזמנתם (ללא הגבלות) ושקיפות מלאה לגבי טופולוגיית חומרת ה-TPU, סטטוס הניצול וסטטוס התקינות. מידע נוסף זמין במאמר סקירה כללית של מצב 'כל הקיבולת'.

כדי לקבל גישה ל-TPU7x, צריך לפנות לצוות ניהול החשבון.

ארכיטקטורת המערכת

כל שבב TPU7x מכיל שני TensorCore וארבע ליבות SparseCore. בטבלה הבאה מוצגים המפרטים העיקריים והערכים שלהם עבור TPU7x בהשוואה לדורות קודמים.

מפרט	v5p	v6e (Trillium)	‫TPU7x (Ironwood)
מספר הצ'יפים בכל תרמיל	8960	256	9216
שיא העיבוד לכל שבב (BF16) (TFLOPs)	459	918	2307
שיא העיבוד לכל שבב (FP8) (TFLOPs)	459	918	4614
קיבולת HBM לכל שבב (GiB)	95	32	192
רוחב הפס של HBM לכל שבב (GBps)	2765	1638	7380
מספר יחידות ה-vCPU (מכונה וירטואלית עם 4 שבבים)	208	180	224
‫RAM ‏ (GB) (מכונה וירטואלית עם 4 שבבים)	448	720	960
מספר ליבות Tensor בכל שבב	2	1	2
מספר ליבות SparseCore בכל שבב	4	2	4
רוחב פס דו-כיווני של חיבור בין-שבבי (ICI) לכל שבב (GBps)	1200	800	1200
רוחב הפס של רשת מרכז הנתונים (DCN) לכל שבב (Gbps)	50	100	100

התרשים הבא מדגים את הארכיטקטורה של Ironwood:

תרשים הארכיטקטורה של Ironwood

ארכיטקטורה של שני צ'יפלטים

מודל התכנות של Ironwood מאפשר גישה לשני מכשירי TPU במקום לליבה לוגית אחת (שנקראת גם MegaCore) שבה נעשה שימוש בדורות הקודמים (TPU v4 ו-v5p). השינוי הזה משפר את היעילות הכלכלית של ייצור השבב. העיצוב החדש מייצג שינוי ארכיטקטוני, אבל הוא מאפשר לכם לעשות שימוש חוזר במודלים קיימים של תוכנה עם שינויים מינימליים.

מערכות Ironwood TPU מורכבות משני צ'יפלטים נפרדים. זהו שינוי מהמרחב המאוחד של הזיכרון בארכיטקטורת MegaCore.

הרכב של Chiplet: כל Chiplet היא יחידה עצמאית עם TensorCore אחד, שני SparseCore ו-96GB של זיכרון HBM (זיכרון עם רוחב פס גבוה).
חיבור מהיר בין רכיבים: שני הצ'יפלטים מחוברים באמצעות ממשק בין ליבות (D2D) שמהיר פי שישה מקישור ICI (חיבור בין רכיבים) חד-ממדי. התקשורת בין הצ'יפלטים מנוהלת באמצעות פעולות קולקטיביות.

חשיפה של מודל תכנות ומסגרת

מודל התכנות של Ironwood דומה לזה של דורות TPU שקדמו לגרסה 4, כמו TPU v3. הארכיטקטורה החדשה מוצגת בדרכים הבאות:

שני מכשירים לכל שבב: פלטפורמות כמו JAX חושפות כל שבב Ironwood כשני 'מכשירים' נפרדים, אחד לכל שבב קטן.
טופולוגיה 4D: JAX מוסיף מימד רביעי לטופולוגיה כדי לציין באיזה משני המכשירים שבשבב להשתמש. כך תוכלו להשתמש במודלים קיימים של תוכנה עם שינויים מינימליים.

מידע נוסף על השגת ביצועים אופטימליים באמצעות ארכיטקטורת dual-chiplet זמין במאמר המלצות לשיפור הביצועים של ארכיטקטורת dual-chiplet של Ironwood.

הגדרות נתמכות

לשבבי TPU7x יש חיבור ישיר לשבבים השכנים הקרובים ביותר ב-3 מימדים, וכתוצאה מכך נוצר אריג תלת-ממדי של חיבורי רשת. פרוסות גדולות מ-64 שבבים מורכבות מקובייה אחת או יותר של 4x4x4 שבבים.

בטבלה הבאה מוצגים צורות נפוצות של פרוסות תלת-ממדיות שנתמכות ב-TPU7x:

טופולוגיה	צ'יפים של TPU	מארחים	VMs (מכונות וירטואליות)	Cubes	היקף
2x2x1	4	1	1	‫1/16	מארח יחיד
2x2x2	8	2	2	1/8	מארחים מרובים
‫2x2x4	16	4	4	1/4	מארחים מרובים
2x4x4	32	8	8	1/2	מארחים מרובים
4x4x4	64	16	16	1	מארחים מרובים
4x4x8	128	32	32	2	מארחים מרובים
4x8x8	256	64	64	4	מארחים מרובים
8x8x8	512	128	128	8	מארחים מרובים
8x8x16	1024	256	256	16	מארחים מרובים
‫8x16x16	2048	512	512	32	מארחים מרובים

TPU7x VM

כל מכונה וירטואלית (VM) של TPU7x מכילה 4 שבבים. לכל מכונה וירטואלית יש גישה לשני צמתי NUMA. מידע נוסף על צמתי NUMA זמין במאמר Non-uniform memory access (גישה לזיכרון לא אחיד) ב-Wikipedia.

כל חלקי ה-TPU7x משתמשים במכונות וירטואליות של מארח מלא עם 4 שבבים. המפרט הטכני של מכונת TPU7x וירטואלית הוא:

מספר המעבדים הווירטואליים לכל מכונה וירטואלית: 224
RAM לכל מכונה וירטואלית: 960GB
מספר צמתי NUMA לכל מכונה וירטואלית: 2

Hyperdisk

כברירת מחדל, דיסק האתחול של מכונת ה-VM עבור TPU7x הוא Hyperdisk Balanced. אתם יכולים לצרף דיסקים נוספים של Hyperdisk Balanced למכונת ה-TPU שלכם כדי לקבל נפח אחסון נוסף.

מידע נוסף על Hyperdisk זמין במאמר סקירה כללית על Hyperdisk. מידע נוסף על אפשרויות אחסון ל-Cloud TPU מופיע במאמר אפשרויות אחסון לנתוני Cloud TPU.