‫TPU7x (Ironwood)

בדף הזה מתוארת הארכיטקטורה של TPU7x, ה-TPU הכי חדש שזמין ב- Google Cloud, ומוסברות ההגדרות הזמינות שלו. ‫TPU7x היא הגרסה הראשונה במשפחת Ironwood, Google Cloud's TPU מהדור השביעי. דור Ironwood מיועד לאימון AI ולהסקת מסקנות בקנה מידה גדול.

ל-TPU7x יש 9,216 שבבים לכל Pod, והוא דומה מאוד ל-TPU v5p. ‫TPU7x מספק ביצועים גבוהים למודלים צפופים ולמודלים של MoE בקנה מידה גדול, לאימון מקדים, לדגימה ולהסקת מסקנות עם פענוח כבד.

כדי להשתמש ב-TPU7x, צריך להשתמש ב-Google Kubernetes Engine‏ (GKE). מידע נוסף זמין במאמר מידע על TPU ב-GKE.

אפשר גם להשתמש ב-TPU7x וב-GKE עם TPU Cluster Director. אפשר להשתמש ב-TPU Cluster Director באמצעות הזמנה במצב All Capacity (כל הקיבולת), שנותנת לכם גישה מלאה לכל הקיבולת שהזמנתם (ללא הגבלות) ושקיפות מלאה לגבי טופולוגיית חומרת ה-TPU, סטטוס הניצול וסטטוס התקינות. מידע נוסף זמין במאמר סקירה כללית של מצב 'כל הקיבולת'.

כדי לקבל גישה ל-TPU7x, צריך לפנות לצוות ניהול החשבון.

ארכיטקטורת המערכת

כל שבב TPU7x מכיל שני TensorCore וארבע ליבות SparseCore. בטבלה הבאה מוצגים המפרטים העיקריים והערכים שלהם עבור TPU7x בהשוואה לדורות קודמים.

מפרט v5p v6e (Trillium) ‫TPU7x (Ironwood)
מספר הצ'יפים בכל תרמיל 8960 256 9216
שיא העיבוד לכל שבב (BF16) (TFLOPs) 459 918 2307
שיא העיבוד לכל שבב (FP8) (TFLOPs) 459 918 4614
קיבולת HBM לכל שבב (GiB) 95 32 192
רוחב הפס של HBM לכל שבב (GBps) 2765 1638 7380
מספר יחידות ה-vCPU (מכונה וירטואלית עם 4 שבבים) 208 180 224
‫RAM ‏ (GB) (מכונה וירטואלית עם 4 שבבים) 448 720 960
מספר ליבות Tensor בכל שבב 2 1 2
מספר ליבות SparseCore בכל שבב 4 2 4
רוחב פס דו-כיווני של חיבור בין-שבבי (ICI) לכל שבב (GBps) 1200 800 1200
רוחב הפס של רשת מרכז הנתונים (DCN) לכל שבב (Gbps) 50 100 100

התרשים הבא מדגים את הארכיטקטורה של Ironwood:

תרשים הארכיטקטורה של Ironwood

ארכיטקטורה של שני צ'יפלטים

מודל התכנות של Ironwood מאפשר גישה לשני מכשירי TPU במקום לליבה לוגית אחת (שנקראת גם MegaCore) שבה נעשה שימוש בדורות הקודמים (TPU v4 ו-v5p). השינוי הזה משפר את היעילות הכלכלית של ייצור השבב. העיצוב החדש מייצג שינוי ארכיטקטוני, אבל הוא מאפשר לכם לעשות שימוש חוזר במודלים קיימים של תוכנה עם שינויים מינימליים.

מערכות Ironwood TPU מורכבות משני צ'יפלטים נפרדים. זהו שינוי מהמרחב המאוחד של הזיכרון בארכיטקטורת MegaCore.

  • הרכב של Chiplet: כל Chiplet היא יחידה עצמאית עם TensorCore אחד, שני SparseCore ו-96GB של זיכרון HBM (זיכרון עם רוחב פס גבוה).

  • חיבור מהיר בין רכיבים: שני הצ'יפלטים מחוברים באמצעות ממשק בין ליבות (D2D) שמהיר פי שישה מקישור ICI (חיבור בין רכיבים) חד-ממדי. התקשורת בין הצ'יפלטים מנוהלת באמצעות פעולות קולקטיביות.

חשיפה של מודל תכנות ומסגרת

מודל התכנות של Ironwood דומה לזה של דורות TPU שקדמו לגרסה 4, כמו TPU v3. הארכיטקטורה החדשה מוצגת בדרכים הבאות:

  • שני מכשירים לכל שבב: פלטפורמות כמו JAX חושפות כל שבב Ironwood כשני 'מכשירים' נפרדים, אחד לכל שבב קטן.

  • טופולוגיה 4D: JAX מוסיף מימד רביעי לטופולוגיה כדי לציין באיזה משני המכשירים שבשבב להשתמש. כך תוכלו להשתמש במודלים קיימים של תוכנה עם שינויים מינימליים.

מידע נוסף על השגת ביצועים אופטימליים באמצעות ארכיטקטורת dual-chiplet זמין במאמר המלצות לשיפור הביצועים של ארכיטקטורת dual-chiplet של Ironwood.

הגדרות נתמכות

לשבבי TPU7x יש חיבור ישיר לשבבים השכנים הקרובים ביותר ב-3 מימדים, וכתוצאה מכך נוצר אריג תלת-ממדי של חיבורי רשת. פרוסות גדולות מ-64 שבבים מורכבות מקובייה אחת או יותר של 4x4x4 שבבים.

בטבלה הבאה מוצגים צורות נפוצות של פרוסות תלת-ממדיות שנתמכות ב-TPU7x:

טופולוגיה צ'יפים של TPU מארחים VMs (מכונות וירטואליות) Cubes היקף
2x2x1 4 1 1 ‫1/16 מארח יחיד
2x2x2 8 2 2 1/8 מארחים מרובים
‫2x2x4 16 4 4 1/4 מארחים מרובים
2x4x4 32 8 8 1/2 מארחים מרובים
4x4x4 64 16 16 1 מארחים מרובים
4x4x8 128 32 32 2 מארחים מרובים
4x8x8 256 64 64 4 מארחים מרובים
8x8x8 512 128 128 8 מארחים מרובים
8x8x16 1024 256 256 16 מארחים מרובים
‫8x16x16 2048 512 512 32 מארחים מרובים

TPU7x VM

כל מכונה וירטואלית (VM) של TPU7x מכילה 4 שבבים. לכל מכונה וירטואלית יש גישה לשני צמתי NUMA. מידע נוסף על צמתי NUMA זמין במאמר Non-uniform memory access (גישה לזיכרון לא אחיד) ב-Wikipedia.

כל חלקי ה-TPU7x משתמשים במכונות וירטואליות של מארח מלא עם 4 שבבים. המפרט הטכני של מכונת TPU7x וירטואלית הוא:

  • מספר המעבדים הווירטואליים לכל מכונה וירטואלית: 224
  • RAM לכל מכונה וירטואלית: 960GB
  • מספר צמתי NUMA לכל מכונה וירטואלית: 2

Hyperdisk

כברירת מחדל, דיסק האתחול של מכונת ה-VM עבור TPU7x הוא Hyperdisk Balanced. אתם יכולים לצרף דיסקים נוספים של Hyperdisk Balanced למכונת ה-TPU שלכם כדי לקבל נפח אחסון נוסף.

מידע נוסף על Hyperdisk זמין במאמר סקירה כללית על Hyperdisk. מידע נוסף על אפשרויות אחסון ל-Cloud TPU מופיע במאמר אפשרויות אחסון לנתוני Cloud TPU.

המאמרים הבאים