מידע על Ironwood ‏ (TPU7x) ב-GKE

במסמך הזה מפורטת סקירה כללית על Ironwood ‏ (TPU7x) ב-Google Kubernetes Engine ‏ (GKE). ‫Ironwood‏ (TPU7x) הוא Tensor Processing Unit‏ (TPU) מהדור השביעי של Google, שתוכנן בהתאמה אישית לעומסי עבודה של AI בקנה מידה גדול. הוא מציע שיפור משמעותי בביצועים בהשוואה לדורות קודמים של TPU, ומאפשר לאמן ולהפעיל מודלים גדולים ומורכבים יותר.

מאפיינים של Ironwood‏ (TPU7x)

‫Ironwood‏ (TPU7x) כולל תכונות ייחודיות שמבדילות אותו מגרסאות אחרות של TPU. התכונות האלה משפיעות על הזמינות, על ההגדרה של מאגר הצמתים ועל הביצועים של עומס העבודה.

מידע על החומרה הבסיסית זמין במאמר ארכיטקטורת Ironwood (TPU7x).

זמינות

‫Ironwood‏ (TPU7x) זמין באשכולות GKE Standard שפועלת בהם גרסה 1.34.0-gke.2201000 ואילך, ובאשכולות Autopilot שפועלת בהם גרסה 1.34.1-gke.3084001 ואילך.

מדיניות עומסי עבודה למאגרי צמתים עם כמה מארחים

‫Ironwood‏ (TPU7x) משתמש במדיניות עומס עבודה כדי להגדיר את המיקום הפיזי של התשתית הבסיסית כשיוצרים מאגרי צמתים של פרוסות TPU עם כמה מארחים. יוצרים מדיניות של עומס עבודה ואז מחילים אותה באמצעות הדגל --placement-policy. המדיניות הזו מחליפה את הדגל --tpu-topology שמשמש בגרסאות אחרות של TPU.

מדיניות עומס עבודה היא סוג של מדיניות משאבים שמאפשרת להגדיר את המיקום הפיזי של התשתית. ‫Ironwood‏ (TPU7x) תומך במדיניות עומס העבודה High throughput. המדיניות הזו ממקמת את מכונות ה-TPU הווירטואליות באותו מיקום כדי לצמצם את זמן האחזור ברשת, ומאפשרת לכם להגדיר את אסטרטגיית התחזוקה כדי למזער את השיבושים בעומסי העבודה.

קישור NUMA

ארכיטקטורת Ironwood‏ (TPU7x) כוללת את הרכיבים הבאים:

  • כל מכונה וירטואלית (VM) של Ironwood‏ (TPU7x) מכילה ארבעה שבבים ושני כרטיסי רשת (NIC).
  • כל מכונה וירטואלית מכילה שני צמתים של גישה לזיכרון לא אחיד (NUMA).
  • משאבי המעבד, הזיכרון וכרטיסי ה-NIC מחולקים באופן שווה בין שני צמתי ה-NUMA.

גישה למשאבים בצמתי NUMA שונים (גישה חוצת-NUMA) עלולה לגרום לצווארי בקבוק בביצועים של עומסי העבודה. לכן, כדי לבצע אופטימיזציה של הביצועים של עומסי העבודה, ב-GKE אפשר לפרוס את עומסי העבודה בהגדרה של כמה קונטיינרים. הפעולה הזו מקשרת כל קונטיינר למשאבי המעבד, הזיכרון וה-TPU בצומת NUMA נתון.

הטמעות ייחוס של מודלים גדולים של שפה

כדי ללמוד איך לפרוס מודלים גדולים של שפה (LLM) ב-Ironwood‏ (TPU7x), אפשר לעיין בהטמעות לדוגמה הבאות. אפשר להשתמש באחת מהאפשרויות הבאות כדי ליצור אשכול:

  • GKE XPK: שימוש ב-Accelerated Processing Kit‏ (XPK) כדי ליצור במהירות אשכולות GKE ולהריץ עומסי עבודה לצורך הוכחת היתכנות ובדיקות. מידע נוסף זמין במסמכי התיעוד בנושא XPK.
  • GKE on Google Cloud CLI: אפשר להשתמש ב-Google Cloud CLI כדי ליצור ידנית את מופע אשכול GKE, כדי להתאים אישית באופן מדויק או להרחיב סביבות GKE קיימות של ייצור.
LLM GKE XPK ‫GKE ב-Google Cloud CLI
‫Llama 70b עם BF16 וטופולוגיה של 4x4x4 אימון מראש של עומס עבודה של llama3.1-70b באשכולות Ironwood GKE עם XPK אימון מראש של עומס עבודה של llama3.1-70b באשכולות Ironwood GKE באמצעות Kubernetes JobSet
‫DeepSeek עם BF16 וטופולוגיה של 4x4x8 אימון מראש של עומס עבודה של deepseek3-671b באשכולות Ironwood GKE עם XPK אימון מראש של עומס העבודה deepseek3-671b באשכולות Ironwood GKE באמצעות Kubernetes JobSet
‫GPT-oss-120b עם BF16 וטופולוגיה של 4x4x4 אימון מראש של עומס העבודה gpt-oss-120b באשכולות Ironwood GKE עם XPK אימון מראש של עומס עבודה של gpt-oss-120b באשכולות Ironwood GKE באמצעות Kubernetes JobSet
‫Qwen3-235b-a22b עם BF16 וטופולוגיית 4x8x8 אימון מראש של עומס העבודה qwen3-235b-a22b באשכולות Ironwood GKE עם XPK לא זמין

המאמרים הבאים