הצגת הטופולוגיה וסטטוס התקינות של כל ההזמנות במצב קיבולת

אפשר לאחזר מידע על הטופולוגיה והתקינות של הקיבולת במצב 'כל הקיבולת' באמצעות מסוף Google Cloud או Google Cloud CLI לפני או אחרי הקצאת פרוסות TPU. אפשר גם לאחזר את המיקום הפיזי של מכונת TPU וירטואלית באמצעות Compute Engine Instance API או באמצעות פקודת curl מתוך מערכת ההפעלה האורחת של מכונת ה-TPU הווירטואלית. מידע על הטופולוגיה ועל סטטוס התקינות ברמת האשכול, הבלוק, תת-הבלוק, המארח והמכונה הווירטואלית מאפשר לכם לקבל החלטות לגבי מיקום עומסי העבודה בהתאם לטופולוגיה, לטרגט בלוקים או תת-בלוקים ספציפיים לצורך פריסה ולהבין את הקרבה היחסית בין מכונות וירטואליות של TPU.

הצגת טופולוגיית הקיבולת במסוף Google Cloud

כדי להשתמש במסוף Google Cloud כדי לראות את פרטי ההזמנה:

  1. במסוף Google Cloud , משתמשים בסרגל החיפוש כדי לחפש 'reservations' ועוברים אל דף ההזמנה.
  2. בוחרים בכרטיסייה On-demand reservations (הזמנות לפי דרישה) ומחפשים את ההזמנה שלכם במצב TPU All Capacity (כל הקיבולת של TPU). צוות ניהול החשבון שלכם יגיד לכם מה שם ההזמנה.
  3. בוחרים את ההזמנה כדי לראות את דף הפרטים.

בהזמנה במצב 'כל הקיבולת', מצב ההפעלה מוגדר לכל הקיבולת. מוצגת רשימה של בלוקים עם סיכום של השימוש בהם וסטטוס תקינות.

בוחרים חסימה מהרשימה כדי לראות את דף הפרטים של החסימה. הטופולוגיה של הבלוק מוצגת בקטע Cluster Location. בקטע הזה מוצגים שם האשכול, המזהה המגובב של בלוק והמזהה המגובב של תת-בלוק.

שמות האשכולות הם ייחודיים באופן גלובלי בכל הארגונים ב-Google. במילים אחרות, יכול להיות שלשני לקוחות שונים יהיה אותו שם אשכול. בניגוד לשמות של אשכולות, המזהה המגובב של בלוקים או תת-בלוקים הוא ייחודי בפרויקטים של הארגון.Google Cloud

אפשר לבחור בלוק משנה כדי להציג את דף הפרטים של בלוק המשנה, שבו מוצגים רק מארחים פיזיים עם מכונות וירטואליות פעילות של TPU. מארחים פיזיים שלא נמצאים בשימוש לא מוצגים.

הצגת טופולוגיית הקיבולת באמצעות Google Cloud CLI

אפשר להשתמש בפקודות list ו-describe של Google Cloud CLI בהזמנות, בבלוקים ובבלוקים משניים כדי למצוא מידע על הטופולוגיה והתקינות של הקיבולת.

אתם יכולים להשתמש במידע שמוצג על ידי הפקודות שבקטע הזה כדי לקבוע את היררכיית הטופולוגיה של הקיבולת הפיזית בהזמנה שלכם.

תיאור של הזמנה

אפשר להשתמש בgcloud compute reservations describe כדי לראות סקירה כללית של הקיבולת בהזמנה. הפקודה הבאה מציגה סיכום של הזמנה:

gcloud compute reservations describe RESERVATION_NAME \
   --project=PROJECT_ID \
   --zone=ZONE

מחליפים את מה שכתוב בשדות הבאים:

  • RESERVATION_NAME: השם של ההזמנה.
  • PROJECT_ID: מזהה הפרויקט.
  • ZONE: האזור שבו נמצאת ההזמנה.

הפלט אמור להיראות כך:

advancedDeploymentControl:
  reservationOperationalMode: ALL_CAPACITY
aggregateReservation:
  inUseResources:
  - accelerator:
      acceleratorCount: 48
      acceleratorType: projects/example-project/zones/us-central1-c/acceleratorTypes/tpu7x
  reservedResources:
  - accelerator:
      acceleratorCount: 128
      acceleratorType: projects/example-project/zones/us-central1-c/acceleratorTypes/tpu7x
  vmFamily: VM_FAMILY_CLOUD_TPU_POD_SLICE_TPU7X
  workloadType: UNSPECIFIED
creationTimestamp: '2025-11-05T14:16:30.571-08:00'
deleteAtTime: '2026-11-06T08:00:00Z'
deploymentType: DENSE 
enableEmergentMaintenance: false
id: '8873145979824927313'
kind: compute#reservation
linkedCommitments:
- https://www.googleapis.com/compute/v1/projects/example-project/regions/us-central1/commitments/example-cud
name: example-reservation
protectionTier: STANDARD
reservationSharingPolicy:
  serviceShareType: ALLOW_ALL
resourceStatus:
  healthInfo:
    degradedBlockCount: 0
    healthStatus: HEALTHY
    healthyBlockCount: 1
  reservationBlockCount: 1
  reservationMaintenance:
    schedulingType: 
schedulingType: GROUPED
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation
shareSettings:
  projectMap:
    '111111111111':
      projectId: '111111111111'
  shareType: SPECIFIC_PROJECTS
specificReservationRequired: true
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

הערכים הבאים בפלט מתארים את ההזמנה:

  • advancedDeploymentControl.reservationOperationalMode: מצב הקיבולת של ההזמנה
  • aggregateReservation.inUseResources.accelerator.acceleratorCount: מספר הצ'יפים של TPU שנמצאים בשימוש
  • aggregateReservation.inUseResources.accelerator.acceleratorType: גרסת ה-TPU
  • reservedResources.accelerator.acceleratorCount: מספר שבבי ה-TPU בהזמנה
  • deploymentType: סוג הפריסה (תמיד יהיה DENSE עבור TPU)
  • reservationSharingPolicy.serviceShareType: סוג השיתוף של השירות
  • resourceStatus.healthInfo.healthStatus: הבריאות הכוללת של הקיבולת
  • resourceStatus.healthInfo.healthyBlockCount: מספר הבלוקים התקינים בהזמנה
  • resourceStatus.reservationBlockCount: מספר הבלוקים בהזמנה

List all reservation blocks

אפשר להשתמש בפקודה gcloud compute reservations blocks list כדי להציג את הקיבולת, הטופולוגיה ופרטי הבריאות של כל הבלוקים בהזמנה.

כל בלוק, בלוק משנה ואובייקט מארח מזוהים באמצעות מזהה גיבוב. המזהה של אובייקט האב מוצג בשדות הטופולוגיה הפיזית של אובייקטים צאצאים. אפשר להשתמש במזהי הגיבוב כדי ליצור תצוגה היררכית של הקיבולת.

gcloud compute reservations blocks list RESERVATION_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

מחליפים את מה שכתוב בשדות הבאים:

  • RESERVATION_NAME: השם של ההזמנה.
  • PROJECT_ID: מזהה הפרויקט.
  • ZONE: האזור שבו נמצאת ההזמנה.

הפלט של הפקודה אמור להיראות כך:

count: 32
creationTimestamp: '2025-11-05T15:00:15.223-08:00'
healthInfo:
  degradedSubBlockCount: 0
  healthStatus: HEALTHY
  healthySubBlockCount: 2
  id: '2996501069483632657'
inUseCount: 12
kind: compute#reservationBlock
name: example-reservation-block-0001
physicalTopology:
  block: 9a0e671424e45fd480ca172ad7a4e25d
  cluster: example-cluster
reservationMaintenance:
  schedulingType: GROUPED
reservationSubBlockCount: 2
reservationSubBlockInUseCount: 1
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c


count: 128
creationTimestamp: '2025-08-19T18:23:32.825-07:00'
healthInfo:
  degradedSubBlockCount: 0
  healthStatus: HEALTHY
  healthySubBlockCount: 4
id: '9a0e671424e45fd480ca172ad7a4e25d'
inUseCount: 64
kind: compute#reservationBlock
name: example-reservation-block-0002
physicalTopology:
  block: 3feffcdeb6434d68bb818a836f75c1b8
  cluster: example-cluster
reservationMaintenance:
  schedulingType: GROUPED
reservationSubBlockCount: 2
reservationSubBlockInUseCount: 1
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

הערכים הבאים בפלט מתארים את הבלוקים בהזמנה:

  • count: מספר המארחים הפיזיים
  • healthInfo.healthStatus: הבריאות הכוללת של הבלוק
  • healthInfo.healthySubblockCount: מספר תתי-הבלוקים התקינים בבלוק
  • id: המזהה של הבלוק
  • inUseCount: מספר המארחים הפיזיים שבשימוש
  • kind: סוג האובייקט שמתואר
  • name: השם של הבלוק
  • physicalTopology.block: מזהה הבלוק
  • physicalTopology.cluster: האשכול שבו נמצא הבלוק
  • reservationSubBlockCount: מספר תתי-הבלוקים בבלוק הזה
  • reservationSubBlockInUseCount: מספר תתי-הבלוקים שבשימוש

תיאור של חלון פגישות

אפשר להשתמש בפקודה gcloud compute reservations blocks describe בבלוק ספציפי כדי להציג מידע על הבלוק שציינתם.

gcloud compute reservations blocks describe RESERVATION_NAME \
  --block-name=BLOCK_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

מחליפים את מה שכתוב בשדות הבאים:

  • RESERVATION_NAME: השם של ההזמנה.
  • BLOCK_NAME: השם של בלוק ההזמנה.
  • PROJECT_ID: מזהה הפרויקט.
  • ZONE: האזור שבו נמצאת ההזמנה.

הפלט של הפקודה הזו הוא:

resource:
  count: 32
  creationTimestamp: '2025-11-05T15:00:15.223-08:00'
  healthInfo:
    degradedSubBlockCount: 0
    healthStatus: HEALTHY
    healthySubBlockCount: 2
  id: '2996501069483632657'
  inUseCount: 12
  kind: compute#reservationBlock
  name: example-reservation-block-0001
  physicalTopology:
    block: 9a0e671424e45fd480ca172ad7a4e25d
    cluster: example-cluster
  reservationMaintenance:
    schedulingType: GROUPED
  reservationSubBlockCount: 2
  reservationSubBlockInUseCount: 1
  selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001
  selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657
  status: READY
  zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

הערכים הבאים בפלט מתארים את הבלוקים בהזמנה:

  • count: מספר המארחים בחסימה
  • healthInfo.healthStatus: הבריאות הכוללת של הבלוק
  • healthInfo.healthySubblockCount: מספר תתי-הבלוקים התקינים בבלוק
  • id: המזהה של הבלוק
  • inUseCount: מספר המארחים שבשימוש
  • kind: סוג האובייקט שמתואר
  • name: השם של הבלוק
  • physicalTopology.block: מזהה הבלוק
  • physicalTopology.cluster: האשכול שבו נמצא הבלוק
  • reservationSubBlockCount: מספר תתי-הבלוקים בבלוק הזה
  • reservationSubBlockInUseCount: מספר תתי-הבלוקים שבשימוש

הצגת רשימה של כל תתי-הבלוקים של בלוק

אפשר לפרט את תתי-הבלוקים בבלוק כדי להציג מידע על כל תת-בלוק:

gcloud compute reservations sub-blocks list RESERVATION_NAME \
  --block-name=BLOCK_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

מחליפים את מה שכתוב בשדות הבאים:

  • RESERVATION_NAME: השם של ההזמנה.
  • BLOCK_NAME: השם של בלוק ההזמנה.
  • PROJECT_ID: מזהה הפרויקט.
  • ZONE: האזור שבו נמצאת ההזמנה.

הפקודה הזו מציגה את המידע הבא:

count: 16
creationTimestamp: '2025-11-05T15:00:16.738-08:00'
healthInfo:
  degradedHostCount: 0
  degradedInfraCount: 0
  healthStatus: HEALTHY
  healthyHostCount: 16
  healthyInfraCount: 1
id: '8309376980435233263'
inUseCount: 0
kind: compute#reservationSubBlock
name: example-reservation-block-0001-subblock-0001
physicalTopology:
  block: 9a0e671424e45fd480ca172ad7a4e25d
  cluster: example-cluster
  subBlock: a0122935eb54d02750b65eef2d4f0366
reservationSubBlockMaintenance:
  schedulingType: GROUPED
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0001
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/8309376980435233263
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c
---
count: 16
creationTimestamp: '2025-11-05T15:00:16.736-08:00'
healthInfo:
  degradedHostCount: 0
  degradedInfraCount: 0
  healthStatus: HEALTHY
  healthyHostCount: 16
  healthyInfraCount: 1
id: '5629213080155482607'
inUseCount: 12
kind: compute#reservationSubBlock
name: example-reservation-block-0001-subblock-0002
physicalTopology:
  block: 9a0e671424e45fd480ca172ad7a4e25d
  cluster: example-cluster
  subBlock: 7aca49831e54d32970631524bc060d9c
reservationSubBlockMaintenance:
  schedulingType: GROUPED
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0002
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/5629213080155482607
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

הערכים הבאים בפלט מתארים את חלקי המשנה בהזמנה:

  • count: מספר המארחים
  • healthInfo.degradedInfraCount: המצב התקין של מתג מעגל אופטי (OCS) של קוביית Ironwood. אם הערך הוא 1, זה מציין שה-OCS של קוביית Ironwood ירד. הערך הזה לא רלוונטי ל-Trillium
  • healthInfo.healthStatus: המצב הכללי של בלוק המשנה
  • healthInfo.healthyHostCount: מספר המארחים התקינים בתת-הבלוק
  • id: המזהה של הבלוק
  • inUseCount: מספר המארחים שבשימוש
  • kind: סוג האובייקט שמתואר
  • name: השם של בלוק המשנה
  • physicalTopology.block: המזהה של הבלוק שמכיל את הבלוק המשני הזה
  • physicalTopology.cluster: האשכול שבו נמצא הבלוק
  • physicalTopology.subblock: המזהה של בלוק המשנה

תיאור של בלוק משנה של הזמנה

אפשר להשתמש בgcloud compute sub-blocks describe כדי לראות מידע על בלוק משנה:

gcloud compute reservations sub-blocks describe RESERVATION_NAME \
  --block-name=BLOCK_NAME \
  --sub-block-name=SUB_BLOCK_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

מחליפים את מה שכתוב בשדות הבאים:

  • RESERVATION_NAME: השם של ההזמנה.
  • BLOCK_NAME: השם של בלוק ההזמנה.
  • SUB_BLOCK_NAME: השם של בלוק המשנה של ההזמנה.
  • PROJECT_ID: מזהה הפרויקט.
  • ZONE: האזור שבו נמצאת ההזמנה.

הפקודה הזו מציגה את המידע הבא:

resource:
  count: 16
  creationTimestamp: '2025-11-05T15:00:16.736-08:00'
  healthInfo:
    degradedHostCount: 0
    degradedInfraCount: 0
    healthStatus: HEALTHY
    healthyHostCount: 16
    healthyInfraCount: 1
  id: '5629213080155482607'
  inUseCount: 12
  kind: compute#reservationSubBlock
  name: example-reservation-block-0001-subblock-0002
  physicalTopology:
    block: 9a0e671424e45fd480ca172ad7a4e25d
    cluster: example-cluster
    subBlock: 7aca49831e54d32970631524bc060d9c
  reservationSubBlockMaintenance:
    schedulingType: GROUPED
  selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0002
  selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/5629213080155482607
  status: READY
  zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

הערכים הבאים בפלט מתארים את חלקי המשנה בהזמנה:

  • count: מספר המארחים
  • healthInfo.degradedInfraCount: המצב התקין של מתג מעגל אופטי (OCS) של קוביית Ironwood. אם הערך הוא 1, זה מציין שה-OCS של קוביית Ironwood ירד. הערך הזה לא רלוונטי ל-Trillium
  • healthInfo.healthStatus: המצב הכללי של בלוק המשנה
  • healthInfo.healthyHostCount: מספר המארחים התקינים בתת-הבלוק
  • id: המזהה של הבלוק
  • inUseCount: מספר המארחים שבשימוש
  • kind: סוג האובייקט שמתואר
  • name: השם של בלוק המשנה
  • physicalTopology.block: המזהה של הבלוק שמכיל את הבלוק המשני הזה
  • physicalTopology.cluster: האשכול שבו נמצא הבלוק
  • physicalTopology.subblock: המזהה של בלוק המשנה

איך מוצאים את המיקום הפיזי של מכונת TPU וירטואלית

אחרי שמקצים פרוסות TPU, אפשר לאחזר את המיקום הפיזי של מופעי TPU VM. כך תוכלו להבין את המרחקים היחסיים בין מכונות וירטואליות של TPU כדי לבצע אופטימיזציה של תזמון עומסי העבודה.

אפשר למצוא את המיקום הפיזי של מכונת TPU וירטואלית באמצעות curl או Google Cloud CLI:

curl

curl -s -H "Metadata-Flavor: Google" http://metadata.google.internal/computeMetadata/v1/instance/attributes/physical_host_topology

gcloud

gcloud compute instances describe VM_NAME \
    --format="table[box,title=VM-Position](resourceStatus.physical_host_topology:label=location)" \
    --zone=ZONE

מחליפים את מה שכתוב בשדות הבאים:

  • VM_NAME: השם של מכונת ה-TPU הווירטואלית.
  • ZONE: האזור שבו נמצאת מכונת ה-TPU שלכם.

שתי הפקודות האלה מציגות מידע על האשכול, הבלוק, תת-הבלוק והמארח של מכונת ה-TPU הווירטואלית שציינתם:

block: 3feffcdeb6434d68bb818a836f75c1b8
cluster: southamerica-west1-cluster-njga
subblock: cbee689cb721abdb0c7f80a4f2d0c1c7
host: 36b2d9731c1e1cf8594a759c8c4178f0