Ver la topología y el estado de salud de todas las reservas en el modo de capacidad

Puedes obtener información sobre la topología y el estado de tu capacidad del modo Capacidad total con la consola Google Cloud o la CLI de Google Cloud antes o después de aprovisionar las porciones de TPU. También puedes obtener la ubicación física de una instancia de VM de TPU mediante la API de instancias de Compute Engine o con un comando curl desde el SO invitado de la VM de TPU. La información sobre la topología y el estado de salud a nivel de clúster, bloque, subbloque, host y VM te permite tomar decisiones de colocación en función de la topología para tus cargas de trabajo, orientar la implementación a bloques o subbloques específicos y conocer la proximidad relativa entre las instancias de VM de TPU.

Ver la topología de capacidad en la consola Google Cloud

Para usar la consola Google Cloud y ver los detalles de tu reserva, sigue estos pasos:

  1. En la Google Cloud consola, usa la barra de búsqueda para buscar "reservations" y ve a la página de reservas.
  2. Selecciona la pestaña Reservas bajo demanda y busca tu reserva del modo de capacidad total de TPU. El equipo de tu cuenta te indicará el nombre de tu reserva.
  3. Selecciona tu reserva para ver la página de detalles.

En el caso de las reservas en el modo Toda la capacidad, el modo de funcionamiento se define como Toda la capacidad. Se muestra una lista de bloques junto con un resumen de su utilización y estado.

Selecciona un bloque de la lista para ver la página de detalles del bloque. La topología del bloque se muestra en la sección Ubicación del clúster. En esta sección se muestra el nombre del clúster, el ID cifrado de un bloque y el ID cifrado de un subbloque.

Los nombres de clústeres son únicos en todas las organizaciones de Google. Es decir, dos clientes diferentes pueden ver el mismo nombre de clúster. A diferencia de los nombres de clústeres, el ID cifrado de los bloques o subbloques es único en los proyectos de tuGoogle Cloud organización.

Puedes seleccionar un subbloque para que se muestre la página de detalles del subbloque, que solo muestra los hosts físicos con instancias de VM de TPU activas. No se muestran los hosts físicos no utilizados.

Ver la topología de capacidad con Google Cloud CLI

Puedes usar los comandos list y describe de la CLI de Google Cloud en reservas, bloques y subbloques para encontrar información sobre la topología y el estado de tu capacidad.

Puede usar la información que muestran los comandos de esta sección para determinar la jerarquía de topología de la capacidad física de su reserva.

Describe una reserva

Puedes usar el gcloud compute reservations describe para ver un resumen de la capacidad de tu reserva. El siguiente comando muestra un resumen de una reserva:

gcloud compute reservations describe RESERVATION_NAME \
   --project=PROJECT_ID \
   --zone=ZONE

Haz los cambios siguientes:

  • RESERVATION_NAME: el nombre de tu reserva.
  • PROJECT_ID: tu ID de proyecto.
  • ZONE: la zona en la que se encuentra tu reserva.

El resultado debería ser similar al siguiente:

advancedDeploymentControl:
  reservationOperationalMode: ALL_CAPACITY
aggregateReservation:
  inUseResources:
  - accelerator:
      acceleratorCount: 48
      acceleratorType: projects/example-project/zones/us-central1-c/acceleratorTypes/tpu7x
  reservedResources:
  - accelerator:
      acceleratorCount: 128
      acceleratorType: projects/example-project/zones/us-central1-c/acceleratorTypes/tpu7x
  vmFamily: VM_FAMILY_CLOUD_TPU_POD_SLICE_TPU7X
  workloadType: UNSPECIFIED
creationTimestamp: '2025-11-05T14:16:30.571-08:00'
deleteAtTime: '2026-11-06T08:00:00Z'
deploymentType: DENSE 
enableEmergentMaintenance: false
id: '8873145979824927313'
kind: compute#reservation
linkedCommitments:
- https://www.googleapis.com/compute/v1/projects/example-project/regions/us-central1/commitments/example-cud
name: example-reservation
protectionTier: STANDARD
reservationSharingPolicy:
  serviceShareType: ALLOW_ALL
resourceStatus:
  healthInfo:
    degradedBlockCount: 0
    healthStatus: HEALTHY
    healthyBlockCount: 1
  reservationBlockCount: 1
  reservationMaintenance:
    schedulingType: 
schedulingType: GROUPED
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation
shareSettings:
  projectMap:
    '111111111111':
      projectId: '111111111111'
  shareType: SPECIFIC_PROJECTS
specificReservationRequired: true
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Los siguientes valores de la salida describen la reserva:

  • advancedDeploymentControl.reservationOperationalMode: el modo de capacidad de la reserva
  • aggregateReservation.inUseResources.accelerator.acceleratorCount: número de chips de TPU en uso
  • aggregateReservation.inUseResources.accelerator.acceleratorType: la versión de la TPU
  • reservedResources.accelerator.acceleratorCount: número de chips de TPU de la reserva
  • deploymentType: el tipo de implementación (siempre será DENSE para las TPUs)
  • reservationSharingPolicy.serviceShareType: el tipo de recurso compartido del servicio
  • resourceStatus.healthInfo.healthStatus: estado general de la capacidad
  • resourceStatus.healthInfo.healthyBlockCount: número de bloques correctos de la reserva
  • resourceStatus.reservationBlockCount: número de bloques de la reserva

Mostrar todos los bloques de reserva

Puedes usar el comando gcloud compute reservations blocks list para mostrar información sobre la capacidad, la topología y el estado de todos los bloques de una reserva.

Cada bloque, subbloque y objeto de host se identifica mediante un ID de hash. El ID del objeto principal se muestra en los campos de topología física de los objetos secundarios. Puede usar los IDs de hash para crear una vista de jerarquía de topología de la capacidad.

gcloud compute reservations blocks list RESERVATION_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

Haz los cambios siguientes:

  • RESERVATION_NAME: el nombre de tu reserva.
  • PROJECT_ID: tu ID de proyecto.
  • ZONE: la zona en la que se encuentra tu reserva.

El comando muestra el siguiente resultado:

count: 32
creationTimestamp: '2025-11-05T15:00:15.223-08:00'
healthInfo:
  degradedSubBlockCount: 0
  healthStatus: HEALTHY
  healthySubBlockCount: 2
  id: '2996501069483632657'
inUseCount: 12
kind: compute#reservationBlock
name: example-reservation-block-0001
physicalTopology:
  block: 9a0e671424e45fd480ca172ad7a4e25d
  cluster: example-cluster
reservationMaintenance:
  schedulingType: GROUPED
reservationSubBlockCount: 2
reservationSubBlockInUseCount: 1
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c


count: 128
creationTimestamp: '2025-08-19T18:23:32.825-07:00'
healthInfo:
  degradedSubBlockCount: 0
  healthStatus: HEALTHY
  healthySubBlockCount: 4
id: '9a0e671424e45fd480ca172ad7a4e25d'
inUseCount: 64
kind: compute#reservationBlock
name: example-reservation-block-0002
physicalTopology:
  block: 3feffcdeb6434d68bb818a836f75c1b8
  cluster: example-cluster
reservationMaintenance:
  schedulingType: GROUPED
reservationSubBlockCount: 2
reservationSubBlockInUseCount: 1
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Los siguientes valores de la salida describen los bloques de la reserva:

  • count: número de hosts físicos
  • healthInfo.healthStatus: el estado general del bloque
  • healthInfo.healthySubblockCount: número de subbloques correctos del bloque
  • id: el ID del bloque
  • inUseCount: número de hosts físicos en uso
  • kind: el tipo de objeto descrito
  • name: el nombre del bloque
  • physicalTopology.block: el ID del bloque
  • physicalTopology.cluster: el clúster en el que se encuentra el bloque
  • reservationSubBlockCount: número de subbloques de este bloque
  • reservationSubBlockInUseCount: número de subbloques en uso

Describe un bloque de reserva

Puedes usar el comando gcloud compute reservations blocks describe en un bloque específico para mostrar información sobre el bloque que especifiques.

gcloud compute reservations blocks describe RESERVATION_NAME \
  --block-name=BLOCK_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

Haz los cambios siguientes:

  • RESERVATION_NAME: el nombre de tu reserva.
  • BLOCK_NAME: el nombre del bloque de reserva.
  • PROJECT_ID: tu ID de proyecto.
  • ZONE: la zona en la que se encuentra tu reserva.

Este comando muestra el siguiente resultado:

resource:
  count: 32
  creationTimestamp: '2025-11-05T15:00:15.223-08:00'
  healthInfo:
    degradedSubBlockCount: 0
    healthStatus: HEALTHY
    healthySubBlockCount: 2
  id: '2996501069483632657'
  inUseCount: 12
  kind: compute#reservationBlock
  name: example-reservation-block-0001
  physicalTopology:
    block: 9a0e671424e45fd480ca172ad7a4e25d
    cluster: example-cluster
  reservationMaintenance:
    schedulingType: GROUPED
  reservationSubBlockCount: 2
  reservationSubBlockInUseCount: 1
  selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001
  selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657
  status: READY
  zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Los siguientes valores de la salida describen los bloques de la reserva:

  • count: número de anfitriones del bloque
  • healthInfo.healthStatus: el estado general del bloque
  • healthInfo.healthySubblockCount: número de subbloques correctos del bloque
  • id: el ID del bloque
  • inUseCount: número de hosts en uso
  • kind: el tipo de objeto descrito
  • name: el nombre del bloque
  • physicalTopology.block: el ID del bloque
  • physicalTopology.cluster: el clúster en el que se encuentra el bloque
  • reservationSubBlockCount: número de subbloques de este bloque
  • reservationSubBlockInUseCount: número de subbloques en uso

Mostrar todos los subbloques de un bloque

Puedes enumerar los subbloques de un bloque para mostrar información de cada subbloque:

gcloud compute reservations sub-blocks list RESERVATION_NAME \
  --block-name=BLOCK_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

Haz los cambios siguientes:

  • RESERVATION_NAME: el nombre de tu reserva.
  • BLOCK_NAME: el nombre del bloque de reserva.
  • PROJECT_ID: tu ID de proyecto.
  • ZONE: la zona en la que se encuentra tu reserva.

Este comando muestra la siguiente información:

count: 16
creationTimestamp: '2025-11-05T15:00:16.738-08:00'
healthInfo:
  degradedHostCount: 0
  degradedInfraCount: 0
  healthStatus: HEALTHY
  healthyHostCount: 16
  healthyInfraCount: 1
id: '8309376980435233263'
inUseCount: 0
kind: compute#reservationSubBlock
name: example-reservation-block-0001-subblock-0001
physicalTopology:
  block: 9a0e671424e45fd480ca172ad7a4e25d
  cluster: example-cluster
  subBlock: a0122935eb54d02750b65eef2d4f0366
reservationSubBlockMaintenance:
  schedulingType: GROUPED
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0001
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/8309376980435233263
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c
---
count: 16
creationTimestamp: '2025-11-05T15:00:16.736-08:00'
healthInfo:
  degradedHostCount: 0
  degradedInfraCount: 0
  healthStatus: HEALTHY
  healthyHostCount: 16
  healthyInfraCount: 1
id: '5629213080155482607'
inUseCount: 12
kind: compute#reservationSubBlock
name: example-reservation-block-0001-subblock-0002
physicalTopology:
  block: 9a0e671424e45fd480ca172ad7a4e25d
  cluster: example-cluster
  subBlock: 7aca49831e54d32970631524bc060d9c
reservationSubBlockMaintenance:
  schedulingType: GROUPED
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0002
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/5629213080155482607
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Los siguientes valores de la salida describen los subbloques de la reserva:

  • count: número de anfitriones
  • healthInfo.degradedInfraCount: el estado correcto del conmutador de circuito óptico (OCS) de un cubo Ironwood. Si este valor es 1, indica que el OCS del cubo Ironwood se ha degradado. Este valor no se aplica a Trillium
  • healthInfo.healthStatus: el estado general del subbloque
  • healthInfo.healthyHostCount: número de hosts correctos en el subbloque
  • id: el ID del bloque
  • inUseCount: número de hosts en uso
  • kind: el tipo de objeto descrito
  • name: el nombre del subbloque
  • physicalTopology.block: el ID del bloque que contiene este subbloque.
  • physicalTopology.cluster: el clúster en el que se encuentra el bloque
  • physicalTopology.subblock: el ID del subbloque.

Describe un subbloque de reserva

Puedes usar el gcloud compute sub-blocks describe para ver información sobre un subbloque:

gcloud compute reservations sub-blocks describe RESERVATION_NAME \
  --block-name=BLOCK_NAME \
  --sub-block-name=SUB_BLOCK_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

Haz los cambios siguientes:

  • RESERVATION_NAME: el nombre de tu reserva.
  • BLOCK_NAME: el nombre del bloque de reserva.
  • SUB_BLOCK_NAME: el nombre del subbloque de reserva.
  • PROJECT_ID: tu ID de proyecto.
  • ZONE: la zona en la que se encuentra tu reserva.

Este comando muestra la siguiente información:

resource:
  count: 16
  creationTimestamp: '2025-11-05T15:00:16.736-08:00'
  healthInfo:
    degradedHostCount: 0
    degradedInfraCount: 0
    healthStatus: HEALTHY
    healthyHostCount: 16
    healthyInfraCount: 1
  id: '5629213080155482607'
  inUseCount: 12
  kind: compute#reservationSubBlock
  name: example-reservation-block-0001-subblock-0002
  physicalTopology:
    block: 9a0e671424e45fd480ca172ad7a4e25d
    cluster: example-cluster
    subBlock: 7aca49831e54d32970631524bc060d9c
  reservationSubBlockMaintenance:
    schedulingType: GROUPED
  selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0002
  selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/5629213080155482607
  status: READY
  zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Los siguientes valores de la salida describen los subbloques de la reserva:

  • count: número de anfitriones
  • healthInfo.degradedInfraCount: el estado correcto del conmutador de circuito óptico (OCS) de un cubo Ironwood. Si este valor es 1, indica que el OCS del cubo Ironwood se ha degradado. Este valor no se aplica a Trillium
  • healthInfo.healthStatus: el estado general del subbloque
  • healthInfo.healthyHostCount: número de hosts correctos en el subbloque
  • id: el ID del bloque
  • inUseCount: número de hosts en uso
  • kind: el tipo de objeto descrito
  • name: el nombre del subbloque
  • physicalTopology.block: el ID del bloque que contiene este subbloque.
  • physicalTopology.cluster: el clúster en el que se encuentra el bloque
  • physicalTopology.subblock: el ID del subbloque.

Buscar la ubicación física de una instancia de VM de TPU

Una vez que aprovisiones las slices de TPU, podrás obtener la ubicación física de tus instancias de máquina virtual de TPU. De esta forma, puedes conocer las distancias relativas entre las instancias de VM de TPU para optimizar la programación de las cargas de trabajo.

Puedes consultar la ubicación física de una instancia de máquina virtual de TPU mediante curl o la CLI de Google Cloud:

curl

curl -s -H "Metadata-Flavor: Google" http://metadata.google.internal/computeMetadata/v1/instance/attributes/physical_host_topology

gcloud

gcloud compute instances describe VM_NAME \
    --format="table[box,title=VM-Position](resourceStatus.physical_host_topology:label=location)" \
    --zone=ZONE

Haz los cambios siguientes:

  • VM_NAME: nombre de la VM de TPU.
  • ZONE: la zona en la que se encuentra tu VM de TPU.

Ambos comandos muestran información sobre el clúster, el bloque, el subbloque y el host de la VM de TPU que especifiques:

block: 3feffcdeb6434d68bb818a836f75c1b8
cluster: southamerica-west1-cluster-njga
subblock: cbee689cb721abdb0c7f80a4f2d0c1c7
host: 36b2d9731c1e1cf8594a759c8c4178f0