Ver a topologia e o status de integridade de todas as reservas do modo de capacidade

É possível recuperar informações de topologia e integridade sobre a capacidade do modo "Toda a capacidade" usando o console Google Cloud ou a Google Cloud CLI antes ou depois de provisionar fatias de TPU. Também é possível recuperar a localização física de uma instância de VM de TPU usando a API Instance do Compute Engine ou um comando curl no SO convidado da VM de TPU. As informações de topologia e status de integridade nos níveis de cluster, bloco, subbloco, host e VM permitem tomar decisões de posicionamento com reconhecimento de topologia para suas cargas de trabalho, segmentar blocos ou subblocos específicos para implantação e entender a proximidade relativa entre instâncias de VM da TPU.

Conferir a topologia de capacidade no console do Google Cloud

Para usar o console do Google Cloud e ver os detalhes da sua reserva:

  1. No console do Google Cloud , use a barra de pesquisa para procurar "reservas" e acesse a página de reservas.
  2. Selecione a guia Reservas sob demanda e encontre sua reserva de TPU no modo de capacidade total. Sua equipe de contas vai informar o nome da reserva.
  3. Selecione sua reserva para abrir a página de detalhes.

Para uma reserva no modo "Toda a capacidade", o Modo operacional é definido como Toda a capacidade. Uma lista de blocos é exibida com um resumo da utilização e do status de integridade deles.

Selecione um bloco na lista para acessar a página de detalhes. A topologia do bloco é exibida na seção Local do cluster. Esta seção mostra o nome do cluster, o ID hash de um bloco e o ID hash de um subbloco.

Os nomes de clusters são globalmente exclusivos em todas as organizações do Google. Em outras palavras, dois clientes diferentes podem ver o mesmo nome de cluster. Ao contrário dos nomes de cluster, o ID hash de blocos ou sub-blocos é exclusivo nos projetos da sua organizaçãoGoogle Cloud .

Você pode selecionar um subbloco para mostrar a página de detalhes dele, que exibe apenas hosts físicos com instâncias de VM de TPU ativas. Hosts físicos não utilizados não são mostrados.

Conferir a topologia de capacidade usando a Google Cloud CLI

É possível usar os comandos list e describe da Google Cloud CLI em reservas, blocos e sub-blocos para encontrar informações de topologia e integridade sobre sua capacidade.

Use as informações mostradas pelos comandos nesta seção para determinar a hierarquia de topologia da capacidade física na sua reserva.

Descrever uma reserva

Use gcloud compute reservations describe para conferir uma visão geral da capacidade na sua reserva. O comando a seguir mostra um resumo de uma reserva:

gcloud compute reservations describe RESERVATION_NAME \
   --project=PROJECT_ID \
   --zone=ZONE

Substitua:

  • RESERVATION_NAME: o nome da sua reserva.
  • PROJECT_ID: o ID do projeto.
  • ZONE: a zona em que sua reserva está localizada.

O resultado será o seguinte:

advancedDeploymentControl:
  reservationOperationalMode: ALL_CAPACITY
aggregateReservation:
  inUseResources:
  - accelerator:
      acceleratorCount: 48
      acceleratorType: projects/example-project/zones/us-central1-c/acceleratorTypes/tpu7x
  reservedResources:
  - accelerator:
      acceleratorCount: 128
      acceleratorType: projects/example-project/zones/us-central1-c/acceleratorTypes/tpu7x
  vmFamily: VM_FAMILY_CLOUD_TPU_POD_SLICE_TPU7X
  workloadType: UNSPECIFIED
creationTimestamp: '2025-11-05T14:16:30.571-08:00'
deleteAtTime: '2026-11-06T08:00:00Z'
deploymentType: DENSE 
enableEmergentMaintenance: false
id: '8873145979824927313'
kind: compute#reservation
linkedCommitments:
- https://www.googleapis.com/compute/v1/projects/example-project/regions/us-central1/commitments/example-cud
name: example-reservation
protectionTier: STANDARD
reservationSharingPolicy:
  serviceShareType: ALLOW_ALL
resourceStatus:
  healthInfo:
    degradedBlockCount: 0
    healthStatus: HEALTHY
    healthyBlockCount: 1
  reservationBlockCount: 1
  reservationMaintenance:
    schedulingType: 
schedulingType: GROUPED
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation
shareSettings:
  projectMap:
    '111111111111':
      projectId: '111111111111'
  shareType: SPECIFIC_PROJECTS
specificReservationRequired: true
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Os valores a seguir da saída descrevem a reserva:

  • advancedDeploymentControl.reservationOperationalMode: o modo de capacidade da reserva
  • aggregateReservation.inUseResources.accelerator.acceleratorCount: o número de chips de TPU em uso
  • aggregateReservation.inUseResources.accelerator.acceleratorType: a versão da TPU
  • reservedResources.accelerator.acceleratorCount: o número de chips de TPU na reserva.
  • deploymentType: o tipo de implantação (sempre será DENSE para TPUs)
  • reservationSharingPolicy.serviceShareType: o tipo de compartilhamento de serviço
  • resourceStatus.healthInfo.healthStatus: integridade geral da capacidade
  • resourceStatus.healthInfo.healthyBlockCount: o número de blocos íntegros na reserva.
  • resourceStatus.reservationBlockCount: o número de blocos na reserva

Listar todos os blocos de reserva

Use o comando gcloud compute reservations blocks list para mostrar informações sobre capacidade, topologia e integridade de todos os blocos em uma reserva.

Cada bloco, sub-bloco e objeto host é identificado por um ID de hash. O ID do objeto pai é exibido nos campos de topologia física dos objetos filhos. É possível usar os IDs de hash para criar uma visualização hierárquica de topologia da capacidade.

gcloud compute reservations blocks list RESERVATION_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

Substitua:

  • RESERVATION_NAME: o nome da sua reserva.
  • PROJECT_ID: o ID do projeto.
  • ZONE: a zona em que sua reserva está localizada.

O comando exibe a seguinte saída:

count: 32
creationTimestamp: '2025-11-05T15:00:15.223-08:00'
healthInfo:
  degradedSubBlockCount: 0
  healthStatus: HEALTHY
  healthySubBlockCount: 2
  id: '2996501069483632657'
inUseCount: 12
kind: compute#reservationBlock
name: example-reservation-block-0001
physicalTopology:
  block: 9a0e671424e45fd480ca172ad7a4e25d
  cluster: example-cluster
reservationMaintenance:
  schedulingType: GROUPED
reservationSubBlockCount: 2
reservationSubBlockInUseCount: 1
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c


count: 128
creationTimestamp: '2025-08-19T18:23:32.825-07:00'
healthInfo:
  degradedSubBlockCount: 0
  healthStatus: HEALTHY
  healthySubBlockCount: 4
id: '9a0e671424e45fd480ca172ad7a4e25d'
inUseCount: 64
kind: compute#reservationBlock
name: example-reservation-block-0002
physicalTopology:
  block: 3feffcdeb6434d68bb818a836f75c1b8
  cluster: example-cluster
reservationMaintenance:
  schedulingType: GROUPED
reservationSubBlockCount: 2
reservationSubBlockInUseCount: 1
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Os valores a seguir da saída descrevem os blocos na reserva:

  • count: o número de hosts físicos
  • healthInfo.healthStatus: a integridade geral do bloco.
  • healthInfo.healthySubblockCount: o número de sub-blocos íntegros no bloco
  • id: o ID do bloco
  • inUseCount: o número de hosts físicos em uso.
  • kind: o tipo de objeto descrito
  • name: o nome do bloco
  • physicalTopology.block: o ID do bloco
  • physicalTopology.cluster: o cluster em que o bloco está localizado.
  • reservationSubBlockCount: o número de sub-blocos neste bloco
  • reservationSubBlockInUseCount: o número de sub-blocos em uso

Descrever um bloco de reserva

Use o comando gcloud compute reservations blocks describe em um bloco específico para mostrar informações sobre ele.

gcloud compute reservations blocks describe RESERVATION_NAME \
  --block-name=BLOCK_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

Substitua:

  • RESERVATION_NAME: o nome da sua reserva.
  • BLOCK_NAME: o nome do bloco de reserva.
  • PROJECT_ID: o ID do projeto.
  • ZONE: a zona em que sua reserva está localizada.

Esse comando mostra a seguinte saída:

resource:
  count: 32
  creationTimestamp: '2025-11-05T15:00:15.223-08:00'
  healthInfo:
    degradedSubBlockCount: 0
    healthStatus: HEALTHY
    healthySubBlockCount: 2
  id: '2996501069483632657'
  inUseCount: 12
  kind: compute#reservationBlock
  name: example-reservation-block-0001
  physicalTopology:
    block: 9a0e671424e45fd480ca172ad7a4e25d
    cluster: example-cluster
  reservationMaintenance:
    schedulingType: GROUPED
  reservationSubBlockCount: 2
  reservationSubBlockInUseCount: 1
  selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001
  selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657
  status: READY
  zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Os valores a seguir da saída descrevem os blocos na reserva:

  • count: o número de hosts no bloco
  • healthInfo.healthStatus: a integridade geral do bloco.
  • healthInfo.healthySubblockCount: o número de sub-blocos íntegros no bloco
  • id: o ID do bloco
  • inUseCount: o número de hosts em uso.
  • kind: o tipo de objeto descrito
  • name: o nome do bloco
  • physicalTopology.block: o ID do bloco
  • physicalTopology.cluster: o cluster em que o bloco está localizado.
  • reservationSubBlockCount: o número de sub-blocos neste bloco
  • reservationSubBlockInUseCount: o número de sub-blocos em uso

Listar todos os sub-blocos de um bloco

É possível listar os sub-blocos em um bloco para mostrar informações de cada um deles:

gcloud compute reservations sub-blocks list RESERVATION_NAME \
  --block-name=BLOCK_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

Substitua:

  • RESERVATION_NAME: o nome da sua reserva.
  • BLOCK_NAME: o nome do bloco de reserva.
  • PROJECT_ID: o ID do projeto.
  • ZONE: a zona em que sua reserva está localizada.

Esse comando mostra as seguintes informações:

count: 16
creationTimestamp: '2025-11-05T15:00:16.738-08:00'
healthInfo:
  degradedHostCount: 0
  degradedInfraCount: 0
  healthStatus: HEALTHY
  healthyHostCount: 16
  healthyInfraCount: 1
id: '8309376980435233263'
inUseCount: 0
kind: compute#reservationSubBlock
name: example-reservation-block-0001-subblock-0001
physicalTopology:
  block: 9a0e671424e45fd480ca172ad7a4e25d
  cluster: example-cluster
  subBlock: a0122935eb54d02750b65eef2d4f0366
reservationSubBlockMaintenance:
  schedulingType: GROUPED
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0001
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/8309376980435233263
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c
---
count: 16
creationTimestamp: '2025-11-05T15:00:16.736-08:00'
healthInfo:
  degradedHostCount: 0
  degradedInfraCount: 0
  healthStatus: HEALTHY
  healthyHostCount: 16
  healthyInfraCount: 1
id: '5629213080155482607'
inUseCount: 12
kind: compute#reservationSubBlock
name: example-reservation-block-0001-subblock-0002
physicalTopology:
  block: 9a0e671424e45fd480ca172ad7a4e25d
  cluster: example-cluster
  subBlock: 7aca49831e54d32970631524bc060d9c
reservationSubBlockMaintenance:
  schedulingType: GROUPED
selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0002
selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/5629213080155482607
status: READY
zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Os valores a seguir da saída descrevem os sub-blocos na reserva:

  • count: o número de hosts
  • healthInfo.degradedInfraCount: o estado íntegro de um Optical Circuit Switch (OCS) de um cubo do Ironwood. Se esse valor for 1, isso indica que o OCS do cubo Ironwood está degradado. Esse valor não se aplica ao Trillium
  • healthInfo.healthStatus: a integridade geral do sub-bloco
  • healthInfo.healthyHostCount: o número de hosts íntegros no subbloco.
  • id: o ID do bloco
  • inUseCount: o número de hosts em uso.
  • kind: o tipo de objeto descrito
  • name: o nome do sub-bloco
  • physicalTopology.block: o ID do bloco que contém este subbloco.
  • physicalTopology.cluster: o cluster em que o bloco está localizado.
  • physicalTopology.subblock: o ID do sub-bloco

Descrever um sub-bloco de reserva

Use o gcloud compute sub-blocks describe para ver informações sobre um sub-bloco:

gcloud compute reservations sub-blocks describe RESERVATION_NAME \
  --block-name=BLOCK_NAME \
  --sub-block-name=SUB_BLOCK_NAME \
  --project=PROJECT_ID \
  --zone=ZONE

Substitua:

  • RESERVATION_NAME: o nome da sua reserva.
  • BLOCK_NAME: o nome do bloco de reserva.
  • SUB_BLOCK_NAME: o nome do sub-bloco de reserva.
  • PROJECT_ID: o ID do projeto.
  • ZONE: a zona em que sua reserva está localizada.

Esse comando mostra as seguintes informações:

resource:
  count: 16
  creationTimestamp: '2025-11-05T15:00:16.736-08:00'
  healthInfo:
    degradedHostCount: 0
    degradedInfraCount: 0
    healthStatus: HEALTHY
    healthyHostCount: 16
    healthyInfraCount: 1
  id: '5629213080155482607'
  inUseCount: 12
  kind: compute#reservationSubBlock
  name: example-reservation-block-0001-subblock-0002
  physicalTopology:
    block: 9a0e671424e45fd480ca172ad7a4e25d
    cluster: example-cluster
    subBlock: 7aca49831e54d32970631524bc060d9c
  reservationSubBlockMaintenance:
    schedulingType: GROUPED
  selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0002
  selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/5629213080155482607
  status: READY
  zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c

Os valores a seguir da saída descrevem os sub-blocos na reserva:

  • count: o número de hosts
  • healthInfo.degradedInfraCount: o estado íntegro de um Optical Circuit Switch (OCS) de um cubo do Ironwood. Se esse valor for 1, isso indica que o OCS do cubo Ironwood está degradado. Esse valor não se aplica ao Trillium
  • healthInfo.healthStatus: a integridade geral do sub-bloco
  • healthInfo.healthyHostCount: o número de hosts íntegros no subbloco.
  • id: o ID do bloco
  • inUseCount: o número de hosts em uso.
  • kind: o tipo de objeto descrito
  • name: o nome do sub-bloco
  • physicalTopology.block: o ID do bloco que contém este subbloco.
  • physicalTopology.cluster: o cluster em que o bloco está localizado.
  • physicalTopology.subblock: o ID do sub-bloco

Encontrar o local físico de uma instância de VM da TPU

Depois de provisionar as frações de TPU, é possível recuperar o local físico das instâncias de VM de TPU. Isso permite entender as distâncias relativas entre instâncias de VM de TPU para otimização do agendamento de carga de trabalho.

Para encontrar a localização física de uma instância de VM da TPU, use curl ou a Google Cloud CLI:

curl

curl -s -H "Metadata-Flavor: Google" http://metadata.google.internal/computeMetadata/v1/instance/attributes/physical_host_topology

gcloud

gcloud compute instances describe VM_NAME \
    --format="table[box,title=VM-Position](resourceStatus.physical_host_topology:label=location)" \
    --zone=ZONE

Substitua:

  • VM_NAME: o nome da VM de TPU.
  • ZONE: a zona em que a VM de TPU está localizada.

Os dois comandos mostram informações sobre o cluster, o bloco, o sub-bloco e o host da VM de TPU especificada:

block: 3feffcdeb6434d68bb818a836f75c1b8
cluster: southamerica-west1-cluster-njga
subblock: cbee689cb721abdb0c7f80a4f2d0c1c7
host: 36b2d9731c1e1cf8594a759c8c4178f0