Ver a topologia e o status de integridade de todas as reservas do modo de capacidade
É possível recuperar informações de topologia e integridade sobre a capacidade do modo "Toda a capacidade" usando o console Google Cloud ou a Google Cloud CLI antes ou depois de provisionar fatias de TPU. Também é possível recuperar a localização física de uma instância de VM de TPU usando a API Instance do Compute Engine ou um comandocurl no SO convidado da VM de TPU. As informações de topologia e status de integridade nos níveis de cluster, bloco, subbloco, host e VM permitem tomar decisões de posicionamento com reconhecimento de topologia para suas cargas de trabalho, segmentar blocos ou subblocos específicos para implantação e entender a proximidade relativa entre instâncias de VM da TPU.
Conferir a topologia de capacidade no console do Google Cloud
Para usar o console do Google Cloud e ver os detalhes da sua reserva:
- No console do Google Cloud , use a barra de pesquisa para procurar "reservas" e acesse a página de reservas.
- Selecione a guia Reservas sob demanda e encontre sua reserva de TPU no modo de capacidade total. Sua equipe de contas vai informar o nome da reserva.
- Selecione sua reserva para abrir a página de detalhes.
Para uma reserva no modo "Toda a capacidade", o Modo operacional é definido como Toda a capacidade. Uma lista de blocos é exibida com um resumo da utilização e do status de integridade deles.
Selecione um bloco na lista para acessar a página de detalhes. A topologia do bloco é exibida na seção Local do cluster. Esta seção mostra o nome do cluster, o ID hash de um bloco e o ID hash de um subbloco.
Os nomes de clusters são globalmente exclusivos em todas as organizações do Google. Em outras palavras, dois clientes diferentes podem ver o mesmo nome de cluster. Ao contrário dos nomes de cluster, o ID hash de blocos ou sub-blocos é exclusivo nos projetos da sua organizaçãoGoogle Cloud .
Você pode selecionar um subbloco para mostrar a página de detalhes dele, que exibe apenas hosts físicos com instâncias de VM de TPU ativas. Hosts físicos não utilizados não são mostrados.
Conferir a topologia de capacidade usando a Google Cloud CLI
É possível usar os comandos list e describe da Google Cloud CLI em reservas, blocos e sub-blocos para encontrar informações de topologia e integridade sobre sua capacidade.
Use as informações mostradas pelos comandos nesta seção para determinar a hierarquia de topologia da capacidade física na sua reserva.
Descrever uma reserva
Use gcloud compute reservations describe para conferir uma visão geral da capacidade na sua reserva. O comando a seguir mostra um resumo de uma reserva:
gcloud compute reservations describe RESERVATION_NAME \ --project=PROJECT_ID \ --zone=ZONE
Substitua:
- RESERVATION_NAME: o nome da sua reserva.
- PROJECT_ID: o ID do projeto.
- ZONE: a zona em que sua reserva está localizada.
O resultado será o seguinte:
advancedDeploymentControl: reservationOperationalMode: ALL_CAPACITY aggregateReservation: inUseResources: - accelerator: acceleratorCount: 48 acceleratorType: projects/example-project/zones/us-central1-c/acceleratorTypes/tpu7x reservedResources: - accelerator: acceleratorCount: 128 acceleratorType: projects/example-project/zones/us-central1-c/acceleratorTypes/tpu7x vmFamily: VM_FAMILY_CLOUD_TPU_POD_SLICE_TPU7X workloadType: UNSPECIFIED creationTimestamp: '2025-11-05T14:16:30.571-08:00' deleteAtTime: '2026-11-06T08:00:00Z' deploymentType: DENSE enableEmergentMaintenance: false id: '8873145979824927313' kind: compute#reservation linkedCommitments: - https://www.googleapis.com/compute/v1/projects/example-project/regions/us-central1/commitments/example-cud name: example-reservation protectionTier: STANDARD reservationSharingPolicy: serviceShareType: ALLOW_ALL resourceStatus: healthInfo: degradedBlockCount: 0 healthStatus: HEALTHY healthyBlockCount: 1 reservationBlockCount: 1 reservationMaintenance: schedulingType: schedulingType: GROUPED selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation shareSettings: projectMap: '111111111111': projectId: '111111111111' shareType: SPECIFIC_PROJECTS specificReservationRequired: true status: READY zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c
Os valores a seguir da saída descrevem a reserva:
advancedDeploymentControl.reservationOperationalMode: o modo de capacidade da reservaaggregateReservation.inUseResources.accelerator.acceleratorCount: o número de chips de TPU em usoaggregateReservation.inUseResources.accelerator.acceleratorType: a versão da TPUreservedResources.accelerator.acceleratorCount: o número de chips de TPU na reserva.deploymentType: o tipo de implantação (sempre seráDENSEpara TPUs)reservationSharingPolicy.serviceShareType: o tipo de compartilhamento de serviçoresourceStatus.healthInfo.healthStatus: integridade geral da capacidaderesourceStatus.healthInfo.healthyBlockCount: o número de blocos íntegros na reserva.resourceStatus.reservationBlockCount: o número de blocos na reserva
Listar todos os blocos de reserva
Use o comando gcloud compute reservations blocks list para mostrar informações sobre capacidade, topologia e integridade de todos os blocos em uma reserva.
Cada bloco, sub-bloco e objeto host é identificado por um ID de hash. O ID do objeto pai é exibido nos campos de topologia física dos objetos filhos. É possível usar os IDs de hash para criar uma visualização hierárquica de topologia da capacidade.
gcloud compute reservations blocks list RESERVATION_NAME \ --project=PROJECT_ID \ --zone=ZONE
Substitua:
- RESERVATION_NAME: o nome da sua reserva.
- PROJECT_ID: o ID do projeto.
- ZONE: a zona em que sua reserva está localizada.
O comando exibe a seguinte saída:
count: 32 creationTimestamp: '2025-11-05T15:00:15.223-08:00' healthInfo: degradedSubBlockCount: 0 healthStatus: HEALTHY healthySubBlockCount: 2 id: '2996501069483632657' inUseCount: 12 kind: compute#reservationBlock name: example-reservation-block-0001 physicalTopology: block: 9a0e671424e45fd480ca172ad7a4e25d cluster: example-cluster reservationMaintenance: schedulingType: GROUPED reservationSubBlockCount: 2 reservationSubBlockInUseCount: 1 selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001 selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657 status: READY zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c count: 128 creationTimestamp: '2025-08-19T18:23:32.825-07:00' healthInfo: degradedSubBlockCount: 0 healthStatus: HEALTHY healthySubBlockCount: 4 id: '9a0e671424e45fd480ca172ad7a4e25d' inUseCount: 64 kind: compute#reservationBlock name: example-reservation-block-0002 physicalTopology: block: 3feffcdeb6434d68bb818a836f75c1b8 cluster: example-cluster reservationMaintenance: schedulingType: GROUPED reservationSubBlockCount: 2 reservationSubBlockInUseCount: 1 selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001 selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657 status: READY zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c
Os valores a seguir da saída descrevem os blocos na reserva:
count: o número de hosts físicoshealthInfo.healthStatus: a integridade geral do bloco.healthInfo.healthySubblockCount: o número de sub-blocos íntegros no blocoid: o ID do blocoinUseCount: o número de hosts físicos em uso.kind: o tipo de objeto descritoname: o nome do blocophysicalTopology.block: o ID do blocophysicalTopology.cluster: o cluster em que o bloco está localizado.reservationSubBlockCount: o número de sub-blocos neste blocoreservationSubBlockInUseCount: o número de sub-blocos em uso
Descrever um bloco de reserva
Use o comando gcloud compute reservations blocks describe em um
bloco específico para mostrar informações sobre ele.
gcloud compute reservations blocks describe RESERVATION_NAME \ --block-name=BLOCK_NAME \ --project=PROJECT_ID \ --zone=ZONE
Substitua:
- RESERVATION_NAME: o nome da sua reserva.
- BLOCK_NAME: o nome do bloco de reserva.
- PROJECT_ID: o ID do projeto.
- ZONE: a zona em que sua reserva está localizada.
Esse comando mostra a seguinte saída:
resource: count: 32 creationTimestamp: '2025-11-05T15:00:15.223-08:00' healthInfo: degradedSubBlockCount: 0 healthStatus: HEALTHY healthySubBlockCount: 2 id: '2996501069483632657' inUseCount: 12 kind: compute#reservationBlock name: example-reservation-block-0001 physicalTopology: block: 9a0e671424e45fd480ca172ad7a4e25d cluster: example-cluster reservationMaintenance: schedulingType: GROUPED reservationSubBlockCount: 2 reservationSubBlockInUseCount: 1 selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001 selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/2996501069483632657 status: READY zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c
Os valores a seguir da saída descrevem os blocos na reserva:
count: o número de hosts no blocohealthInfo.healthStatus: a integridade geral do bloco.healthInfo.healthySubblockCount: o número de sub-blocos íntegros no blocoid: o ID do blocoinUseCount: o número de hosts em uso.kind: o tipo de objeto descritoname: o nome do blocophysicalTopology.block: o ID do blocophysicalTopology.cluster: o cluster em que o bloco está localizado.reservationSubBlockCount: o número de sub-blocos neste blocoreservationSubBlockInUseCount: o número de sub-blocos em uso
Listar todos os sub-blocos de um bloco
É possível listar os sub-blocos em um bloco para mostrar informações de cada um deles:
gcloud compute reservations sub-blocks list RESERVATION_NAME \ --block-name=BLOCK_NAME \ --project=PROJECT_ID \ --zone=ZONE
Substitua:
- RESERVATION_NAME: o nome da sua reserva.
- BLOCK_NAME: o nome do bloco de reserva.
- PROJECT_ID: o ID do projeto.
- ZONE: a zona em que sua reserva está localizada.
Esse comando mostra as seguintes informações:
count: 16 creationTimestamp: '2025-11-05T15:00:16.738-08:00' healthInfo: degradedHostCount: 0 degradedInfraCount: 0 healthStatus: HEALTHY healthyHostCount: 16 healthyInfraCount: 1 id: '8309376980435233263' inUseCount: 0 kind: compute#reservationSubBlock name: example-reservation-block-0001-subblock-0001 physicalTopology: block: 9a0e671424e45fd480ca172ad7a4e25d cluster: example-cluster subBlock: a0122935eb54d02750b65eef2d4f0366 reservationSubBlockMaintenance: schedulingType: GROUPED selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0001 selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/8309376980435233263 status: READY zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c --- count: 16 creationTimestamp: '2025-11-05T15:00:16.736-08:00' healthInfo: degradedHostCount: 0 degradedInfraCount: 0 healthStatus: HEALTHY healthyHostCount: 16 healthyInfraCount: 1 id: '5629213080155482607' inUseCount: 12 kind: compute#reservationSubBlock name: example-reservation-block-0001-subblock-0002 physicalTopology: block: 9a0e671424e45fd480ca172ad7a4e25d cluster: example-cluster subBlock: 7aca49831e54d32970631524bc060d9c reservationSubBlockMaintenance: schedulingType: GROUPED selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0002 selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/5629213080155482607 status: READY zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c
Os valores a seguir da saída descrevem os sub-blocos na reserva:
count: o número de hostshealthInfo.degradedInfraCount: o estado íntegro de um Optical Circuit Switch (OCS) de um cubo do Ironwood. Se esse valor for 1, isso indica que o OCS do cubo Ironwood está degradado. Esse valor não se aplica ao TrilliumhealthInfo.healthStatus: a integridade geral do sub-blocohealthInfo.healthyHostCount: o número de hosts íntegros no subbloco.id: o ID do blocoinUseCount: o número de hosts em uso.kind: o tipo de objeto descritoname: o nome do sub-blocophysicalTopology.block: o ID do bloco que contém este subbloco.physicalTopology.cluster: o cluster em que o bloco está localizado.physicalTopology.subblock: o ID do sub-bloco
Descrever um sub-bloco de reserva
Use o gcloud compute sub-blocks describe para ver informações sobre um sub-bloco:
gcloud compute reservations sub-blocks describe RESERVATION_NAME \ --block-name=BLOCK_NAME \ --sub-block-name=SUB_BLOCK_NAME \ --project=PROJECT_ID \ --zone=ZONE
Substitua:
- RESERVATION_NAME: o nome da sua reserva.
- BLOCK_NAME: o nome do bloco de reserva.
- SUB_BLOCK_NAME: o nome do sub-bloco de reserva.
- PROJECT_ID: o ID do projeto.
- ZONE: a zona em que sua reserva está localizada.
Esse comando mostra as seguintes informações:
resource: count: 16 creationTimestamp: '2025-11-05T15:00:16.736-08:00' healthInfo: degradedHostCount: 0 degradedInfraCount: 0 healthStatus: HEALTHY healthyHostCount: 16 healthyInfraCount: 1 id: '5629213080155482607' inUseCount: 12 kind: compute#reservationSubBlock name: example-reservation-block-0001-subblock-0002 physicalTopology: block: 9a0e671424e45fd480ca172ad7a4e25d cluster: example-cluster subBlock: 7aca49831e54d32970631524bc060d9c reservationSubBlockMaintenance: schedulingType: GROUPED selfLink: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/example-reservation-block-0001-subblock-0002 selfLinkWithId: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c/reservations/example-reservation/reservationBlocks/example-reservation-block-0001/reservationSubBlocks/5629213080155482607 status: READY zone: https://www.googleapis.com/compute/v1/projects/example-project/zones/us-central1-c
Os valores a seguir da saída descrevem os sub-blocos na reserva:
count: o número de hostshealthInfo.degradedInfraCount: o estado íntegro de um Optical Circuit Switch (OCS) de um cubo do Ironwood. Se esse valor for 1, isso indica que o OCS do cubo Ironwood está degradado. Esse valor não se aplica ao TrilliumhealthInfo.healthStatus: a integridade geral do sub-blocohealthInfo.healthyHostCount: o número de hosts íntegros no subbloco.id: o ID do blocoinUseCount: o número de hosts em uso.kind: o tipo de objeto descritoname: o nome do sub-blocophysicalTopology.block: o ID do bloco que contém este subbloco.physicalTopology.cluster: o cluster em que o bloco está localizado.physicalTopology.subblock: o ID do sub-bloco
Encontrar o local físico de uma instância de VM da TPU
Depois de provisionar as frações de TPU, é possível recuperar o local físico das instâncias de VM de TPU. Isso permite entender as distâncias relativas entre instâncias de VM de TPU para otimização do agendamento de carga de trabalho.
Para encontrar a localização física de uma instância de VM da TPU, use curl ou a Google Cloud CLI:
curl
curl -s -H "Metadata-Flavor: Google" http://metadata.google.internal/computeMetadata/v1/instance/attributes/physical_host_topology
gcloud
gcloud compute instances describe VM_NAME \ --format="table[box,title=VM-Position](resourceStatus.physical_host_topology:label=location)" \ --zone=ZONE
Substitua:
- VM_NAME: o nome da VM de TPU.
- ZONE: a zona em que a VM de TPU está localizada.
Os dois comandos mostram informações sobre o cluster, o bloco, o sub-bloco e o host da VM de TPU especificada:
block: 3feffcdeb6434d68bb818a836f75c1b8 cluster: southamerica-west1-cluster-njga subblock: cbee689cb721abdb0c7f80a4f2d0c1c7 host: 36b2d9731c1e1cf8594a759c8c4178f0