Comunique e repare anfitriões com falhas com TPUs no modo de capacidade total

Se detetar problemas numa VM no modo de capacidade total que não consegue resolver de outra forma, por exemplo, métricas de latência da ICI consistentemente elevadas ou temperatura consistentemente elevada em comparação com os pares, recomendamos que comunique que o respetivo anfitrião está com defeito. Quando comunica que um anfitrião está com falhas, o Compute Engine marca-o como tal e repara automaticamente a VM executando a manutenção do anfitrião. No modo All Capacity, as VMs de TPU não são migradas para outro anfitrião durante a reparação. Em alternativa, são reiniciados no mesmo anfitrião se houver capacidade suficiente. Só pode denunciar um anfitrião com defeito que tenha VMs em execução.

Use o comando report-host-as-faulty para denunciar um anfitrião com falhas através do parâmetro --fault-behavior para fornecer informações adicionais sobre o problema.

gcloud compute instances report-host-as-faulty TPU_NAME \
    --fault-reasons=behavior=FAULT_BEHAVIOR,description=DESCRIPTION \
    --disruption-schedule=DISRUPTION_SCHEDULE

Substitua o seguinte:

  • TPU_NAME: o nome da VM da TPU.
  • FAULT_BEHAVIOR: pode transmitir um dos seguintes valores:

    • PERFORMANCE: use esta opção para comunicar a degradação do desempenho numa instância.
    • SILENT_DATA_CORRUPTION: use esta opção para comunicar qualquer suspeita de corrupção de dados silenciosa numa instância.
    • BEHAVIOR_UNSPECIFIED: use esta opção para comunicar um problema que não se enquadra nos outros grupos de comportamento.
  • DESCRIPTION: uma descrição do problema que está a afetar a sua VM.

  • DISRUPTION_SCHEDULE: especifica o momento para iniciar o processo de comunicação de falhas. O valor predefinido é IMMEDIATE, que inicia o processo imediatamente. DISRUPTION_SCHEDULE tem de ser um dos seguintes: IMMEDIATE, FUTURE.

Normalmente, a operação de denúncia de anfitrião com falhas demora 10 a 12 minutos a concluir. Quando a operação de relatório estiver concluída, a reparação do anfitrião começa no prazo de um minuto se o agendamento de interrupções estiver definido como IMMEDIATE. Se a programação da interrupção estiver definida como FUTURE, não é tomada nenhuma ação de reparação imediatamente. Em alternativa, o Compute Engine agenda uma reparação se for detetada alguma falha no futuro. Assim que a reparação for iniciada, a VM é desligada. A VM pode permanecer no estado PENDING até o anfitrião ser reparado. A reparação do anfitrião com falhas pode demorar entre 3 e 14 dias ou mais. No modo de capacidade total da TPU, as VMs de TPU não são migradas para outro anfitrião durante a reparação. Em alternativa, são reiniciados no mesmo anfitrião se houver capacidade suficiente.