Informar e corrigir hosts com falha com TPUs no modo "Toda capacidade"

Se você notar problemas em uma VM no modo "Toda a capacidade" que não podem ser resolvidos de outra forma, por exemplo, métricas de latência de ICI consistentemente altas ou temperatura consistentemente alta em comparação com os pares, recomendamos que você informe o host como com falha. Quando você informa que um host está com falha, o Compute Engine o marca como com falha e corrige automaticamente a VM executando a manutenção do host. No modo "Toda a capacidade", as VMs de TPU não são migradas para outro host durante o reparo. Em vez disso, elas serão reiniciadas no mesmo host se houver capacidade suficiente. Só é possível denunciar um host com falha que tenha VMs em execução.

Use o comando report-host-as-faulty para denunciar um host com falha usando o parâmetro --fault-behavior para fornecer mais informações sobre o problema.

gcloud compute instances report-host-as-faulty TPU_NAME \
    --fault-reasons=behavior=FAULT_BEHAVIOR,description=DESCRIPTION \
    --disruption-schedule=DISRUPTION_SCHEDULE

Substitua:

  • TPU_NAME: o nome da VM de TPU.
  • FAULT_BEHAVIOR: é possível transmitir um dos seguintes valores:

    • PERFORMANCE: use isso para informar sobre a degradação da performance em uma instância.
    • SILENT_DATA_CORRUPTION: use isso para informar qualquer suspeita de corrupção silenciosa de dados em uma instância.
    • BEHAVIOR_UNSPECIFIED: use essa opção para denunciar um problema que não se encaixa nos outros grupos de comportamento.
  • DESCRIPTION: uma descrição do problema que está afetando sua VM.

  • DISRUPTION_SCHEDULE: especifica o momento de iniciar o processo de relatório de falhas. O valor padrão é IMMEDIATE, que inicia o processo imediatamente. DISRUPTION_SCHEDULE precisa ser uma destas opções: IMMEDIATE, FUTURE.

A operação de denúncia de host com falha geralmente leva de 10 a 12 minutos para ser concluída. Quando a operação de relatório for concluída, o reparo do host vai começar em um minuto se o cronograma de interrupção estiver definido como IMMEDIATE. Se o cronograma de interrupção estiver definido como FUTURE, nenhuma ação de reparo será tomada imediatamente. Em vez disso, o Compute Engine agenda um reparo se alguma falha for detectada no futuro. Depois que o reparo for iniciado, a VM será desligada. Ela poderá permanecer no estado PENDING até que o host seja reparado. O reparo do host com falha pode levar de 3 a 14 dias ou mais. No modo "Todas as capacidades" da TPU, as VMs de TPU não são migradas para outro host durante o reparo. Em vez disso, elas serão reiniciadas no mesmo host se houver capacidade suficiente.