모든 용량 모드에서 TPU를 사용하는 장애가 있는 호스트 신고 및 복구

모든 용량 모드 VM에서 다른 방법으로 해결할 수 없는 문제(예: ICI 지연 시간 측정항목이 지속적으로 높거나 온도가 피어에 비해 지속적으로 높은 경우)가 발생하는 경우 호스트에 장애가 있다고 신고하는 것이 좋습니다. 호스트에 장애가 있다고 신고하면 Compute Engine은 호스트에 장애가 있는 것으로 표시하고 호스트 유지보수를 실행하여 VM을 자동으로 복구합니다. 모든 용량 모드에서는 복구 중에 TPU VM이 다른 호스트로 마이그레이션되지 않습니다. 대신 용량이 충분한 경우 동일한 호스트에서 다시 시작됩니다. 실행 중인 VM이 있는 장애가 있는 호스트만 신고할 수 있습니다.

--fault-behavior 파라미터를 사용하여 report-host-as-faulty 명령어로 장애가 있는 호스트를 신고하고 문제에 관한 추가 정보를 제공합니다.

gcloud compute instance report-host-as-faulty example-tpu-vm
   --fault-behavior \ # required
   --description="silent data corruption affecting our ML job…"
  [--disruption_policy=FUTURE | IMMEDIATE]

--fault-behavior에 대해 다음 값 중 하나를 전달할 수 있습니다.

  • PERFORMANCE: 인스턴스의 성능 저하를 신고하는 데 사용합니다.
  • SILENT_DATA_CORRUPTION: 인스턴스에서 의심되는 드러나지 않은 데이터 손상을 신고하는 데 사용합니다.
  • CHIP_ERROR: 가속기가 응답하지 않는 TPU 오류 또는 장애를 신고하는 데 사용합니다.
  • BEHAVIOR_UNSPECIFIED: 다른 세 가지 동작 그룹에 속하지 않는 문제를 신고하는 데 사용합니다.

장애가 있는 호스트 신고 작업은 일반적으로 완료하는 데 10~12분이 걸립니다. 신고 작업이 완료되면 중단 정책이 immediate로 설정된 경우 1분 이내에 호스트 복구가 시작됩니다. 중단 정책이 future로 설정된 경우 즉시 복구 작업이 실행되지 않습니다. 대신 Compute Engine에서 이후에 장애가 감지되면 복구를 예약합니다. 복구가 시작되면 VM 전원이 꺼집니다. 호스트가 복구될 때까지 VM이 pending 상태로 유지될 수 있습니다. 장애가 있는 호스트를 복구하는 데 3~14일 이상 걸릴 수 있습니다. TPU 모든 용량 모드에서는 복구 중에 TPU VM이 다른 호스트로 마이그레이션되지 않습니다. 대신 용량이 충분한 경우 동일한 호스트에서 다시 시작됩니다.