관리형 용량 모드의 TPU 유지보수 이벤트 관리

TPU VM은 TPU 하드웨어가 연결된 Compute Engine VM의 인스턴스입니다. Compute Engine VM은 Compute Engine VM 유지보수 이벤트를 따릅니다. 각 TPU가 Compute Engine VM에 연결되므로 TPU 슬라이스 등에서 TPU를 더 많이 사용하면 VM 중 하나에서 유지보수 이벤트가 발생할 가능성이 증가합니다.

이 문서에서는 TPU에서 장기 실행 학습 작업의 유지보수 이벤트를 처리하는 방법을 설명합니다. Google Kubernetes Engine (GKE)에서 TPU 유지보수 이벤트 를 처리하는 방법은 GPU 및 TPU에서 GKE 노드 중단 관리를 참조하세요.

예정된 유지보수 알림 보기

인스턴스의 예약된 유지보수 기간을 모니터링하면 중단을 최소화하면서 예정된 유지보수를 처리할 수 있도록 워크로드를 사전에 준비할 수 있습니다. 자세한 내용은 Compute Engine 문서에서 호스트 유지보수 이벤트 모니터링 및 계획을 참조하세요.

체크포인트를 사용하여 유지보수 이벤트에서 빠르게 복구

체크포인트는 유지보수 이벤트에서 빠르게 복구하는 데 핵심적인 역할을 하므로, 자주 저장해야 합니다. 체크포인트를 약 1시간마다 저장하는 것이 좋습니다. 체크포인트가 없는 경우 유지보수 이벤트나 기타 학습 중단으로 인해 학습 과정이 상당수 손실될 수 있습니다.

체크포인트는 일반적으로 학습에 사용된 모든 저장된 파라미터(예: 모델 가중치)를 나타냅니다. 체크포인트를 저장하는 데 걸리는 시간은 몇 초에서 몇 분까지 다양합니다.

TPU는 유지보수 이벤트에서 자동으로 복구되는 경우가 많지만 작업이 자동으로 다시 시작되지 않는 예외적인 경우가 있습니다. 이 경우 TPU 리소스를 삭제하고 다시 만든 후 저장된 체크포인트에서 학습 작업을 다시 시작해야 합니다. 자동 복구 실패를 감지하고 복구하는 방법에 대한 자세한 내용은 TPU 실패 감지 및 복구를 참조하세요.

ML 프레임워크마다 체크포인트를 저장하고 불러오는 방식이 다릅니다. 지원되는 Cloud TPU 모델은 일반적으로 체크포인트가 내장되어 있습니다. 체크포인트에 대한 자세한 내용은 다음 문서를 참조하세요.

유지보수 이벤트 감지

TPU에서 유지보수 이벤트가 발생했는지 여부와 발생 시간을 감지하려면 Cloud Logging의 시스템 이벤트 감사 로그를 확인하세요. 자세한 내용은 유지보수 이벤트 로그 보기를 참조하세요.

gcloud compute instances describe 명령어를 사용하여 예정된 유지보수 이벤트를 확인할 수도 있습니다. 자세한 내용은 Compute Engine 문서에서 호스트 유지보수 이벤트 모니터링 및 계획을 참조하세요.

유지보수 이벤트 로그 보기

TPU의 유지보수 이벤트 로그 기록은 시스템 이벤트 감사 로그에서 확인할 수 있습니다.

  1. Google Cloud 콘솔 탐색 메뉴에서 로그 탐색기 페이지로 이동합니다.

    로그 탐색기로 이동

  2. 유지보수를 위해 종료된 TPU VM을 보려면 다음 검색어를 사용하세요.

    "compute.instances.terminateOnHostMaintenance"

    검색 기간 내에 TPU 워커의 중단 및 복구에 대한 로그가 결과에 표시됩니다. 로그에는 다음이 포함됩니다.

    • 이벤트 날짜 및 시간
    • 이벤트 유형
    • protoPayload.metadata.terminateReason 필드의 종료 이유

유지보수 수동으로 시작

TPU VM에서 대기 중인 호스트 유지보수 이벤트를 수동으로 시작하여 중단을 최소화하면서 예정된 유지보수를 사전에 처리할 수 있습니다. 자세한 내용은 Compute Engine 문서에서 호스트 유지보수 이벤트 수동으로 시작을 참조하세요.

다음 단계