수동으로 호스트 유지보수 이벤트 시작

이 페이지에서는 지원되는 TPU VM에서 호스트 유지보수 이벤트를 수동으로 시작하는 방법을 설명합니다. 이 기능은 유지보수 기간을 특정 시점에 시작해야 하는 경우 성능 저하나 다운타임에 민감한 워크로드에 유용합니다.

유지보수 이벤트를 수동으로 시작하면 호스트 유지보수 이벤트가 즉시 시작됩니다. 유지보수 이벤트가 시작되는 날짜나 시간을 지정할 수 없습니다. 이 기능을 사용하지 않으면 유지보수 이벤트는 예정된 유지보수 알림에 표시된 시간에 발생합니다.

GKE에서 TPU에 유지보수를 수동으로 시작하는 방법은 GPU 및 TPU에 대한 GKE 노드 중단 관리를 참조하세요.

제한사항

다음과 같이 구성된 TPU VM에서만 호스트 유지보수 이벤트를 수동으로 시작할 수 있습니다.

  • TPU v4 또는 v5p VM
  • 2x4 토폴로지 이상으로 구성된 TPU v5e 또는 v6e VM (예: Cloud TPU API의 액셀러레이터 유형 필드를 사용할 경우 v6e-8)
  • 크기가 2x4 이상인 TPU VM을 사용하는 GKE v5e 또는 v6e 멀티 호스트 노드 풀

더 큰 슬라이스에 호스트 유지보수를 즉시 시작하면 최대 몇 시간 동안 슬라이스를 사용하지 못하게 될 수 있습니다. 일반적으로 호스트 유지보수 이벤트가 발생하면 슬라이스는 가능한 한 빨리 다른 적합한 호스트 집합으로 다시 예약됩니다. 하지만 대형 호스트 유지보수 이벤트 요청의 경우 슬라이스를 즉시 다시 예약하는 데 사용되는 용량이 부족해질 수 있으며 이로 인해 대기 시간이 길어질 수 있습니다.

또한 Cloud TPU 슬라이스에서 유지보수를 시작하면 모든 기본 TPU VM에 유지보수가 시작됩니다. 인스턴스 API를 사용하여 인스턴스 중 하나에서 유지보수를 직접 수행하면 Cloud TPU 슬라이스에 있는 모든 인스턴스가 유지보수 상태로 전환됩니다. 대신 queued-resources Cloud TPU API를 사용하여 유지보수를 수행할 노드를 지정합니다.

수동으로 호스트 유지보수 이벤트 시작

유지보수 알림을 사용하여 TPU에서 유지보수 이벤트를 수동으로 시작할 수 있는 시간을 확인할 수 있습니다.

알림 정보 확인

Cloud TPU API를 사용하거나 VM에서 메타데이터 서버를 쿼리하는 방식으로 예정된 유지보수 이벤트에 대한 알림을 찾을 수 있습니다. 자세한 내용은 유지보수 알림 보기를 참조하세요.

TPU에 예정된 호스트 유지보수 알림이 표시되면 유지보수 이벤트를 미리 시작할 수 있습니다. 유지보수 이벤트를 미리 시작하려면 예정된 호스트 유지보수 알림에서 canRescheduletrue로, maintenanceStatusPENDING으로 설정되어야 합니다.

유지보수 이벤트 시작

호스트 유지보수 이벤트를 시작하려면 perform-maintenance 명령어와 함께 Cloud TPU API를 사용하면 됩니다.

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

작업이 완료되면 windowEndTimewindowStartTime 필드는 유지보수 이벤트를 시작한 시간으로 변경되고 maintenanceStatus 필드는 ONGOING으로 변경됩니다. 이후 곧바로 호스트 유지보수 이벤트가 시작됩니다.

gcloud alpha compute tpus tpu-vm describe 명령어를 사용하여 유지보수 이벤트 상태를 봅니다.

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

출력에 다음과 유사한 섹션이 포함됩니다.

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

TPU VM 상태가 READY이고 gcloud alpha compute tpus tpu-vm describe 명령어의 출력에 upcomingMaintenance 메타데이터 필드가 더 이상 포함되지 않으면 유지보수가 완료된 것입니다.

멀티슬라이스 환경에서는 다음 명령어를 사용하여 특정 슬라이스에서 호스트 유지보수 이벤트를 수동으로 시작할 수 있습니다.

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES는 호스트 유지보수 이벤트를 시작하려는 큐에 추가된 리소스의 쉼표로 구분된 슬라이스(노드) 목록입니다. 예를 들어 큐에 추가된 리소스에 my-qr-0, my-qr-1my-qr-2 노드가 있으면 perform-maintenance 명령어에 --node-names=my-qr-0,my-qr-1을 입력할 수 있습니다.

다음 단계