오작동하는 호스트 신고

A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 인스턴스에서 직접 해결할 수 없는 문제가 발생하는 경우 호스트에 장애가 있다고 신고할 수 있습니다. 이러한 문제의 예로는 클러스터 내 성능 저하 또는 지속적으로 높은 GPU 온도가 있습니다.

호스트에 장애가 있다고 신고하면 Compute Engine은 호스트 유지보수를 실행하여 컴퓨팅 인스턴스를 자동으로 복구합니다.

A4 및 A3 Ultra 인스턴스의 경우 사용하지 않는 예약 용량이 있거나 인스턴스의 영역에서 용량을 사용할 수 있는 경우 유지보수가 시작되면 Compute Engine에서 인스턴스를 다른 호스트로 이전하려고 시도합니다. 호스트를 결함이 있는 것으로 신고하면 워크로드의 다운타임을 최소화할 수 있습니다.
A3 Mega 및 A3 High 인스턴스의 경우 Compute Engine은 인스턴스를 중지하고 필요한 호스트 복구를 수행한 다음 동일한 호스트에서 인스턴스를 다시 시작합니다.

이 문서에서는 Slurm 클러스터 또는 기타 컴퓨팅 인스턴스 기반 클러스터에 속한 결함이 있는 호스트 인스턴스를 보고하고 복구하는 방법을 설명합니다. Google Kubernetes Engine (GKE) 클러스터에서 결함이 있는 호스트를 신고하려면 GKE를 통해 결함이 있는 호스트 신고를 참고하세요.

제한사항

결함이 있는 호스트를 신고할 때는 다음과 같은 제한사항이 적용됩니다.

호스트에서 실행되는 컴퓨팅 인스턴스가 다음 조건을 모두 충족하는 경우에만 장애가 있는 호스트를 신고할 수 있습니다.
- 컴퓨팅 인스턴스가 실행 중입니다.
- 컴퓨팅 인스턴스는 A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신 유형을 사용합니다.
- 컴퓨팅 인스턴스는 예약에 따름 프로비저닝 모델을 사용합니다.
  
  참고: 실행 중인 A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 인스턴스에서 다른 프로비저닝 모델을 사용하지만 호스트를 결함이 있는 것으로 보고하려면 계정팀에 문의하세요.
reportHostAsFaulty 작업이 진행되는 동안 컴퓨팅 인스턴스를 삭제하면 reportHostAsFaulty 작업이 실패합니다.
Google Cloud 는 모든 보고된 결함 호스트 요청을 처리하기 위해 최선을 다합니다. 하지만 용량 제약이나 비율 제한으로 인해 요청이 항상 처리되지는 않을 수 있습니다.

시작하기 전에

Select the tab for how you plan to use the samples on this page:

Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

gcloud

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

REST

로컬 개발 환경에서 이 페이지의 REST API 샘플을 사용하려면 gcloud CLI에 제공한 사용자 인증 정보를 사용합니다.

Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:

gcloud init

If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

자세한 내용은 Google Cloud 인증 문서의 REST 사용을 위한 인증을 참조하세요.

필요한 역할

결함이 있는 호스트를 신고하는 데 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.

컴퓨트 인스턴스 또는 프로젝트에 대한 Compute 인스턴스 관리자 (v1) (roles/compute.instanceAdmin.v1)
Cloud Logging을 사용하여 결함이 있는 호스트 보고 작업의 상태를 보려면 다음을 실행하세요. 프로젝트에 대한 로그 뷰어 (roles/logging.viewer)

역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

이러한 사전 정의된 역할에는 결함이 있는 호스트를 신고하는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.

필수 권한

장애가 있는 호스트를 보고하려면 다음 권한이 필요합니다.

오작동하는 호스트 보고서를 만들려면 컴퓨팅 인스턴스에서 compute.instances.update를 실행하세요.
Logging을 사용하여 작업 목록을 보려면 프로젝트에 대한 logging.operations.list 권한이 있어야 합니다.
Logging을 사용하여 작업의 세부정보를 보려면 프로젝트에 대한 logging.operations.get 권한이 필요합니다.
Compute Engine에서 작업 목록을 보려면 다음 단계를 따르세요. compute.zoneOperations.list 프로젝트에서
Compute Engine에서 작업의 세부정보를 보려면 프로젝트에 대한 compute.zoneOperations.describe 권한이 있어야 합니다.

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

오작동하는 호스트 신고 프로세스 이해하기

컴퓨팅 인스턴스의 장애가 있는 호스트를 신고한 후 컴퓨팅 인스턴스가 다시 시작되는 시간은 컴퓨팅 인스턴스에서 사용하는 예약에 지정된 예약 작동 모드에 따라 달라집니다. 예약의 예약 작동 모드를 확인하려면 예약에서 reservationOperationalMode 필드를 확인하세요. 다음 표에는 사용 가능한 두 가지 예약 작동 모드(모든 용량 모드 및 관리 모드)의 결함이 있는 호스트 프로세스가 요약되어 있습니다.

모든 용량 모드 (ALL_CAPACITY) 관리 모드 (HIGHLY_AVAILABLE_CAPACITY)

지원되는 머신 유형 A4X Max 및 A4X A4, A3 Ultra, A3 Mega, A3 High

결함이 있는 호스트 신고 API 비율 제한 비율 제한이 적용되지 않습니다. API 호출은 비율 제한될 수 있습니다.

오작동하는 호스트 신고 절차

	모든 용량 모드 (`ALL_CAPACITY`)	관리 모드 (`HIGHLY_AVAILABLE_CAPACITY`)
지원되는 머신 유형	A4X Max 및 A4X	A4, A3 Ultra, A3 Mega, A3 High
결함이 있는 호스트 신고 API 비율 제한	비율 제한이 적용되지 않습니다.	API 호출은 비율 제한될 수 있습니다.
오작동하는 호스트 신고 절차	모든 용량 모드에서 실행되는 컴퓨팅 인스턴스의 장애가 있는 호스트를 신고하면 다음이 발생합니다. 장애가 있는 호스트 신고: 인스턴스는 장애가 있는 호스트 신고 작업이 진행되는 동안 `RUNNING` 상태로 유지됩니다. 이 작업은 일반적으로 완료하는 데 10~12분이 걸립니다. 작업 상태를 검토하려면 이 문서의 보고서 결함이 있는 호스트 작업 검토를 참고하세요. 호스트 복구: 장애가 있는 호스트 신고 작업이 완료되면 1분 이내에 호스트 복구 작업이 시작됩니다. 복구 호스트 작업이 시작되면 인스턴스가 중지되고 인스턴스에 지정된 자동 재시작(`automaticRestart`) 설정에 따라 상태가 변경됩니다. 인스턴스에 자동 다시 시작이 사용 설정된 경우 인스턴스 상태가 `REPAIRING`으로 변경됩니다. 호스트가 정상인 경우 인스턴스를 미리 중지하지 않으면 인스턴스가 자동으로 다시 시작됩니다. 인스턴스에 자동 재시작이 사용 중지된 경우 인스턴스 상태가 `TERMINATED`으로 변경됩니다. 호스트가 정상 상태가 된 후 인스턴스를 수동으로 다시 시작해야 합니다. 장애가 있는 호스트를 복구하는 데 3~14일 이상 걸릴 수 있습니다. 인스턴스 다시 시작: 호스트 수리 작업이 완료된 후 (일반적으로 3~14일) 다음 중 하나가 발생합니다. 인스턴스가 `REPAIRING` 상태이고 복구가 완료될 때 리소스를 사용할 수 있는 경우 Compute Engine은 복구된 호스트에서 인스턴스를 자동으로 다시 시작합니다. 그렇지 않고 인스턴스가 `TERMINATED` 상태이거나 복구가 완료될 때 리소스를 사용할 수 없는 경우 인스턴스 상태는 `TERMINATED`으로 유지되거나 변경됩니다. 인스턴스를 실행하려면 인스턴스를 수동으로 다시 시작해야 합니다. 하지만 인스턴스를 다시 시작할 때 리소스를 사용할 수 없는 경우 인스턴스 다시 시작이 실패할 수 있습니다. 예를 들어 다른 인스턴스가 이미 복구된 호스트를 사용하고 있는 경우 이러한 문제가 발생할 수 있습니다.	관리 모드에서 실행되는 컴퓨팅 인스턴스의 장애가 있는 호스트를 신고하면 다음이 발생합니다. 장애가 있는 호스트 신고: 인스턴스는 장애가 있는 호스트 신고 작업이 진행되는 동안 `RUNNING` 상태로 유지됩니다. 이 작업은 일반적으로 완료하는 데 10~12분이 걸립니다. 작업 상태를 검토하려면 이 문서의 보고서 결함이 있는 호스트 작업 검토를 참고하세요. 호스트 복구 시작: 장애가 있는 호스트 신고 작업이 완료되면 1분 이내에 호스트 복구 작업이 시작됩니다. 복구 호스트 작업이 시작되면 인스턴스가 중지되고 인스턴스에 지정된 자동 재시작(`automaticRestart`) 설정에 따라 상태가 변경됩니다. 인스턴스에 자동 다시 시작이 사용 설정된 경우 인스턴스 상태가 `REPAIRING`으로 변경됩니다. 호스트가 정상인 경우 인스턴스를 미리 중지하지 않으면 인스턴스가 자동으로 다시 시작됩니다. 인스턴스에 자동 재시작이 사용 중지된 경우 인스턴스 상태가 `TERMINATED`으로 변경됩니다. 호스트가 정상 상태가 된 후 인스턴스를 수동으로 다시 시작해야 합니다. 장애가 있는 호스트를 복구하는 데 3~14일 이상 걸릴 수 있습니다. 인스턴스 마이그레이션 및 다시 시작: 호스트 복구 작업이 시작된 후(일반적으로 10~12분) Compute Engine은 예약된 용량에서 신고된 장애가 있는 호스트를 대체할 호스트를 하나 더 예약하려고 시도합니다. Compute Engine에서 정상 호스트를 찾으면(장애가 있는 호스트를 성공적으로 교체하거나 예약된 용량에서 일치하는 정상 호스트를 찾은 경우) Compute Engine은 인스턴스를 해당 호스트로 마이그레이션합니다. 그런 다음 다음 중 하나를 통해 인스턴스를 다시 시작합니다. 인스턴스가 `REPAIRING` 상태이고 복구가 완료되기 전이나 완료될 때 리소스를 사용할 수 있는 경우 Compute Engine은 정상 호스트에서 인스턴스를 자동으로 다시 시작합니다. 그렇지 않고 인스턴스가 `TERMINATED` 상태이거나 복구가 완료되기 전이나 완료될 때 리소스를 사용할 수 없는 경우 인스턴스 상태가 `TERMINATED`으로 유지되거나 변경됩니다. 인스턴스를 실행하려면 인스턴스를 수동으로 다시 시작해야 합니다. 하지만 인스턴스를 다시 시작할 때 리소스를 사용할 수 없는 경우 인스턴스 다시 시작이 실패할 수 있습니다. 예를 들어 다른 인스턴스가 이미 복구된 호스트를 사용하고 있는 경우 이러한 문제가 발생할 수 있습니다.

모든 용량 모드에서 실행되는 컴퓨팅 인스턴스의 장애가 있는 호스트를 신고하면 다음이 발생합니다.

장애가 있는 호스트 신고: 인스턴스는 장애가 있는 호스트 신고 작업이 진행되는 동안 RUNNING 상태로 유지됩니다. 이 작업은 일반적으로 완료하는 데 10~12분이 걸립니다. 작업 상태를 검토하려면 이 문서의 보고서 결함이 있는 호스트 작업 검토를 참고하세요.
호스트 복구: 장애가 있는 호스트 신고 작업이 완료되면 1분 이내에 호스트 복구 작업이 시작됩니다.

복구 호스트 작업이 시작되면 인스턴스가 중지되고 인스턴스에 지정된 자동 재시작(automaticRestart) 설정에 따라 상태가 변경됩니다.
- 인스턴스에 자동 다시 시작이 사용 설정된 경우 인스턴스 상태가 REPAIRING으로 변경됩니다. 호스트가 정상인 경우 인스턴스를 미리 중지하지 않으면 인스턴스가 자동으로 다시 시작됩니다.
- 인스턴스에 자동 재시작이 사용 중지된 경우 인스턴스 상태가 TERMINATED으로 변경됩니다. 호스트가 정상 상태가 된 후 인스턴스를 수동으로 다시 시작해야 합니다.
장애가 있는 호스트를 복구하는 데 3~14일 이상 걸릴 수 있습니다.
인스턴스 다시 시작: 호스트 수리 작업이 완료된 후 (일반적으로 3~14일) 다음 중 하나가 발생합니다.
- 인스턴스가 REPAIRING 상태이고 복구가 완료될 때 리소스를 사용할 수 있는 경우 Compute Engine은 복구된 호스트에서 인스턴스를 자동으로 다시 시작합니다.
- 그렇지 않고 인스턴스가 TERMINATED 상태이거나 복구가 완료될 때 리소스를 사용할 수 없는 경우 인스턴스 상태는 TERMINATED으로 유지되거나 변경됩니다. 인스턴스를 실행하려면 인스턴스를 수동으로 다시 시작해야 합니다. 하지만 인스턴스를 다시 시작할 때 리소스를 사용할 수 없는 경우 인스턴스 다시 시작이 실패할 수 있습니다. 예를 들어 다른 인스턴스가 이미 복구된 호스트를 사용하고 있는 경우 이러한 문제가 발생할 수 있습니다.

관리 모드에서 실행되는 컴퓨팅 인스턴스의 장애가 있는 호스트를 신고하면 다음이 발생합니다.

장애가 있는 호스트 신고: 인스턴스는 장애가 있는 호스트 신고 작업이 진행되는 동안 RUNNING 상태로 유지됩니다. 이 작업은 일반적으로 완료하는 데 10~12분이 걸립니다. 작업 상태를 검토하려면 이 문서의 보고서 결함이 있는 호스트 작업 검토를 참고하세요.
호스트 복구 시작: 장애가 있는 호스트 신고 작업이 완료되면 1분 이내에 호스트 복구 작업이 시작됩니다.

복구 호스트 작업이 시작되면 인스턴스가 중지되고 인스턴스에 지정된 자동 재시작(automaticRestart) 설정에 따라 상태가 변경됩니다.
- 인스턴스에 자동 다시 시작이 사용 설정된 경우 인스턴스 상태가 REPAIRING으로 변경됩니다. 호스트가 정상인 경우 인스턴스를 미리 중지하지 않으면 인스턴스가 자동으로 다시 시작됩니다.
- 인스턴스에 자동 재시작이 사용 중지된 경우 인스턴스 상태가 TERMINATED으로 변경됩니다. 호스트가 정상 상태가 된 후 인스턴스를 수동으로 다시 시작해야 합니다.
장애가 있는 호스트를 복구하는 데 3~14일 이상 걸릴 수 있습니다.
인스턴스 마이그레이션 및 다시 시작: 호스트 복구 작업이 시작된 후(일반적으로 10~12분) Compute Engine은 예약된 용량에서 신고된 장애가 있는 호스트를 대체할 호스트를 하나 더 예약하려고 시도합니다. Compute Engine에서 정상 호스트를 찾으면(장애가 있는 호스트를 성공적으로 교체하거나 예약된 용량에서 일치하는 정상 호스트를 찾은 경우) Compute Engine은 인스턴스를 해당 호스트로 마이그레이션합니다. 그런 다음 다음 중 하나를 통해 인스턴스를 다시 시작합니다.
- 인스턴스가 REPAIRING 상태이고 복구가 완료되기 전이나 완료될 때 리소스를 사용할 수 있는 경우 Compute Engine은 정상 호스트에서 인스턴스를 자동으로 다시 시작합니다.
- 그렇지 않고 인스턴스가 TERMINATED 상태이거나 복구가 완료되기 전이나 완료될 때 리소스를 사용할 수 없는 경우 인스턴스 상태가 TERMINATED으로 유지되거나 변경됩니다. 인스턴스를 실행하려면 인스턴스를 수동으로 다시 시작해야 합니다. 하지만 인스턴스를 다시 시작할 때 리소스를 사용할 수 없는 경우 인스턴스 다시 시작이 실패할 수 있습니다. 예를 들어 다른 인스턴스가 이미 복구된 호스트를 사용하고 있는 경우 이러한 문제가 발생할 수 있습니다.

오작동하는 호스트 신고

결함이 있는 호스트를 신고하려면 다음 단계를 완료하세요.

컴퓨팅 인스턴스가 실행되는 호스트 검토

자세한 내용은 컴퓨팅 인스턴스의 토폴로지 보기를 참고하세요.
선택사항: 로컬 SSD 데이터를 백업합니다. 인스턴스가 중지되면 Compute Engine은 인스턴스에 연결된 로컬 SSD 디스크의 데이터를 자동으로 삭제합니다. Compute Engine에서 로컬 SSD 데이터를 삭제한 후에는 복구할 수 없습니다.

로컬 SSD 데이터를 보존하는 방법은 로컬 SSD 데이터 백업을 참고하세요.
오작동하는 호스트를 신고합니다. 오작동하는 호스트를 신고하려면 다음 옵션 중 하나를 선택하세요. 호스트 복구 작업은 장애가 있는 호스트 신고 작업이 완료된 후 1분 이내에 즉시 시작됩니다. 결함이 있는 호스트 보고 작업 시작 후 인스턴스가 응답하지 않으면 최소 15분 동안 기다린 후 컴퓨팅 인스턴스를 다시 시작하는 것이 좋습니다.

중요: 호스트에 장애가 있다고 신고한 후 작업이 완료될 때까지 추가 요청을 보내지 마세요. 작업이 진행되는 동안 Compute Engine은 추가 요청을 거부합니다.
gcloud
장애가 있는 호스트를 신고하려면 다음 gcloud compute instances report-host-as-faulty 명령어를 사용합니다.
```
gcloud compute instances report-host-as-faulty INSTANCE_NAME \
    --async \
    --disruption-schedule=IMMEDIATE \
    --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \
    --zone=ZONE
```
다음을 바꿉니다.
- INSTANCE_NAME: 컴퓨팅 인스턴스의 이름입니다.
- FAULT_REASON: 컴퓨팅 인스턴스에서 발생한 호스트 문제 목록으로 쉼표로 구분됩니다(예: ISSUE_1,ISSUE_2). 다음 값을 지정할 수 있습니다.
  - PERFORMANCE: 컴퓨팅 인스턴스에 연결된 GPU의 성능이 클러스터의 다른 GPU에 비해 성능 문제가 있고, 로그에 XID 오류가 표시되지 않으며, Compute Engine에서 무음 데이터 손상과 같은 다른 일반적인 실패 패턴을 감지하지 않습니다.
  - SILENT_DATA_CORRUPTION: 컴퓨팅 인스턴스에서 데이터 손상이 발생하지만 컴퓨팅 인스턴스는 계속 실행됩니다. 무음 데이터 손상은 vCPU 결함, 소프트웨어 버그 또는 커널 문제와 같은 문제로 인해 발생할 수 있습니다.
  - UNRECOVERABLE_GPU_ERROR: XID를 사용하여 복구 불가 GPU 오류를 식별했습니다.
  - BEHAVIOR_UNSPECIFIED: 컴퓨팅 인스턴스의 문제가 무엇인지 잘 모르겠습니다.
- DESCRIPTION: 컴퓨팅 인스턴스에 영향을 미치는 문제에 대한 설명입니다(예: XID 정보 또는 의심되는 성능 문제).
- ZONE: 컴퓨팅 인스턴스가 있는 영역입니다.
REST
장애가 있는 호스트를 보고하려면 instances.reportHostAsFaulty 메서드에 다음 POST 요청을 실행합니다.

장애가 있는 호스트를 신고할 때 여러 장애 이유를 한 번에 지정할 수 있습니다. 예를 들어 두 가지 오류 이유를 지정하려면 다음과 같이 요청합니다.
```
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/INSTANCE_NAME/reportHostAsFaulty

{
  "disruptionSchedule": "IMMEDIATE",
  "faultReasons": [
    {
      "behavior": "FAULT_REASON_1",
      "description": "DESCRIPTION_1"
    },
    {
      "behavior": "FAULT_REASON_2",
      "description": "DESCRIPTION_2"
    }
  ]
}
```
다음을 바꿉니다.
- PROJECT_ID: 컴퓨팅 인스턴스가 있는 프로젝트의 ID입니다.
- ZONE: 컴퓨팅 인스턴스가 있는 영역입니다.
- INSTANCE_NAME: 컴퓨팅 인스턴스의 이름입니다.
- FAULT_REASON_1 및 FAULT_REASON_2: 컴퓨팅 인스턴스에서 발생한 각 호스트 문제입니다. 다음 값을 지정할 수 있습니다.
  - PERFORMANCE: 컴퓨팅 인스턴스에 연결된 GPU의 성능이 클러스터의 다른 GPU에 비해 성능 문제가 있고, 로그에 XID 오류가 표시되지 않으며, Compute Engine에서 무음 데이터 손상과 같은 다른 일반적인 실패 패턴을 감지하지 않습니다.
  - SILENT_DATA_CORRUPTION: 컴퓨팅 인스턴스에서 데이터 손상이 발생하지만 컴퓨팅 인스턴스는 계속 실행됩니다. 무음 데이터 손상은 vCPU 결함, 소프트웨어 버그 또는 커널 문제와 같은 문제로 인해 발생할 수 있습니다.
  - UNRECOVERABLE_GPU_ERROR: XID를 사용하여 복구 불가 GPU 오류를 식별했습니다.
  - BEHAVIOR_UNSPECIFIED: 컴퓨팅 인스턴스의 문제가 무엇인지 잘 모르겠습니다.
- DESCRIPTION_1 및 DESCRIPTION_2: 지정한 각 호스트 문제에 대한 설명입니다(예: XID 정보 또는 의심되는 성능 문제).

장애가 있는 호스트 신고 작업 검토

장애가 있는 호스트를 신고하면 Compute Engine은 호스트에 장애가 있는 것으로 표시하고 호스트를 복구하기 위한 일련의 작업을 시작합니다. 특히 장애가 있는 호스트 신고 작업 중에 다음 프로세스가 발생합니다.

호스트를 오작동으로 표시합니다. Compute Engine에서 faulty host 작업 보고서를 만듭니다. 그러면 장애가 있는 호스트 신고 작업에서 일련의 하위 작업을 만듭니다. 이러한 하위 작업은 기본 호스트를 장애로 표시합니다.
수리를 위해 호스트를 준비합니다. 모든 하위 작업이 완료되면 report faulty host 작업이 시작됩니다. Compute Engine이 컴퓨팅 인스턴스를 중지하고 장애가 있는 호스트 복구 작업을 시작합니다. 컴퓨팅 인스턴스에서 사용하는 예약에 지정된 예약 작동 모드를 기반으로, 정상 호스트가 있는 경우 Compute Engine은 컴퓨팅 인스턴스를 중지된 상태로 유지하거나 컴퓨팅 인스턴스를 자동으로 이전하고 다시 시작하려고 시도합니다.
완료를 보고하고 호스트를 복구합니다. Compute Engine에서 장애가 있는 호스트 신고 작업을 완료하고 호스트 복구 작업이 실행됩니다.

프로젝트에서 결함이 있는 호스트(compute.instances.reportHostAsFaulty) 작업의 상태를 추적하려면 다음 옵션 중 하나를 선택합니다. 수리, 이전, 자동 다시 시작을 추적하는 데 사용할 수 있는 기타 작업에 대한 자세한 내용은 Compute Engine 문서의 유지보수 및 다시 시작 동작 및 호스트 유지보수 이벤트 모니터링 및 계획을 참고하세요.

콘솔 (인스턴스 작업)

Google Cloud 콘솔에서 작업 페이지로 이동합니다.

작업으로 이동
표시되는 표에서 신고한 컴퓨팅 인스턴스를 찾습니다.
컴퓨팅 인스턴스가 포함된 행의 상태 열에서 결함이 있는 호스트 신고 작업의 상태를 확인할 수 있습니다. 작업이 완료되면 값은 Done입니다.
선택사항: Compute Engine에서 컴퓨팅 인스턴스를 다시 시작했는지 확인하려면 인스턴스 세부정보를 확인하세요.

콘솔 (컴퓨팅 인스턴스 로그)

Google Cloud 콘솔에서 로그 탐색기 페이지로 이동합니다.

로그 탐색기로 이동
쿼리 표시 전환 버튼이 사용으로 설정되어 있는지 확인합니다.

쿼리 편집기에서 다음 쿼리를 입력합니다.

resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"

쿼리 실행을 클릭합니다. 쿼리 결과 창에 쿼리 결과가 표시됩니다.

gcloud

프로젝트에서 잘못된 호스트 작업 보고 상태를 보려면 --filter 플래그를 operationType:reportHostAsFaulty으로 설정하고 gcloud compute operations list 명령어를 사용합니다.
```
gcloud compute operations list --filter="operationType:reportHostAsFaulty"
```
특정 오류 호스트 작업의 세부정보를 보려면 gcloud compute operations describe 명령어를 사용합니다.
```
gcloud compute operations describe OPERATION_NAME \
    --zone="ZONE"
```
다음을 바꿉니다.
- OPERATION_NAME: 작업의 이름입니다.
- ZONE: 작업이 있는 영역

REST

프로젝트에서 호스트 작업 오류 보고의 상태를 보려면 zoneOperations.list 메서드에 GET 요청을 실행합니다. 요청 URL에 items.operationType:reportHostAsFaulty으로 설정된 filter 쿼리 파라미터를 포함합니다.

GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:reportHostAsFaulty

다음을 바꿉니다.

PROJECT_ID: 작업의 이름입니다.
ZONE: 작업이 있는 영역입니다.

다음 단계

결함이 있는 호스트를 신고할 때 문제가 발생하면 결함이 있는 호스트 API 문제 해결을 참고하세요.

오작동하는 호스트 신고 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

제한사항

시작하기 전에

Console

gcloud

REST

필요한 역할

필수 권한

오작동하는 호스트 신고 프로세스 이해하기

오작동하는 호스트 신고

gcloud

REST

장애가 있는 호스트 신고 작업 검토

콘솔 (인스턴스 작업)

콘솔 (컴퓨팅 인스턴스 로그)

gcloud

REST

다음 단계

오작동하는 호스트 신고