예약된 H4D VM에서 다른 방법으로 해결할 수 없는 문제가 발생하는 경우(예: RDMA 기기의 지속적인 오류) 호스트를 결함이 있는 것으로 신고하는 것이 좋습니다. 호스트가 결함이 있다고 신고하면 Compute Engine은 호스트가 결함이 있다고 신고한 후 호스트 유지보수를 실행하여 VM을 자동으로 복구합니다. H4D VM의 경우 유지보수가 시작되면 Compute Engine에서 VM을 다른 호스트로 마이그레이션하려고 시도하므로 워크로드의 다운타임을 최소화할 수 있습니다.
이 문서에서는 VM 기반 클러스터에 속한 가상 머신 (VM) 인스턴스의 결함이 있는 호스트를 보고하고 복구하는 방법을 설명합니다. Google Kubernetes Engine (GKE) 클러스터의 경우 GKE를 통해 결함이 있는 호스트 보고를 참고하세요.
제한사항
결함이 있는 호스트를 신고할 때는 다음과 같은 제한사항이 적용됩니다.
호스트에서 실행되는 VM이 다음 조건을 모두 충족하는 경우에만 결함이 있는 호스트를 신고할 수 있습니다.
VM이 실행 중입니다.
VM이 H4D 머신 유형을 사용합니다.
VM은 예약에 따름 프로비저닝 모델을 사용합니다.
Google Cloud 모든 결함이 있는 호스트 신고 요청을 처리하기 위해 최선을 다합니다. 하지만 용량 제약이나 비율 제한으로 인해 요청이 항상 처리되지는 않을 수 있습니다.
시작하기 전에
-
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST
로컬 개발 환경에서 이 페이지의 REST API 샘플을 사용하려면 gcloud CLI에 제공한 사용자 인증 정보를 사용합니다.
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud initIf you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
자세한 내용은 Google Cloud 인증 문서의 REST 사용을 위한 인증을 참조하세요.
필요한 역할
결함이 있는 호스트를 보고하는 데 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.
-
VM 또는 프로젝트에 대한 Compute 인스턴스 관리자 (v1) (
roles/compute.instanceAdmin.v1) -
Cloud Logging을 사용하여 결함이 있는 호스트 보고 작업의 상태를 보려면 다음을 실행하세요.
프로젝트에 대한 로그 뷰어 (
roles/logging.viewer)
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
이러한 사전 정의된 역할에는 잘못된 호스트를 신고하는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.
필수 권한
결함이 있는 호스트를 신고하려면 다음 권한이 필요합니다.
-
오작동하는 호스트 보고서를 만들려면 VM에서 다음을 실행하세요.
compute.instances.updateon the VM -
Logging을 사용하여 작업 목록을 보려면 프로젝트에 대한
logging.operations.list권한이 있어야 합니다. -
Logging을 사용하여 작업의 세부정보를 보려면 프로젝트에 대한
logging.operations.get권한이 필요합니다. -
Compute Engine에서 작업 목록을 보려면 다음 단계를 따르세요.
compute.zoneOperations.list프로젝트 -
Compute Engine에서 작업의 세부정보를 보려면 프로젝트에 대한
compute.zoneOperations.describe권한이 있어야 합니다.
커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.
오작동하는 호스트 신고 프로세스 이해하기
H4D VM의 결함이 있는 호스트를 신고한 후 H4D VM이 다시 시작되는 시간은 VM을 만드는 데 사용한 예약의 예약 작동 모드에 따라 달라집니다. 예약의 예약 작동 모드를 확인하려면 예약에서 reservationOperationalMode 필드를 확인하세요.
관리 모드 ( HIGHLY_AVAILABLE_CAPACITY)지원되는 머신 유형 H4D 오작동하는 호스트 신고 API 비율 제한 API 호출은 비율 제한될 수 있습니다. 오작동하는 호스트 신고 절차 관리 모드에서 실행되는 H4D VM의 결함이 있는 호스트를 신고하면 다음이 발생합니다.
- 결함이 있는 호스트 신고: VM은 신고 작업이 진행되는 동안
RUNNING상태로 유지되며, 일반적으로 완료하는 데 10~12분이 걸립니다. 작업 상태를 검토하려면 이 문서의 보고서 결함이 있는 호스트 작업 검토를 참고하세요. - 호스트 수리 시작: 호스트에 결함이 있다고 신고 작업이 완료되면 1분 이내에 호스트 수리 작업이 시작됩니다.
호스트 복구 작업이 시작되면 VM이 중지되고 VM에 지정된 자동 다시 시작(
automaticRestart) 설정에 따라 상태가 변경됩니다.- VM에 자동 재시작이 사용 설정된 경우 VM 상태가
REPAIRING로 변경됩니다. 호스트가 정상 상태인 경우 VM을 중지하지 않으면 VM이 자동으로 다시 시작됩니다. - VM에 자동 다시 시작이 사용 중지된 경우 VM 상태가
TERMINATED로 변경됩니다. 호스트가 정상 상태가 되면 VM을 수동으로 다시 시작해야 합니다.
결함이 있는 호스트를 수리하는 데 3~14일이 걸릴 수 있으며, 경우에 따라 더 오래 걸릴 수도 있습니다.
- VM에 자동 재시작이 사용 설정된 경우 VM 상태가
- VM 마이그레이션 및 다시 시작: 호스트 복구 작업이 시작된 후(일반적으로 10~12분) Compute Engine은 예약된 용량에서 신고된 결함이 있는 호스트를 대체할 호스트를 하나 더 예약하려고 시도합니다. Compute Engine에서 정상 호스트를 찾으면(결함이 있는 호스트를 성공적으로 교체하거나 예약된 용량에서 일치하는 정상 호스트를 찾은 경우) Compute Engine이 VM을 해당 호스트로 마이그레이션합니다. 그런 다음 다음 중 하나를 통해 VM이 다시 시작됩니다.
- VM이
REPAIRING상태이고 복구가 완료되기 전이나 완료될 때 리소스를 사용할 수 있는 경우 Compute Engine은 정상 호스트에서 VM을 자동으로 다시 시작합니다. - 그렇지 않고 VM이
TERMINATED상태이거나 복구가 완료되기 전이나 완료될 때 리소스를 사용할 수 없는 경우 VM 상태가TERMINATED로 유지되거나TERMINATED로 변경됩니다. VM을 실행하려면 수동으로 VM을 다시 시작해야 합니다. 하지만 VM을 다시 시작할 때 리소스를 사용할 수 없는 경우 VM 다시 시작이 실패할 수 있습니다. 예를 들어 다른 VM이 이미 복구된 호스트를 사용하고 있는 경우 이러한 문제가 발생할 수 있습니다.
- VM이
오작동하는 호스트 신고
결함이 있는 호스트를 신고하려면 다음 단계를 완료하세요.
VM이 실행되는 호스트를 검토합니다.
자세한 내용은 H4D 클러스터 토폴로지 보기를 참고하세요.
선택사항: 로컬 SSD 데이터를 백업합니다. VM이 중지되면 Compute Engine은 VM에 연결된 로컬 SSD 디스크의 데이터를 자동으로 삭제합니다. Compute Engine에서 로컬 SSD 데이터를 삭제한 후에는 복구할 수 없습니다.
로컬 SSD 데이터를 보존하는 방법은 로컬 SSD 데이터 백업을 참고하세요.
오작동하는 호스트를 신고합니다. 오작동하는 호스트를 신고하려면 다음 옵션 중 하나를 선택하세요. 호스트 수리 작업은 결함이 있는 호스트 신고 작업이 완료된 후 1분 이내에 즉시 시작됩니다. 결함이 있는 호스트 보고 작업 시작 후 VM이 응답하지 않으면 최소 15분 정도 기다린 후 VM을 다시 시작하는 것이 좋습니다.
gcloud
결함이 있는 호스트를 보고하려면 다음
gcloud compute instances report-host-as-faulty명령어를 사용합니다.gcloud compute instances report-host-as-faulty VM_NAME \ --async \ --disruption-schedule=IMMEDIATE \ --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \ --zone=ZONE다음을 바꿉니다.
VM_NAME: VM의 이름입니다.FAULT_REASON: VM에서 발생한 호스트 문제 목록으로 쉼표로 구분됩니다(예:ISSUE_1,ISSUE_2). 다음 값을 지정할 수 있습니다.PERFORMANCE: CPU 또는 Cloud RDMA 네트워크 작업의 성능 저하, IRDMA 네트워크 인터페이스 오류 또는 IRDMA 네트워크 기기가 표시되지 않음SILENT_DATA_CORRUPTION: VM에 데이터 손상이 표시되지만 VM은 계속 실행됩니다. 무음 데이터 손상은 vCPU 결함, 소프트웨어 버그, 커널 문제와 같은 문제로 인해 발생할 수 있습니다.BEHAVIOR_UNSPECIFIED: VM에 영향을 미치는 문제가 무엇인지 잘 모르거나 다른 옵션으로 해결할 수 없는 문제입니다.
DESCRIPTION: VM에 영향을 미치는 문제에 대한 설명입니다(예: XID 정보 또는 의심되는 성능 문제).ZONE: VM이 있는 영역입니다.
REST
결함이 있는 호스트를 보고하려면
instances.reportHostAsFaulty메서드에 다음POST요청을 실행합니다.결함이 있는 호스트를 신고할 때 여러 결함 이유를 한 번에 지정할 수 있습니다. 예를 들어 두 가지 오류 이유를 지정하려면 다음과 같이 요청합니다.
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/reportHostAsFaulty { "disruptionSchedule": "IMMEDIATE", "faultReasons": [ { "behavior": "FAULT_REASON_1", "description": "DESCRIPTION_1" }, { "behavior": "FAULT_REASON_2", "description": "DESCRIPTION_2" } ] }다음을 바꿉니다.
PROJECT_ID: VM이 있는 프로젝트의 ID입니다.ZONE: VM이 있는 영역입니다.VM_NAME: VM의 이름입니다.FAULT_REASON_1및FAULT_REASON_2: VM에서 발생한 각 호스트 문제입니다. 다음 값을 지정할 수 있습니다.PERFORMANCE: CPU 또는 RDMA 네트워크 작업의 성능 저하, RDMA 기기 장애 또는 RDMA 기기가 표시되지 않음SILENT_DATA_CORRUPTION: VM에 데이터 손상이 표시되지만 VM은 계속 실행됩니다. 무음 데이터 손상은 vCPU 결함, 소프트웨어 버그, 커널 문제와 같은 문제로 인해 발생할 수 있습니다.BEHAVIOR_UNSPECIFIED: VM의 문제가 무엇인지 잘 모릅니다.
DESCRIPTION_1및DESCRIPTION_2: 지정한 각 호스트 문제에 대한 설명입니다(예: XID 정보 또는 의심되는 성능 문제).
오작동하는 호스트 작업 검토
결함이 있는 호스트를 신고하면 Compute Engine은 호스트를 결함이 있는 것으로 표시하고 호스트를 수리할 준비를 하기 위해 일련의 작업을 시작합니다. 특히 결함이 있는 호스트 신고 작업 중에 다음 프로세스가 발생합니다.
호스트를 오작동으로 표시합니다. Compute Engine에서 report faulty host 작업을 만듭니다. 그런 다음 보고서 결함 호스트 작업이 일련의 하위 작업을 만듭니다. 이러한 하위 작업은 기본 호스트를 결함이 있는 것으로 표시합니다.
수리를 위해 호스트를 준비합니다. 모든 하위 작업이 완료되면 report faulty host 작업이 시작됩니다. Compute Engine이 VM을 중지하고 결함이 있는 호스트 복구 작업을 시작합니다. VM이 사용하는 예약에 지정된 예약 작동 모드에 따라, 정상 호스트가 있는 경우 Compute Engine은 VM을 중지된 상태로 유지하거나 VM을 자동으로 마이그레이션하고 다시 시작하려고 시도합니다.
완료를 보고하고 호스트를 수리합니다. Compute Engine에서 잘못된 호스트 신고 작업을 완료하고 호스트 복구 작업이 실행됩니다.
프로젝트에서 결함이 있는 호스트(
compute.instances.reportHostAsFaulty) 작업의 상태를 추적하려면 다음 옵션 중 하나를 선택하세요. 수리, 이전, 자동 다시 시작을 추적하는 데 사용할 수 있는 기타 작업에 대한 자세한 내용은 Compute Engine 문서의 유지보수 및 다시 시작 동작 및 호스트 유지보수 이벤트 모니터링 및 계획을 참고하세요.콘솔 (VM 작업)
Google Cloud 콘솔에서 작업 페이지로 이동합니다.
표시되는 표에서 신고한 VM을 찾습니다.
VM이 포함된 행의 상태 열에서 결함이 있는 호스트 작업 보고의 상태를 확인할 수 있습니다. 작업이 완료되면 값은 Done입니다.
선택사항: Compute Engine에서 VM을 다시 시작했는지 확인하려면 VM 세부정보를 확인하세요.
콘솔 (VM 로그)
Google Cloud 콘솔에서 로그 탐색기 페이지로 이동합니다.
쿼리 표시 전환이 사용 설정되어 있는지 확인합니다.
쿼리 편집기에서 다음 쿼리를 입력합니다.
resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"쿼리 실행을 클릭합니다. 쿼리 결과 창에 쿼리 결과가 표시됩니다.
gcloud
프로젝트에서 결함이 있는 호스트 작업 보고 상태를 보려면
--filter플래그를operationType:compute.instances.reportHostAsFaulty으로 설정하고gcloud compute operations list명령어를 사용합니다.gcloud compute operations list --filter="operationType:compute.instances.reportHostAsFaulty"특정 오류 호스트 작업의 세부정보를 보려면
gcloud compute operations describe명령어를 사용합니다.gcloud compute operations describe OPERATION_NAME \ --zone="ZONE"다음을 바꿉니다.
OPERATION_NAME: 작업의 이름입니다.ZONE: 작업이 있는 영역
REST
프로젝트에서 호스트 작업 오류 보고의 상태를 보려면
zoneOperations.list메서드에GET요청을 실행합니다. 요청 URL에items.operationType:compute.instances.reportHostAsFaulty으로 설정된filter쿼리 파라미터를 포함합니다.GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:compute.instances.reportHostAsFaulty다음을 바꿉니다.
PROJECT_ID: 작업의 이름입니다.ZONE: 작업이 있는 영역입니다.
다음 단계
- 결함이 있는 호스트를 신고할 때 문제가 발생하면 결함이 있는 호스트 API 문제 해결을 참고하세요.
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2025-12-04(UTC)
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-12-04(UTC)"],[],[]] -
VM 또는 프로젝트에 대한 Compute 인스턴스 관리자 (v1) (