A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 인스턴스에서 직접 해결할 수 없는 문제가 발생하는 경우 호스트에 장애가 있다고 신고할 수 있습니다. 이러한 문제의 예로는 클러스터 내 성능 저하 또는 지속적으로 높은 GPU 온도가 있습니다.
호스트에 장애가 있다고 신고하면 Compute Engine은 호스트 유지보수를 실행하여 컴퓨팅 인스턴스를 자동으로 복구합니다.
- A4 및 A3 Ultra 인스턴스의 경우 사용하지 않는 예약 용량이 있거나 인스턴스의 영역에서 용량을 사용할 수 있는 경우 유지보수가 시작되면 Compute Engine에서 인스턴스를 다른 호스트로 이전하려고 시도합니다. 호스트를 결함이 있는 것으로 신고하면 워크로드의 다운타임을 최소화할 수 있습니다.
- A3 Mega 및 A3 High 인스턴스의 경우 Compute Engine은 인스턴스를 중지하고 필요한 호스트 복구를 수행한 다음 동일한 호스트에서 인스턴스를 다시 시작합니다.
이 문서에서는 Slurm 클러스터 또는 기타 컴퓨팅 인스턴스 기반 클러스터에 속한 결함이 있는 호스트 인스턴스를 보고하고 복구하는 방법을 설명합니다. Google Kubernetes Engine (GKE) 클러스터에서 결함이 있는 호스트를 신고하려면 GKE를 통해 결함이 있는 호스트 신고를 참고하세요.
제한사항
결함이 있는 호스트를 신고할 때는 다음과 같은 제한사항이 적용됩니다.
호스트에서 실행되는 컴퓨팅 인스턴스가 다음 조건을 모두 충족하는 경우에만 장애가 있는 호스트를 신고할 수 있습니다.
컴퓨팅 인스턴스가 실행 중입니다.
컴퓨팅 인스턴스는 A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신 유형을 사용합니다.
컴퓨팅 인스턴스는 예약에 따름 프로비저닝 모델을 사용합니다.
reportHostAsFaulty작업이 진행되는 동안 컴퓨팅 인스턴스를 삭제하면reportHostAsFaulty작업이 실패합니다.Google Cloud 는 모든 보고된 결함 호스트 요청을 처리하기 위해 최선을 다합니다. 하지만 용량 제약이나 비율 제한으로 인해 요청이 항상 처리되지는 않을 수 있습니다.
시작하기 전에
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST
로컬 개발 환경에서 이 페이지의 REST API 샘플을 사용하려면 gcloud CLI에 제공한 사용자 인증 정보를 사용합니다.
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud initIf you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
자세한 내용은 Google Cloud 인증 문서의 REST 사용을 위한 인증을 참조하세요.
필요한 역할
결함이 있는 호스트를 신고하는 데 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.
-
컴퓨트 인스턴스 또는 프로젝트에 대한 Compute 인스턴스 관리자 (v1) (
roles/compute.instanceAdmin.v1) -
Cloud Logging을 사용하여 결함이 있는 호스트 보고 작업의 상태를 보려면 다음을 실행하세요.
프로젝트에 대한 로그 뷰어 (
roles/logging.viewer)
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
이러한 사전 정의된 역할에는 결함이 있는 호스트를 신고하는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.
필수 권한
장애가 있는 호스트를 보고하려면 다음 권한이 필요합니다.
-
오작동하는 호스트 보고서를 만들려면 컴퓨팅 인스턴스에서
compute.instances.update를 실행하세요. -
Logging을 사용하여 작업 목록을 보려면 프로젝트에 대한
logging.operations.list권한이 있어야 합니다. -
Logging을 사용하여 작업의 세부정보를 보려면 프로젝트에 대한
logging.operations.get권한이 필요합니다. -
Compute Engine에서 작업 목록을 보려면 다음 단계를 따르세요.
compute.zoneOperations.list프로젝트에서 -
Compute Engine에서 작업의 세부정보를 보려면 프로젝트에 대한
compute.zoneOperations.describe권한이 있어야 합니다.
커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.
오작동하는 호스트 신고 프로세스 이해하기
컴퓨팅 인스턴스의 장애가 있는 호스트를 신고한 후 컴퓨팅 인스턴스가 다시 시작되는 시간은 컴퓨팅 인스턴스에서 사용하는 예약에 지정된 예약 작동 모드에 따라 달라집니다. 예약의 예약 작동 모드를 확인하려면 예약에서reservationOperationalMode 필드를 확인하세요.
다음 표에는 사용 가능한 두 가지 예약 작동 모드(모든 용량 모드 및 관리 모드)의 결함이 있는 호스트 프로세스가 요약되어 있습니다.
모든 용량 모드 (ALL_CAPACITY) |
관리 모드 (HIGHLY_AVAILABLE_CAPACITY) |
|
|---|---|---|
| 지원되는 머신 유형 | A4X Max 및 A4X | A4, A3 Ultra, A3 Mega, A3 High |
| 결함이 있는 호스트 신고 API 비율 제한 | 비율 제한이 적용되지 않습니다. | API 호출은 비율 제한될 수 있습니다. |
| 오작동하는 호스트 신고 절차 |
모든 용량 모드에서 실행되는 컴퓨팅 인스턴스의 장애가 있는 호스트를 신고하면 다음이 발생합니다.
|
관리 모드에서 실행되는 컴퓨팅 인스턴스의 장애가 있는 호스트를 신고하면 다음이 발생합니다.
|
오작동하는 호스트 신고
결함이 있는 호스트를 신고하려면 다음 단계를 완료하세요.
컴퓨팅 인스턴스가 실행되는 호스트 검토
자세한 내용은 컴퓨팅 인스턴스의 토폴로지 보기를 참고하세요.
선택사항: 로컬 SSD 데이터를 백업합니다. 인스턴스가 중지되면 Compute Engine은 인스턴스에 연결된 로컬 SSD 디스크의 데이터를 자동으로 삭제합니다. Compute Engine에서 로컬 SSD 데이터를 삭제한 후에는 복구할 수 없습니다.
로컬 SSD 데이터를 보존하는 방법은 로컬 SSD 데이터 백업을 참고하세요.
오작동하는 호스트를 신고합니다. 오작동하는 호스트를 신고하려면 다음 옵션 중 하나를 선택하세요. 호스트 복구 작업은 장애가 있는 호스트 신고 작업이 완료된 후 1분 이내에 즉시 시작됩니다. 결함이 있는 호스트 보고 작업 시작 후 인스턴스가 응답하지 않으면 최소 15분 동안 기다린 후 컴퓨팅 인스턴스를 다시 시작하는 것이 좋습니다.
gcloud
장애가 있는 호스트를 신고하려면 다음
gcloud compute instances report-host-as-faulty명령어를 사용합니다.gcloud compute instances report-host-as-faulty INSTANCE_NAME \ --async \ --disruption-schedule=IMMEDIATE \ --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \ --zone=ZONE다음을 바꿉니다.
INSTANCE_NAME: 컴퓨팅 인스턴스의 이름입니다.FAULT_REASON: 컴퓨팅 인스턴스에서 발생한 호스트 문제 목록으로 쉼표로 구분됩니다(예:ISSUE_1,ISSUE_2). 다음 값을 지정할 수 있습니다.PERFORMANCE: 컴퓨팅 인스턴스에 연결된 GPU의 성능이 클러스터의 다른 GPU에 비해 성능 문제가 있고, 로그에 XID 오류가 표시되지 않으며, Compute Engine에서 무음 데이터 손상과 같은 다른 일반적인 실패 패턴을 감지하지 않습니다.SILENT_DATA_CORRUPTION: 컴퓨팅 인스턴스에서 데이터 손상이 발생하지만 컴퓨팅 인스턴스는 계속 실행됩니다. 무음 데이터 손상은 vCPU 결함, 소프트웨어 버그 또는 커널 문제와 같은 문제로 인해 발생할 수 있습니다.UNRECOVERABLE_GPU_ERROR: XID를 사용하여 복구 불가 GPU 오류를 식별했습니다.BEHAVIOR_UNSPECIFIED: 컴퓨팅 인스턴스의 문제가 무엇인지 잘 모르겠습니다.
DESCRIPTION: 컴퓨팅 인스턴스에 영향을 미치는 문제에 대한 설명입니다(예: XID 정보 또는 의심되는 성능 문제).ZONE: 컴퓨팅 인스턴스가 있는 영역입니다.
REST
장애가 있는 호스트를 보고하려면
instances.reportHostAsFaulty메서드에 다음POST요청을 실행합니다.장애가 있는 호스트를 신고할 때 여러 장애 이유를 한 번에 지정할 수 있습니다. 예를 들어 두 가지 오류 이유를 지정하려면 다음과 같이 요청합니다.
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/INSTANCE_NAME/reportHostAsFaulty { "disruptionSchedule": "IMMEDIATE", "faultReasons": [ { "behavior": "FAULT_REASON_1", "description": "DESCRIPTION_1" }, { "behavior": "FAULT_REASON_2", "description": "DESCRIPTION_2" } ] }다음을 바꿉니다.
PROJECT_ID: 컴퓨팅 인스턴스가 있는 프로젝트의 ID입니다.ZONE: 컴퓨팅 인스턴스가 있는 영역입니다.INSTANCE_NAME: 컴퓨팅 인스턴스의 이름입니다.FAULT_REASON_1및FAULT_REASON_2: 컴퓨팅 인스턴스에서 발생한 각 호스트 문제입니다. 다음 값을 지정할 수 있습니다.PERFORMANCE: 컴퓨팅 인스턴스에 연결된 GPU의 성능이 클러스터의 다른 GPU에 비해 성능 문제가 있고, 로그에 XID 오류가 표시되지 않으며, Compute Engine에서 무음 데이터 손상과 같은 다른 일반적인 실패 패턴을 감지하지 않습니다.SILENT_DATA_CORRUPTION: 컴퓨팅 인스턴스에서 데이터 손상이 발생하지만 컴퓨팅 인스턴스는 계속 실행됩니다. 무음 데이터 손상은 vCPU 결함, 소프트웨어 버그 또는 커널 문제와 같은 문제로 인해 발생할 수 있습니다.UNRECOVERABLE_GPU_ERROR: XID를 사용하여 복구 불가 GPU 오류를 식별했습니다.BEHAVIOR_UNSPECIFIED: 컴퓨팅 인스턴스의 문제가 무엇인지 잘 모르겠습니다.
DESCRIPTION_1및DESCRIPTION_2: 지정한 각 호스트 문제에 대한 설명입니다(예: XID 정보 또는 의심되는 성능 문제).
장애가 있는 호스트 신고 작업 검토
장애가 있는 호스트를 신고하면 Compute Engine은 호스트에 장애가 있는 것으로 표시하고 호스트를 복구하기 위한 일련의 작업을 시작합니다. 특히 장애가 있는 호스트 신고 작업 중에 다음 프로세스가 발생합니다.
호스트를 오작동으로 표시합니다. Compute Engine에서 faulty host 작업 보고서를 만듭니다. 그러면 장애가 있는 호스트 신고 작업에서 일련의 하위 작업을 만듭니다. 이러한 하위 작업은 기본 호스트를 장애로 표시합니다.
수리를 위해 호스트를 준비합니다. 모든 하위 작업이 완료되면 report faulty host 작업이 시작됩니다. Compute Engine이 컴퓨팅 인스턴스를 중지하고 장애가 있는 호스트 복구 작업을 시작합니다. 컴퓨팅 인스턴스에서 사용하는 예약에 지정된 예약 작동 모드를 기반으로, 정상 호스트가 있는 경우 Compute Engine은 컴퓨팅 인스턴스를 중지된 상태로 유지하거나 컴퓨팅 인스턴스를 자동으로 이전하고 다시 시작하려고 시도합니다.
완료를 보고하고 호스트를 복구합니다. Compute Engine에서 장애가 있는 호스트 신고 작업을 완료하고 호스트 복구 작업이 실행됩니다.
프로젝트에서 결함이 있는 호스트(compute.instances.reportHostAsFaulty) 작업의 상태를 추적하려면 다음 옵션 중 하나를 선택합니다. 수리, 이전, 자동 다시 시작을 추적하는 데 사용할 수 있는 기타 작업에 대한 자세한 내용은 Compute Engine 문서의 유지보수 및 다시 시작 동작 및 호스트 유지보수 이벤트 모니터링 및 계획을 참고하세요.
콘솔 (인스턴스 작업)
Google Cloud 콘솔에서 작업 페이지로 이동합니다.
표시되는 표에서 신고한 컴퓨팅 인스턴스를 찾습니다.
컴퓨팅 인스턴스가 포함된 행의 상태 열에서 결함이 있는 호스트 신고 작업의 상태를 확인할 수 있습니다. 작업이 완료되면 값은 Done입니다.
선택사항: Compute Engine에서 컴퓨팅 인스턴스를 다시 시작했는지 확인하려면 인스턴스 세부정보를 확인하세요.
콘솔 (컴퓨팅 인스턴스 로그)
Google Cloud 콘솔에서 로그 탐색기 페이지로 이동합니다.
쿼리 표시 전환 버튼이 사용으로 설정되어 있는지 확인합니다.
쿼리 편집기에서 다음 쿼리를 입력합니다.
resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"쿼리 실행을 클릭합니다. 쿼리 결과 창에 쿼리 결과가 표시됩니다.
gcloud
프로젝트에서 잘못된 호스트 작업 보고 상태를 보려면
--filter플래그를operationType:reportHostAsFaulty으로 설정하고gcloud compute operations list명령어를 사용합니다.gcloud compute operations list --filter="operationType:reportHostAsFaulty"특정 오류 호스트 작업의 세부정보를 보려면
gcloud compute operations describe명령어를 사용합니다.gcloud compute operations describe OPERATION_NAME \ --zone="ZONE"다음을 바꿉니다.
OPERATION_NAME: 작업의 이름입니다.ZONE: 작업이 있는 영역
REST
프로젝트에서 호스트 작업 오류 보고의 상태를 보려면 zoneOperations.list 메서드에 GET 요청을 실행합니다.
요청 URL에 items.operationType:reportHostAsFaulty으로 설정된 filter 쿼리 파라미터를 포함합니다.
GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:reportHostAsFaulty
다음을 바꿉니다.
PROJECT_ID: 작업의 이름입니다.ZONE: 작업이 있는 영역입니다.
다음 단계
- 결함이 있는 호스트를 신고할 때 문제가 발생하면 결함이 있는 호스트 API 문제 해결을 참고하세요.
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2026-02-26(UTC)