如果您發現 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 執行個體發生問題,且無法自行解決,可以將主機回報為故障。舉例來說,叢集效能變慢,或是 GPU 溫度持續偏高,都可能是這類問題。
回報主機故障時,Compute Engine 會執行主機維護作業,自動修復運算執行個體。
- 如果是 A4 和 A3 Ultra 執行個體,當維護作業開始時,Compute Engine 會嘗試將執行個體遷移至其他主機 (如有未使用的預留容量,或執行個體所在區域有可用容量)。將主機回報為有故障,有助於盡量減少工作負載的停機時間。
- 如果是 A3 Mega 和 A3 High 執行個體,Compute Engine 會停止執行個體、執行必要的主機修復作業,然後在同一部主機上重新啟動執行個體。
本文說明如何回報及修復 Slurm 叢集或其他以運算執行個體為基礎的叢集中的故障主機執行個體。如要在 Google Kubernetes Engine (GKE) 叢集中回報故障主機,請參閱「透過 GKE 回報故障主機」。
限制
回報出錯的主機時,請注意下列限制:
只有在主機上執行的運算執行個體符合下列所有條件時,您才能回報主機故障:
運算執行個體正在執行。
運算執行個體使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機型。
運算執行個體使用取決於預留項目的佈建模式。
如果在
reportHostAsFaulty作業進行期間刪除運算執行個體,reportHostAsFaulty作業就會失敗。Google Cloud 會盡力滿足所有回報主機故障的要求。不過,由於容量限制或速率限制,要求不一定都能完成。
事前準備
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST
如要在本機開發環境中使用本頁的 REST API 範例,請使用您提供給 gcloud CLI 的憑證。
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud initIf you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
詳情請參閱 Google Cloud 驗證說明文件中的「使用 REST 進行驗證」。
必要的角色
如要取得回報主機故障所需的權限,請要求管理員授予您下列 IAM 角色:
-
Compute 執行個體管理員 (v1) (
roles/compute.instanceAdmin.v1) 在 Compute 執行個體或專案上 -
如要使用 Cloud Logging 查看有問題的主機報告作業狀態,請在專案中開啟記錄檢視器 (
roles/logging.viewer)。
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
這些預先定義的角色具備回報主機故障所需的權限。如要查看確切的必要權限,請展開「Required permissions」(必要權限) 部分:
所需權限
如要檢舉主機故障,必須具備下列權限:
-
如要建立出錯的主機報告,請按照下列步驟操作:
compute.instances.update在 Compute 執行個體上 -
如要使用 Logging 查看作業清單,請按照下列步驟操作:
logging.operations.list在專案中 -
如要使用 Logging 查看作業詳細資料,請按照下列步驟操作:
logging.operations.get在專案中 -
如要查看 Compute Engine 中的作業清單:
compute.zoneOperations.list在專案中 -
如要查看 Compute Engine 中作業的詳細資料:
compute.zoneOperations.describe在專案中
瞭解出錯主機回報程序
回報運算執行個體的主機故障後,運算執行個體重新啟動的時間會因運算執行個體使用的預訂項目中指定的預訂項目運作模式而異。如要驗證預留項目的運作模式,請查看預留項目中的reservationOperationalMode 欄位。下表大致列出兩種可用的預訂作業模式 (所有容量模式和管理模式) 的主機程序錯誤。所有容量模式 (ALL_CAPACITY) |
受管理模式 (HIGHLY_AVAILABLE_CAPACITY) |
|
|---|---|---|
| 支援的機型 | A4X Max 和 A4X | A4、A3 Ultra、A3 Mega 和 A3 High |
| Faulty host report API 頻率限制 | 沒有匯率限制。 | 對 API 的呼叫可能會受到速率限制。 |
| 主機故障回報程序 |
如果執行個體是以所有容量模式執行,回報主機故障時會發生下列情況:
|
如果代管模式下執行的運算執行個體發生主機故障,回報後會發生下列情況:
|
回報出錯的主機
如要回報主機故障,請完成下列步驟:
查看運算執行個體執行的主機。
如需操作說明,請參閱「查看運算執行個體的拓撲」。
選用:備份本機 SSD 資料。執行個體停止時,Compute Engine 會自動捨棄附加至執行個體的任何本機 SSD 磁碟資料。Compute Engine 捨棄本機 SSD 資料後,您就無法復原。
如需如何保留本機 SSD 資料的操作說明,請參閱「本機 SSD 資料備份」一文。
回報出錯的主機。如要回報出錯的主機,請選取下列其中一個選項。回報故障主機作業完成後,主機修復作業會立即啟動,如果執行有問題的主機報表作業後,執行個體沒有回應,建議您等待至少 15 分鐘,然後重新啟動運算執行個體。
gcloud
如要回報出錯的主機,請使用下列
gcloud compute instances report-host-as-faulty指令:gcloud compute instances report-host-as-faulty INSTANCE_NAME \ --async \ --disruption-schedule=IMMEDIATE \ --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \ --zone=ZONE更改下列內容:
INSTANCE_NAME:運算執行個體的名稱。FAULT_REASON:以半形逗號分隔的清單,列出運算執行個體遇到的主機問題,例如ISSUE_1,ISSUE_2。您可以指定下列值:PERFORMANCE:與叢集中的其他 GPU 相比,附加至運算執行個體的 GPU 有效能問題,但記錄中沒有 XID 錯誤,且 Compute Engine 未偵測到其他常見的失敗模式,例如無聲資料損毀。SILENT_DATA_CORRUPTION:運算執行個體中出現資料損毀情形,但運算執行個體仍持續運作。無聲資料毀損可能是 vCPU 缺陷、軟體錯誤或核心問題所致。UNRECOVERABLE_GPU_ERROR:您發現 XID 發生無法復原的 GPU 錯誤。BEHAVIOR_UNSPECIFIED:您不確定運算執行個體的問題為何。
DESCRIPTION:影響運算執行個體的問題說明,例如 XID 資訊或疑似效能問題。ZONE:運算執行個體所在的可用區。
REST
如要回報出錯的主機,請向
instances.reportHostAsFaulty方法發出下列POST要求。回報主機故障時,你可以一次指定多個故障原因。舉例來說,如要指定兩個錯誤原因,請提出如下要求:
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/INSTANCE_NAME/reportHostAsFaulty { "disruptionSchedule": "IMMEDIATE", "faultReasons": [ { "behavior": "FAULT_REASON_1", "description": "DESCRIPTION_1" }, { "behavior": "FAULT_REASON_2", "description": "DESCRIPTION_2" } ] }更改下列內容:
PROJECT_ID:運算執行個體所在的專案 ID。ZONE:運算執行個體所在的可用區。INSTANCE_NAME:運算執行個體的名稱。FAULT_REASON_1和FAULT_REASON_2:運算執行個體遇到的每個主機問題。您可以指定下列值:PERFORMANCE:與叢集中的其他 GPU 相比,附加至運算執行個體的 GPU 有效能問題,但記錄中沒有 XID 錯誤,且 Compute Engine 未偵測到其他常見的失敗模式,例如無聲資料損毀。SILENT_DATA_CORRUPTION:運算執行個體中出現資料損毀情形,但運算執行個體仍持續運作。無聲資料毀損可能是 vCPU 缺陷、軟體錯誤或核心問題所致。UNRECOVERABLE_GPU_ERROR:您發現 XID 發生無法復原的 GPU 錯誤。BEHAVIOR_UNSPECIFIED:您不確定運算執行個體的問題為何。
DESCRIPTION_1和DESCRIPTION_2:您指定各主機問題的說明,例如 XID 資訊或疑似效能問題。
查看回報出錯的主機作業
回報主機故障後,Compute Engine 會啟動一系列作業,將主機標示為故障,並準備維修。具體來說,在回報出錯的主機作業期間,會發生下列程序:
將主機標示為有故障。Compute Engine 會建立報告,指出主機故障作業。「回報主機故障」作業接著會建立一連串的子作業。這些子作業會將基礎主機標示為有故障。
準備主機送修。所有子作業完成後,系統會開始回報故障主機作業。Compute Engine 會停止運算執行個體,並啟動修復故障主機作業。根據運算執行個體所用預留資源中指定的預留資源運作模式,以及是否有可用的健康主機,Compute Engine 會讓運算執行個體保持停止狀態,或嘗試自動遷移並重新啟動運算執行個體。
回報完成並修復主機。Compute Engine 會完成回報出錯主機作業,並執行主機修復作業。
如要追蹤專案中回報主機故障 (compute.instances.reportHostAsFaulty) 作業的狀態,請選取下列其中一個選項。如要進一步瞭解可用於追蹤修復、遷移和自動重新啟動的其他作業,請參閱 Compute Engine 說明文件中的「維護和重新啟動行為」和「監控及規劃主機維護事件」。
控制台 (執行個體作業)
前往 Google Cloud 控制台的「Operations」頁面。
在隨即顯示的表格中,找出您回報的運算執行個體。
在包含運算執行個體的資料列中,您可以在「狀態」欄中查看回報主機故障作業的狀態。作業完成後,值會是「Done」。
選用:如要確認 Compute Engine 是否已重新啟動運算執行個體,請查看執行個體的詳細資料。
控制台 (Compute 執行個體記錄)
前往 Google Cloud 控制台的「Logs Explorer」頁面。
確認「顯示查詢」切換鈕已設為開啟。
在查詢編輯器中輸入下列查詢:
resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"按一下「Run query」(執行查詢)。「Query results」(查詢結果) 窗格會顯示查詢結果。
gcloud
如要查看專案中回報主機故障作業的狀態,請使用
gcloud compute operations list指令,並將--filter旗標設為operationType:reportHostAsFaulty:gcloud compute operations list --filter="operationType:reportHostAsFaulty"如要查看特定錯誤主機作業的詳細資料,請使用
gcloud compute operations describe指令:gcloud compute operations describe OPERATION_NAME \ --zone="ZONE"更改下列內容:
OPERATION_NAME:作業名稱。ZONE:作業所在的區域。
REST
如要查看專案中回報出錯主機作業的狀態,請對 zoneOperations.list 方法發出 GET 要求。在要求網址中,加入設為 items.operationType:reportHostAsFaulty 的 filter 查詢參數。
GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:reportHostAsFaulty
更改下列內容:
PROJECT_ID:作業名稱。ZONE:作業所在的區域。
後續步驟
- 如果回報主機故障時遇到問題,請參閱「排解主機故障 API 問題」。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2026-02-24 (世界標準時間)。