回報出錯的主機

如果您發現 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 執行個體發生問題，且無法自行解決，可以將主機回報為故障。舉例來說，叢集效能變慢，或是 GPU 溫度持續偏高，都可能是這類問題。

回報主機故障時，Compute Engine 會執行主機維護作業，自動修復運算執行個體。

如果是 A4 和 A3 Ultra 執行個體，當維護作業開始時，Compute Engine 會嘗試將執行個體遷移至其他主機 (如有未使用的預留容量，或執行個體所在區域有可用容量)。將主機回報為有故障，有助於盡量減少工作負載的停機時間。
如果是 A3 Mega 和 A3 High 執行個體，Compute Engine 會停止執行個體、執行必要的主機修復作業，然後在同一部主機上重新啟動執行個體。

本文說明如何回報及修復 Slurm 叢集或其他以運算執行個體為基礎的叢集中的故障主機執行個體。如要在 Google Kubernetes Engine (GKE) 叢集中回報故障主機，請參閱「透過 GKE 回報故障主機」。

限制

回報出錯的主機時，請注意下列限制：

只有在主機上執行的運算執行個體符合下列所有條件時，您才能回報主機故障：
- 運算執行個體正在執行。
- 運算執行個體使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機型。
- 運算執行個體使用取決於預留項目的佈建模式。
  
  注意： 如果執行中的 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 執行個體使用不同的佈建模型，但您仍想將其主機回報為故障，請與帳戶團隊聯絡。
如果在 reportHostAsFaulty 作業進行期間刪除運算執行個體，reportHostAsFaulty 作業就會失敗。
Google Cloud 會盡力滿足所有回報主機故障的要求。不過，由於容量限制或速率限制，要求不一定都能完成。

事前準備

Select the tab for how you plan to use the samples on this page:

Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

gcloud

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

REST

如要在本機開發環境中使用本頁的 REST API 範例，請使用您提供給 gcloud CLI 的憑證。

Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:

gcloud init

If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

詳情請參閱 Google Cloud 驗證說明文件中的「使用 REST 進行驗證」。

必要的角色

如要取得回報主機故障所需的權限，請要求管理員授予您下列 IAM 角色：

Compute 執行個體管理員 (v1) (roles/compute.instanceAdmin.v1) 在 Compute 執行個體或專案上
如要使用 Cloud Logging 查看有問題的主機報告作業狀態，請在專案中開啟記錄檢視器 (roles/logging.viewer)。

如要進一步瞭解如何授予角色，請參閱「管理專案、資料夾和組織的存取權」。

這些預先定義的角色具備回報主機故障所需的權限。如要查看確切的必要權限，請展開「Required permissions」(必要權限) 部分：

所需權限

如要檢舉主機故障，必須具備下列權限：

如要建立出錯的主機報告，請按照下列步驟操作： compute.instances.update 在 Compute 執行個體上
如要使用 Logging 查看作業清單，請按照下列步驟操作： logging.operations.list 在專案中
如要使用 Logging 查看作業詳細資料，請按照下列步驟操作： logging.operations.get 在專案中
如要查看 Compute Engine 中的作業清單： compute.zoneOperations.list 在專案中
如要查看 Compute Engine 中作業的詳細資料： compute.zoneOperations.describe 在專案中

您或許還可透過自訂角色或其他預先定義的角色取得這些權限。

瞭解出錯主機回報程序

回報運算執行個體的主機故障後，運算執行個體重新啟動的時間會因運算執行個體使用的預訂項目中指定的預訂項目運作模式而異。如要驗證預留項目的運作模式，請查看預留項目中的 reservationOperationalMode 欄位。下表大致列出兩種可用的預訂作業模式 (所有容量模式和管理模式) 的主機程序錯誤。

所有容量模式 (ALL_CAPACITY) 受管理模式 (HIGHLY_AVAILABLE_CAPACITY)

支援的機型 A4X Max 和 A4X A4、A3 Ultra、A3 Mega 和 A3 High

Faulty host report API 頻率限制沒有匯率限制。對 API 的呼叫可能會受到速率限制。

主機故障回報程序

	所有容量模式 (`ALL_CAPACITY`)	受管理模式 (`HIGHLY_AVAILABLE_CAPACITY`)
支援的機型	A4X Max 和 A4X	A4、A3 Ultra、A3 Mega 和 A3 High
Faulty host report API 頻率限制	沒有匯率限制。	對 API 的呼叫可能會受到速率限制。
主機故障回報程序	如果執行個體是以所有容量模式執行，回報主機故障時會發生下列情況：回報出錯的主機：在回報出錯的主機作業期間，執行個體會維持 `RUNNING` 狀態，通常需要 10 到 12 分鐘才能完成。如要查看作業狀態，請參閱本文中的「查看報告中發生錯誤的主機作業」。修復主機：回報主機故障作業完成後，主機修復作業會在 1 分鐘內啟動。維修主機作業開始後，執行個體會停止運作，且狀態會根據為執行個體指定的自動重新啟動 (`automaticRestart`) 設定而變更：如果執行個體已啟用自動重新啟動功能，執行個體狀態會變更為 `REPAIRING`。除非您事先停止執行個體，否則當主機恢復正常時，執行個體會自動重新啟動。如果停用執行個體的自動重新啟動功能，執行個體狀態會變更為 `TERMINATED`。主機恢復正常後，您必須手動重新啟動執行個體。維修故障主機可能需要 3 到 14 天，有時甚至更久。重新啟動執行個體：主機維修作業完成後 (通常需要 3 到 14 天)，會發生下列其中一種情況：如果執行個體處於 `REPAIRING` 狀態，且資源在修復完成時可用，Compute Engine 會自動在修復後的主機上重新啟動執行個體。否則，如果執行個體處於 `TERMINATED` 狀態，或資源在修復完成時無法使用，執行個體狀態會維持或變更為 `TERMINATED`。如要執行執行個體，請手動重新啟動執行個體。不過，如果重新啟動執行個體時沒有可用資源，執行個體可能會無法重新啟動；舉例來說，如果其他執行個體已使用修復的主機，就會發生這種情況。	如果代管模式下執行的運算執行個體發生主機故障，回報後會發生下列情況：回報出錯的主機：在回報出錯的主機作業期間，執行個體會維持 `RUNNING` 狀態，通常需要 10 到 12 分鐘才能完成。如要查看作業狀態，請參閱本文中的「查看回報主機故障作業」。開始修復主機：回報主機故障作業完成後，主機修復作業會在 1 分鐘內啟動。維修主機作業開始後，執行個體會停止運作，且狀態會根據為執行個體指定的自動重新啟動 (`automaticRestart`) 設定而變更：如果執行個體已啟用自動重新啟動功能，執行個體狀態會變更為 `REPAIRING`。除非您事先停止執行個體，否則當主機恢復正常時，執行個體會自動重新啟動。如果停用執行個體的自動重新啟動功能，執行個體狀態會變更為 `TERMINATED`。主機恢復正常後，您必須手動重新啟動執行個體。維修故障主機可能需要 3 到 14 天，有時甚至更久。遷移並重新啟動執行個體：主機修復作業開始後 (通常需要 10 到 12 分鐘)，Compute Engine 會嘗試預留一個主機，以取代預留容量中回報有問題的主機。如果 Compute Engine 找到正常運作的主機 (成功更換故障主機，或在預留容量中找到相符的正常主機)，就會將執行個體遷移至該主機。接著，透過下列其中一種方式重新啟動執行個體：如果執行個體處於 `REPAIRING` 狀態，且在修復完成前或完成時有可用資源，Compute Engine 會自動在正常運作的主機上重新啟動執行個體。否則，如果執行個體處於 `TERMINATED` 狀態，或在修復完成前或完成時沒有可用資源，執行個體狀態會維持或變更為 `TERMINATED`。如要執行執行個體，必須手動重新啟動執行個體。不過，如果重新啟動執行個體時沒有可用資源，執行個體可能會無法重新啟動；舉例來說，如果其他執行個體已使用修復的主機，就會發生這種情況。

如果執行個體是以所有容量模式執行，回報主機故障時會發生下列情況：

回報出錯的主機：在回報出錯的主機作業期間，執行個體會維持 RUNNING 狀態，通常需要 10 到 12 分鐘才能完成。如要查看作業狀態，請參閱本文中的「查看報告中發生錯誤的主機作業」。
修復主機：回報主機故障作業完成後，主機修復作業會在 1 分鐘內啟動。

維修主機作業開始後，執行個體會停止運作，且狀態會根據為執行個體指定的自動重新啟動 (automaticRestart) 設定而變更：
- 如果執行個體已啟用自動重新啟動功能，執行個體狀態會變更為 REPAIRING。除非您事先停止執行個體，否則當主機恢復正常時，執行個體會自動重新啟動。
- 如果停用執行個體的自動重新啟動功能，執行個體狀態會變更為 TERMINATED。主機恢復正常後，您必須手動重新啟動執行個體。
維修故障主機可能需要 3 到 14 天，有時甚至更久。
重新啟動執行個體：主機維修作業完成後 (通常需要 3 到 14 天)，會發生下列其中一種情況：
- 如果執行個體處於 REPAIRING 狀態，且資源在修復完成時可用，Compute Engine 會自動在修復後的主機上重新啟動執行個體。
- 否則，如果執行個體處於 TERMINATED 狀態，或資源在修復完成時無法使用，執行個體狀態會維持或變更為 TERMINATED。如要執行執行個體，請手動重新啟動執行個體。不過，如果重新啟動執行個體時沒有可用資源，執行個體可能會無法重新啟動；舉例來說，如果其他執行個體已使用修復的主機，就會發生這種情況。

如果代管模式下執行的運算執行個體發生主機故障，回報後會發生下列情況：

回報出錯的主機：在回報出錯的主機作業期間，執行個體會維持 RUNNING 狀態，通常需要 10 到 12 分鐘才能完成。如要查看作業狀態，請參閱本文中的「查看回報主機故障作業」。
開始修復主機：回報主機故障作業完成後，主機修復作業會在 1 分鐘內啟動。

維修主機作業開始後，執行個體會停止運作，且狀態會根據為執行個體指定的自動重新啟動 (automaticRestart) 設定而變更：
- 如果執行個體已啟用自動重新啟動功能，執行個體狀態會變更為 REPAIRING。除非您事先停止執行個體，否則當主機恢復正常時，執行個體會自動重新啟動。
- 如果停用執行個體的自動重新啟動功能，執行個體狀態會變更為 TERMINATED。主機恢復正常後，您必須手動重新啟動執行個體。
維修故障主機可能需要 3 到 14 天，有時甚至更久。
遷移並重新啟動執行個體：主機修復作業開始後 (通常需要 10 到 12 分鐘)，Compute Engine 會嘗試預留一個主機，以取代預留容量中回報有問題的主機。如果 Compute Engine 找到正常運作的主機 (成功更換故障主機，或在預留容量中找到相符的正常主機)，就會將執行個體遷移至該主機。接著，透過下列其中一種方式重新啟動執行個體：
- 如果執行個體處於 REPAIRING 狀態，且在修復完成前或完成時有可用資源，Compute Engine 會自動在正常運作的主機上重新啟動執行個體。
- 否則，如果執行個體處於 TERMINATED 狀態，或在修復完成前或完成時沒有可用資源，執行個體狀態會維持或變更為 TERMINATED。如要執行執行個體，必須手動重新啟動執行個體。不過，如果重新啟動執行個體時沒有可用資源，執行個體可能會無法重新啟動；舉例來說，如果其他執行個體已使用修復的主機，就會發生這種情況。