回報出錯的主機

如果發現預留 H4D VM 發生問題，且無法以其他方式解決 (例如 RDMA 裝置持續發生錯誤)，建議您回報主機故障。回報主機故障時，Compute Engine 會將主機回報為故障，然後執行主機維護作業，自動修復 VM。對於 H4D VM，Compute Engine 會在維護作業開始時，嘗試將 VM 遷移至其他主機，這有助於盡量縮短工作負載的停機時間。

本文說明如何回報及修復虛擬機器 (VM) 執行個體 (屬於 VM 叢集) 的故障主機。如果是 Google Kubernetes Engine (GKE) 叢集，請參閱「透過 GKE 報告故障主機」。

限制

回報出錯的主機時，請注意下列限制：

只有在主機上執行的 VM 符合下列所有條件時，您才能回報主機有錯誤：
- VM 正在執行中。
- VM 使用 H4D 機器類型。
- VM 使用取決於預留項目的佈建模式。
  
  注意： 如果執行中的 H4D VM 使用不同的佈建模型，但您仍想將其主機回報為故障，請與帳戶團隊聯絡。
Google Cloud 會盡力滿足所有回報主機故障的要求。不過，由於容量限制或速率限制，要求不一定都能完成。

事前準備

Select the tab for how you plan to use the samples on this page:
Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST

如要在本機開發環境中使用本頁的 REST API 範例，請使用您提供給 gcloud CLI 的憑證。
詳情請參閱 Google Cloud 驗證說明文件中的「使用 REST 進行驗證」。

必要的角色

如要取得回報主機故障所需的權限，請要求管理員授予下列 IAM 角色：

Compute 執行個體管理員 (v1) (roles/compute.instanceAdmin.v1) VM 或專案的權限
如要使用 Cloud Logging 查看有問題的主機報告作業狀態，請按照下列步驟操作：在專案中開啟記錄檢視器 roles/logging.viewer。

如要進一步瞭解如何授予角色，請參閱「管理專案、資料夾和組織的存取權」。

這些預先定義的角色具備回報主機故障所需的權限。如要查看確切的必要權限，請展開「Required permissions」(必要權限) 部分：

所需權限

如要回報主機故障，必須具備下列權限：

如要建立出錯主機報告，請在 VM 上執行 compute.instances.update。
如要使用 Logging 查看作業清單，請按照以下步驟操作： logging.operations.list 專案
如要使用 Logging 查看作業詳細資料，請執行下列步驟： logging.operations.get 在專案中
如要查看 Compute Engine 中的作業清單： compute.zoneOperations.list 在專案中
如要查看 Compute Engine 作業的詳細資料： compute.zoneOperations.describe 在專案中

您或許還可透過自訂角色或其他預先定義的角色取得這些權限。

瞭解出錯主機回報程序

回報 H4D VM 的主機故障後，H4D VM 的重新啟動時間會因您用來建立 VM 的預訂項目預訂作業模式而異。如要驗證預訂項目的預訂作業模式，請查看預訂項目中的 reservationOperationalMode 欄位。

受管理模式 (HIGHLY_AVAILABLE_CAPACITY)

支援的機器類型 H4D

Faulty host report API 頻率限制對 API 的呼叫可能會受到速率限制。

回報出錯主機的程序

	受管理模式 (`HIGHLY_AVAILABLE_CAPACITY`)
支援的機器類型	H4D
Faulty host report API 頻率限制	對 API 的呼叫可能會受到速率限制。
回報出錯主機的程序	如果為以受管理模式執行的 H4D VM 回報錯誤主機，會發生下列情況：回報有錯誤的主機：在回報作業期間，VM 會維持在 `RUNNING` 狀態，通常需要 10 到 12 分鐘才能完成。如要查看作業狀態，請參閱本文中的「查看報告中發生錯誤的主機作業」。開始修復主機：回報故障主機作業完成後，主機修復作業會在 1 分鐘內啟動。修復主機作業開始後，VM 會停止運作，狀態也會根據為 VM 指定的自動重新啟動 (`automaticRestart`) 設定而變更：如果 VM 啟用自動重新啟動功能，VM 狀態會變更為 `REPAIRING`。除非您在此之前停止 VM，否則 VM 會在主機恢復正常時自動重新啟動。如果 VM 已停用自動重新啟動功能，VM 狀態會變更為 `TERMINATED`。主機恢復正常後，您必須手動重新啟動 VM。維修故障主機可能需要 3 到 14 天，有時甚至更久。遷移並重新啟動 VM：主機修復作業開始後 (通常需要 10 到 12 分鐘)，Compute Engine 會嘗試預留一個主機，以取代預留容量中回報有故障的主機。如果 Compute Engine 找到正常主機 (成功更換故障主機，或在預留容量中找到相符的正常主機)，就會將 VM 遷移至該主機。然後透過下列其中一種方式重新啟動 VM：如果 VM 處於 `REPAIRING` 狀態，且在修復完成前或完成時有可用資源，Compute Engine 會自動在正常的主機上重新啟動 VM。否則，如果 VM 處於 `TERMINATED` 狀態，或在維修完成前或完成時沒有可用資源，VM 狀態會維持或變更為 `TERMINATED`。如要執行 VM，必須手動重新啟動 VM。不過，如果重新啟動 VM 時沒有可用資源 (例如其他 VM 已使用修復的主機)，VM 可能無法重新啟動。

如果為以受管理模式執行的 H4D VM 回報錯誤主機，會發生下列情況：

回報有錯誤的主機：在回報作業期間，VM 會維持在 RUNNING 狀態，通常需要 10 到 12 分鐘才能完成。如要查看作業狀態，請參閱本文中的「查看報告中發生錯誤的主機作業」。
開始修復主機：回報故障主機作業完成後，主機修復作業會在 1 分鐘內啟動。
修復主機作業開始後，VM 會停止運作，狀態也會根據為 VM 指定的自動重新啟動 (automaticRestart) 設定而變更：
- 如果 VM 啟用自動重新啟動功能，VM 狀態會變更為 REPAIRING。除非您在此之前停止 VM，否則 VM 會在主機恢復正常時自動重新啟動。
- 如果 VM 已停用自動重新啟動功能，VM 狀態會變更為 TERMINATED。主機恢復正常後，您必須手動重新啟動 VM。
維修故障主機可能需要 3 到 14 天，有時甚至更久。
遷移並重新啟動 VM：主機修復作業開始後 (通常需要 10 到 12 分鐘)，Compute Engine 會嘗試預留一個主機，以取代預留容量中回報有故障的主機。如果 Compute Engine 找到正常主機 (成功更換故障主機，或在預留容量中找到相符的正常主機)，就會將 VM 遷移至該主機。然後透過下列其中一種方式重新啟動 VM：
- 如果 VM 處於 REPAIRING 狀態，且在修復完成前或完成時有可用資源，Compute Engine 會自動在正常的主機上重新啟動 VM。
- 否則，如果 VM 處於 TERMINATED 狀態，或在維修完成前或完成時沒有可用資源，VM 狀態會維持或變更為 TERMINATED。如要執行 VM，必須手動重新啟動 VM。不過，如果重新啟動 VM 時沒有可用資源 (例如其他 VM 已使用修復的主機)，VM 可能無法重新啟動。