Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

透過 H4D 執行個體加強 HPC 叢集管理

進階 HPC 叢集管理功能可讓您執行大規模、密集部署的 HPC 叢集，並提供下列叢集管理功能：

HPC 基礎架構資源共置

使用 H4D 執行個體時，您可以要求 Compute Engine 盡可能緊密地佈建執行個體，這些機器提供下列功能：

這種資源配置方式可減少網路躍點，並盡量縮短網路延遲時間。如要進一步瞭解如何取得容量，以部署密集分配的機器區塊，請參閱「建立具有強化管理功能的高效能運算叢集」。

建立 VM 或 H4D VM 叢集後，您可以在節點和叢集層級取得拓撲資訊。這項資訊有助於您執行下列操作：

預留容量來建立 H4D VM 或叢集時， Google Cloud會在主機發生錯誤或主機回報錯誤時，自動管理 VM 的維護和復原程序。這種做法稱為「受管理模式」，非常適合需要高穩定性，且需要自動化程序來盡量減少停機時間的工作負載。

代管模式提供下列功能：

僅使用預留容量進行復原：Compute Engine 只會使用預留容量重新啟動 VM。如果預留容量不足，Compute Engine 只會在您取得更多容量後重新啟動 VM。
自動重新啟動 VM： Google Cloud 處理 VM 的整個復原程序。需要進行主機維護時，Compute Engine 會自動將 VM 遷移至預留空間內的其他可用機器，並重新啟動 VM。
封鎖管理和可見度：您可以查看個別預訂和預訂區塊的拓撲、健康狀態和維護狀態。您也可以接收這些資源的維護通知，並選擇在排定的維護時間前開始維護作業。
可能的 API 頻率限制：每個預訂呼叫 report faulty host API 的頻率可能受到限制。

您可以在資源區塊中使用拓撲感知排程，控管 H4D 執行個體的維護作業。這項功能有助於同步升級，讓工作負載更能因應主機事件，並盡量減少中斷。

如要全面掌控維護事件，可以使用下列功能：

預留容量來建立 VM 或 H4D VM 執行個體叢集時，您可以定義 Compute Engine 維護 VM 執行所在基礎架構的方式。您可以指定要將 VM 分組並同步排定維護時間 (grouped)，或是將 VM 鬆散地連結並獨立排定維護時間 (independent)。

分組維護排程

無論 Compute Engine 何時佈建 VM，分組維護排程類型都能確保執行相同工作負載的所有 VM，都具有相同的預定維護頻率。這項緊密結合的維護作業可讓您完全掌控已用和未用的容量，進而最佳化作業效能。

在下列情況中，群組維護作業排程類型非常實用：

獨立維護時間表

獨立維護排程類型會為 VM 提供不同的維護排程。如果工作負載在 VM 採用個別維護時間表時，能更有效率地執行，就非常適合使用這項設定。

建立 H4D VM 並啟動工作負載後，您可以設定快訊，在 VM 或預留區塊排定、開始或完成維護作業時收到通知。您也可以在排定的時間之前，查看 VM 或預留區塊的維護作業，並視需要手動啟動。這些選項可協助您主動控管工作負載，並將停機時間降到最低。

如要瞭解詳情，請參考下列資源：

如要監控及排解問題，H4D 執行個體包含「Faulty host reporting」服務，可用於標記個別主機的問題。