透過 H4D 執行個體加強 HPC 叢集管理

進階 HPC 叢集管理功能可讓您執行大規模、密集部署的 HPC 叢集,並提供下列叢集管理功能:

HPC 基礎架構資源共置

使用 H4D 執行個體時,您可以要求 Compute Engine 盡可能緊密地佈建執行個體,這些機器提供下列功能:

  • Compute Engine 會將機器佈建為資源區塊

  • 透過支援 Cloud RDMA 的 200 Gbps 網路,提升工作負載的擴充性。

這種資源配置方式可減少網路躍點,並將網路延遲時間降到最低。如要進一步瞭解如何取得容量,以部署密集分配的機器區塊,請參閱「建立具有強化管理功能的高效能運算叢集」。

叢集拓撲感知刊登位置

建立 H4D VM 或叢集後,您可以在節點和叢集層級取得拓撲資訊。這項資訊有助於您執行下列操作:

  • 調整應用程式或工作負載設計,進一步縮短網路延遲時間。

  • 瞭解並排解 VM 的網路延遲和效能問題,這些 VM 之間經常通訊。如果 VM 意外相距很遠,就可能發生這些問題。

詳情請參閱「查看 VM 拓撲」。

管理 H4D VM 的維護和復原作業

預留容量來建立 H4D VM 或叢集時, Google Cloud 系統會在主機發生錯誤或回報主機故障時,自動管理 VM 的維護和復原程序。這種做法稱為「受管理模式」,非常適合需要高穩定性,且需要自動化程序來盡量減少停機時間的工作負載。

代管模式具有下列功能:

  • 僅使用預留容量進行復原:Compute Engine 只會使用預留容量重新啟動 VM。如果預留項目沒有可用容量,Compute Engine 只會在您取得更多容量後重新啟動 VM。

  • 自動重新啟動 VM: Google Cloud 處理 VM 的整個復原程序。需要進行主機維護時,Compute Engine 會自動將 VM 遷移至預訂中的其他可用機器,並重新啟動 VM。

  • 封鎖管理和可見度:您可以查看個別預訂和預訂區塊的拓撲、健康狀態和維護狀態。您也可以接收這些資源的維護通知,並選擇在排定的維護時間前開始維護作業。

  • 可能的 API 頻率限制:每個預訂呼叫 report faulty host API 的頻率可能受到限制。

叢集維護排程和控制項

您可以在資源區塊中使用拓撲感知排程,控管 H4D 執行個體的維護作業。這項功能有助於同步升級,讓工作負載更能因應主機事件,並盡量減少中斷。

如要全面掌控維護事件,可以使用下列功能:

維護作業排程類型

預留容量來建立 VM 或 H4D VM 執行個體叢集時,您可以定義 Compute Engine 維護 VM 執行所在基礎架構的方式。您可以指定要將 VM 分組並同步排定維護作業 (grouped),也可以讓 VM 鬆散耦合並獨立排定維護作業 (independent)。

分組維護排程

無論 Compute Engine 何時佈建 VM,分組維護排程類型都能確保執行相同工作負載的所有 VM,都具有相同的預定維護頻率。這項緊密結合的維護作業可讓您完全掌控已用和未用的容量,進而最佳化作業效能。

在下列情況中,群組維護作業排程類型非常實用:

  • 您的環境使用作業排程器,例如 Slurm 或 Google Kubernetes Engine。
  • 您想執行高度平行化的運算工作負載。

獨立維護時間表

獨立維護排程類型會為 VM 提供不同的維護排程。如果工作負載在 VM 採用個別維護時間表時,能更有效率地執行,就非常適合使用這項設定。

管理主辦人活動

建立 H4D VM 並啟動工作負載後,您可以設定快訊,並在系統排定、開始或完成 VM 或預留區塊的維護作業時收到通知。您也可以在排定的時間之前,查看 VM 或預留區塊的維護作業,並視需要手動啟動。這些選項可協助您主動控制工作負載,並將停機時間降到最低。

如要瞭解詳情,請參考下列資源:

叢集監控和診斷工具

如要監控及排解問題,H4D 執行個體包含錯誤主機回報服務,可用於標記個別主機的問題。

後續步驟