叢集管理功能

A4X MaxA4XA4A3 UltraA3 MegaA3 High (8 個 GPU) 系列機器專為執行大規模人工智慧 (AI) 和機器學習 (ML) 叢集而設計,並提供下列叢集管理功能:

AI 基礎架構資源共置

使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 時,您可以要求 Compute Engine 盡可能緊密佈建的主機。這些機器提供下列功能:

這種資源配置可大幅減少網路躍點,並將網路延遲降至最低。如要進一步瞭解如何取得容量,以部署密集分配的加速器最佳化機器區塊,請參閱「容量總覽」。

叢集拓撲感知存放位置

使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器類型建立運算執行個體後,即可在節點和叢集層級取得拓撲資訊。這項資訊有助於您執行下列操作:

  • 調整應用程式或工作負載設計,進一步縮短網路延遲時間。

  • 瞭解並排解執行個體間頻繁通訊時的網路延遲和效能問題。如果執行個體意外相距很遠,就可能發生這些問題。

詳情請參閱「查看運算執行個體拓撲」。

叢集運作模式

使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器類型預留容量,以建立運算執行個體或叢集時,預留的機器類型會決定執行個體的叢集運作模式。這個模式會指定執行個體在主機錯誤或主機回報錯誤後,應採取的行為。執行個體有兩種運作模式:代管模式,Compute Engine 會自動更換任何故障的機器,但會保留部分預留容量,確保執行個體有足夠的資源可重新啟動。或是所有容量模式,您可存取所有預留容量,但要負責管理故障和排定的維護作業。

詳情請參閱「預訂作業模式」。

叢集維護排程和控制項

您可以在資源區塊中使用拓撲感知排程,控管 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器的維護作業。這項功能有助於同步升級,讓工作負載更能因應主機事件,並盡量減少中斷。這種做法有助於提升工作負載的有效輸送量

如要全面掌控維護事件,可以使用下列功能:

維護作業排程類型

預留容量來建立運算執行個體或 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器叢集時,您可以定義 Compute Engine 維護執行個體所用基礎架構的方式。您可以根據要用於執行個體的機器類型,選擇在執行個體間同步維護 (分組),或選擇不同的維護時間表 (獨立)。

詳情請參閱維護排程類型

管理主辦人活動

建立 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 執行個體並啟動工作負載後,您可以設定快訊,在系統排定、開始或完成執行個體或預留區塊的維護作業時收到通知。您也可以在排定時間前,查看執行個體或預留區塊的維護時間,並視需要手動啟動維護作業。這些選項可協助您主動控管工作負載,並將停機時間降到最低。

如要瞭解詳情,請參考下列資源:

叢集監控和診斷工具

如要監控及排解問題,A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機型包含下列服務:

後續步驟