叢集管理功能

A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 系列機器專為執行大規模人工智慧 (AI) 和機器學習 (ML) 叢集而設計，並提供下列叢集管理功能：

AI 基礎架構資源共置
叢集拓撲感知存放位置
叢集作業模式
叢集維護排程和控制項
叢集監控和診斷工具

AI 基礎架構資源共置

使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 時，您可以要求 Compute Engine 盡可能緊密佈建的主機。這些機器提供下列功能：

Compute Engine 會將機器佈建為資源區塊。
動態機器學習 (ML) 網路架構可互連機器。

這種資源配置可大幅減少網路躍點，並將網路延遲降至最低。如要進一步瞭解如何取得容量，以部署密集分配的加速器最佳化機器區塊，請參閱「容量總覽」。

叢集拓撲感知存放位置

使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器類型建立運算執行個體後，即可在節點和叢集層級取得拓撲資訊。這項資訊有助於您執行下列操作：

調整應用程式或工作負載設計，進一步縮短網路延遲時間。
瞭解並排解執行個體間頻繁通訊時的網路延遲和效能問題。如果執行個體意外相距很遠，就可能發生這些問題。

詳情請參閱「查看運算執行個體拓撲」。

叢集運作模式

使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器類型預留容量，以建立運算執行個體或叢集時，預留的機器類型會決定執行個體的叢集運作模式。這個模式會指定執行個體在主機錯誤或主機回報錯誤後，應採取的行為。執行個體有兩種運作模式：代管模式，Compute Engine 會自動更換任何故障的機器，但會保留部分預留容量，確保執行個體有足夠的資源可重新啟動。或是所有容量模式，您可存取所有預留容量，但要負責管理故障和排定的維護作業。

詳情請參閱「預訂作業模式」。

叢集維護排程和控制項

您可以在資源區塊中使用拓撲感知排程，控管 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器的維護作業。這項功能有助於同步升級，讓工作負載更能因應主機事件，並盡量減少中斷。這種做法有助於提升工作負載的有效輸送量。

如要全面掌控維護事件，可以使用下列功能：

維護作業排程類型
管理主機事件

維護作業排程類型

預留容量來建立運算執行個體或 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器叢集時，您可以定義 Compute Engine 維護執行個體所用基礎架構的方式。您可以根據要用於執行個體的機器類型，選擇在執行個體間同步維護 (分組)，或選擇不同的維護時間表 (獨立)。

詳情請參閱維護排程類型。

管理主辦人活動

建立 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 執行個體並啟動工作負載後，您可以設定快訊，在系統排定、開始或完成執行個體或預留區塊的維護作業時收到通知。您也可以在排定時間前，查看執行個體或預留區塊的維護時間，並視需要手動啟動維護作業。這些選項可協助您主動控管工作負載，並將停機時間降到最低。

如要瞭解詳情，請參考下列資源：

叢集監控和診斷工具

如要監控及排解問題，A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機型包含下列服務：

VM 健康狀態下降預測，可協助您找出可能在接下來五小時內健康狀態下降的 VM。
回報出錯的主機，可用於標記個別主機的問題。
支援 Cloud Monitoring 指標，可協助您監控網路和 GPU 效能。