A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 系列機器專為執行大規模人工智慧 (AI) 和機器學習 (ML) 叢集而設計,並提供下列叢集管理功能:
AI 基礎架構資源共置
使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 時,您可以要求 Compute Engine 盡可能緊密佈建的主機。這些機器提供下列功能:
Compute Engine 會將機器佈建為資源區塊。
動態機器學習 (ML) 網路架構可互連機器。
這種資源配置可大幅減少網路躍點,並將網路延遲降至最低。如要進一步瞭解如何取得容量,以部署密集分配的加速器最佳化機器區塊,請參閱「容量總覽」。
叢集拓撲感知存放位置
使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器類型建立運算執行個體後,即可在節點和叢集層級取得拓撲資訊。這項資訊有助於您執行下列操作:
調整應用程式或工作負載設計,進一步縮短網路延遲時間。
瞭解並排解執行個體間頻繁通訊時的網路延遲和效能問題。如果執行個體意外相距很遠,就可能發生這些問題。
詳情請參閱「查看運算執行個體拓撲」。
叢集運作模式
使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器類型預留容量,以建立運算執行個體或叢集時,預留的機器類型會決定執行個體的叢集運作模式。這個模式會指定執行個體在主機錯誤或主機回報錯誤後,應採取的行為。執行個體有兩種運作模式:代管模式,Compute Engine 會自動更換任何故障的機器,但會保留部分預留容量,確保執行個體有足夠的資源可重新啟動。或是所有容量模式,您可存取所有預留容量,但要負責管理故障和排定的維護作業。
詳情請參閱「預訂作業模式」。
叢集維護排程和控制項
您可以在資源區塊中使用拓撲感知排程,控管 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器的維護作業。這項功能有助於同步升級,讓工作負載更能因應主機事件,並盡量減少中斷。這種做法有助於提升工作負載的有效輸送量。
如要全面掌控維護事件,可以使用下列功能:
維護作業排程類型
預留容量來建立運算執行個體或 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器叢集時,您可以定義 Compute Engine 維護執行個體所用基礎架構的方式。您可以根據要用於執行個體的機器類型,選擇在執行個體間同步維護 (分組),或選擇不同的維護時間表 (獨立)。
詳情請參閱維護排程類型。
管理主辦人活動
建立 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 執行個體並啟動工作負載後,您可以設定快訊,在系統排定、開始或完成執行個體或預留區塊的維護作業時收到通知。您也可以在排定時間前,查看執行個體或預留區塊的維護時間,並視需要手動啟動維護作業。這些選項可協助您主動控管工作負載,並將停機時間降到最低。
如要瞭解詳情,請參考下列資源:
叢集監控和診斷工具
如要監控及排解問題,A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機型包含下列服務:
VM 健康狀態下降預測,可協助您找出可能在接下來五小時內健康狀態下降的 VM。
回報出錯的主機,可用於標記個別主機的問題。
支援 Cloud Monitoring 指標,可協助您監控網路和 GPU 效能。