本頁面說明如何管理 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器的 AI 最佳化 Google Kubernetes Engine (GKE) 叢集,包括下列與 GKE 叢集和 AI 工作負載相關的常見事件:
- 主機維護
- 叢集升級
- 回報出錯的主機
管理 AI 工作負載的主機維護作業
GKE 節點會在 Compute Engine 執行個體上執行,這些執行個體會定期發生主機事件,可能導致 AI 工作負載中斷。由於主機事件發生在底層Google Cloud 基礎架構上,因此會略過 GKE 維護期間和排除項目。雖然大多數運算執行個體的宿主維護政策都設為即時遷移,可盡量減少工作負載中斷,但 GPU 和 TPU不支援即時遷移。當這些主機事件影響執行 AI 工作負載的 GKE 節點時,GKE 必須終止節點和節點上執行的 Pod。如果 Pod 是以較大型工作負載 (例如 Job 或 Deployment) 的一部分部署,GKE 會嘗試在受影響的節點上重新啟動 Pod。
如要進一步瞭解如何管理基礎運算執行個體的主機維護作業,請參閱「管理 GPU 和 TPU 的 GKE 節點中斷」。
監控主機維護事件
如果叢集執行的是 GKE 1.31.1-gke.2008000 以上版本,您可以透過下列方式查看主機維護事件的排定開始時間。所有 GPU 和 TPU 的啟動時間,都會以對應 GKE 節點上的 Kubernetes 節點標籤表示。
詳情請參閱「監控維護通知」。
有了這些節點標籤,您就能執行下列操作:
手動啟動主機維護事件
Compute Engine 發出排定維護事件的通知後,您可以在符合排程的時間手動啟動維護作業。舉例來說,您可以選擇在活動量較少的期間執行維護作業。
如果您未手動啟動主機維護事件,Compute Engine 會自動完成定期排定的維護作業。
按照操作說明手動啟動主機維護事件。此外,請繼續閱讀本節,瞭解下列事項:
排定工作負載時,請使用主機維護資訊
您可以搭配使用透過 GKE 節點標籤顯示的維護資訊,以及節點親和性和反親和性,盡量減少工作負載中斷情形。
請參閱下列各節,瞭解如何使用這項資訊。
將 Pod 指派到沒有排定未來維護作業的節點
您可以指示 GKE 只將 Pod 排定至沒有未來排定維護事件的節點,例如使用下列程式碼片段:
spec:
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: cloud.google.com/scheduled-maintenance-time
operator: DoesNotExist
將 Pod 排定至維護作業排定在特定日期後的節點
您可以提供 Unix 紀元時間,指示 GKE 只將 Pod 排程至在特定日期後排定維護作業的節點:
spec:
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: cloud.google.com/scheduled-maintenance-time
operator: Gt
values:
- 1733296000
管理 AI 工作負載的 GKE 叢集升級
AI 工作負載容易受到中斷影響。
在 GKE 叢集的生命週期中,AI 工作負載必須準備好因應基礎運算執行個體和 GKE 叢集本身的中斷情況:
- 主機維護:如要管理基礎運算執行個體的主機維護作業,請參閱「管理 GPU 和 TPU 的 GKE 節點中斷」。先前的章節也說明瞭這一點。
- 叢集升級:如要管理叢集升級造成的服務中斷,可以使用下列工具:
建議您讓叢集註冊發布管道。根據預設,GKE 叢集會註冊一般發布管道。如要進一步瞭解發布版本的優點,請參閱「已註冊和未註冊發布版本的叢集比較」。
透過發布管道,您可以存取更多功能,包括額外的維護排除範圍。建議您為 AI 工作負載選擇「不執行任何次要或節點升級作業」範圍。
透過 GKE 回報出錯的主機
本節說明如何透過 GKE 回報有問題的主機,該主機已使用預訂繫結佈建模型佈建運算執行個體。如果想回報使用「彈性啟動」佈建模式 (搶先版) 佈建節點時發生故障的主機,請改為與帳戶團隊聯絡。
主機是資料中心內的單一實體伺服器,執行運算執行個體,用於託管 GKE 節點。如要回報有問題的主機,請將 fault-behavior 節點標籤套用至受影響的 GKE 節點。將節點標籤套用至特定 GKE 節點後,GKE 會執行下列步驟:
- 按程序從節點撤出工作負載。
- 防止在節點上排程新的 Pod。
- 在運算執行個體上呼叫 API,將主機標示為有故障。
- 等待運算執行個體在運作正常的主機上重新啟動。如果預訂項目使用所有容量預訂作業模式,Compute Engine 會在修復作業完成後,將運算執行個體還原至同一節點。
- 從節點中移除汙染和
fault-behavior標籤。
完成後,節點即可再次處理工作負載。
需求條件
如要回報出錯的主機,GKE 節點必須符合下列規定:
- 您必須執行 GKE 修補程式版本 1.32.3-gke.1057001 以上版本。
- 您必須執行下列其中一種 GPU 機器類型:A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU)。
- 您必須在與預訂項目綁定的運算執行個體上執行 GKE 節點。
- GKE 節點必須處於
RUNNING狀態。如果您在刪除運算執行個體後嘗試回報主機故障,系統會傳回錯誤訊息,且不會將主機標示為故障。 - 根據街區健康狀態的評估結果,系統可能會限制您每月每項預訂可呼叫此 API 的次數。如果預留項目使用全容量預留項目運作模式,則不適用速率限制。
回報出錯的主機
如要回報出錯的主機:
使用 GKE 可觀測性工具、您自己的監控工具或記錄檔,找出發生效能問題的 GKE 節點。儲存
NODE_NAME。將節點回報為有錯誤:
kubectl label nodes NODE_NAME cloud.google.com/fault-behavior=FAULT_REASON更改下列內容:
NODE_NAME:故障節點的名稱。FAULT_REASON:適當的錯誤原因,請使用下列一或多個值:PERFORMANCE:如果運算執行個體上的 GPU 比叢集中的其他 GPU 慢,且記錄檔中沒有任何 XID 錯誤,也沒有偵測到任何其他常見的失敗模式 (例如無聲資料損毀),請使用這個值。SDC:如果發現資料損毀,但系統並未當機,請使用這個值處理無聲資料損毀問題。CPU 缺陷、軟體錯誤 (例如使用已釋放記憶體或記憶體踩踏)、核心問題或其他缺陷,都可能導致資料損毀。這個詞彙最常指稱硬體造成的瑕疵。XID:如果您發現運算執行個體發生無法復原的 GPU 錯誤,且有 XID,請使用這個值。unspecified:如果您不確定是哪種行為導致運算執行個體發生問題,請使用這個值。這是預設值。但如果適用,建議您指定其他值。
reservationOperationalMode 欄位。下表大致列出兩種可用的預訂作業模式 (所有容量模式和管理模式) 的主機程序錯誤。所有容量模式 (ALL_CAPACITY) |
受管理模式 (HIGHLY_AVAILABLE_CAPACITY) |
|
|---|---|---|
| 支援的機型 | A4X Max 和 A4X | A4、A3 Ultra、A3 Mega 和 A3 High |
| Faulty host report API 頻率限制 | 沒有匯率限制。 | 對 API 的呼叫可能會受到速率限制。 |
| 主機故障回報程序 |
如果節點以所有容量模式執行,回報出錯的主機時會發生下列情況:
|
如果節點以代管模式執行,回報出錯的主機時會發生下列情況:
|
監控作業進度
您可以使用 GKE 節點上的 cloud.google.com/report-and-replace-status 節點標籤,監控 GKE 作業的進度。這個標籤會顯示下列其中一個值:
PodsEvicted:GKE 已完成從受影響節點逐出 Pod 的作業。OperationRUNNING:正在執行回報出錯主機的作業。OperationDone:底層主機已回報為故障,且 GKE 節點已準備好移至新主機Error:API 呼叫失敗,原因包括不符合上一節所述的規定。
您也可以查看 cloud.google.com/report-and-replace-operation 節點標籤,瞭解 Compute Engine 作業 ID,以便監控作業狀態。
您可以使用下列指令查看這兩個節點標籤:
kubectl get nodes NODE_NAME \
-L cloud.google.com/report-and-replace-status,cloud.google.com/report-and-replace-operation
如有任何 API 錯誤,GKE 會設定節點標籤 cloud.google.com/report-and-replace-status=ERROR。GKE 會清除節點汙點,並移除 cloud.google.com/fault-behavior 節點標籤。
如要瞭解如何追蹤回報出錯主機作業的詳細狀態,請參閱「查看回報出錯主機作業」。
如要針對速率限制等暫時性錯誤重試作業,請將 cloud.google.com/fault-behavior 標籤重新套用至節點。