本文將說明如何在維護作業期間,盡量減少對 GPU 工作負載造成的干擾。
當 Compute Engine 對已附加圖形處理器 (GPU) 的 Compute Engine 執行個體執行維護作業時,必須停止運算執行個體。這是因為附加 GPU 的運算執行個體無法即時遷移。
您必須將這些運算執行個體設為在主機維護事件期間停止。您可以設定在維護事件完成後自動重新啟動已停止的運算執行個體。
主機維護作業通常每兩週執行一次,但有時可能會更頻繁地執行。如果發生故障或主機錯誤,附加 GPU 的 Compute 執行個體可能需要一小時才能終止。
在維護事件前收到通知
您可以監控 Compute Engine 執行個體的維護時間表,並為工作負載做好準備,以在重新啟動系統時進行轉換。
如要接收主機事件的進階通知,請監控 /computeMetadata/v1/instance/maintenance-event 中繼資料值。如果傳送至中繼資料伺服器的要求傳回 NONE,表示運算執行個體未排定停止。舉例來說,請在運算執行個體內執行下列指令:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONE如果中繼資料伺服器傳回 TERMINATE_ON_HOST_MAINTENANCE,則表示已排定運算執行個體的停止時間。如果運算執行個體已附加 GPU,Compute Engine 會在運算執行個體停止前 1 小時發出通知。
對於 A3 等部分 GPU 機器系列,Compute Engine 會透過 upcoming-maintenance 中繼資料屬性,提前一小時以上通知即將進行的維護作業。詳情請參閱「監控及規劃主機維護事件」。
請設定應用程式,以便在維護作業過程中進行轉換。舉例來說,您可以採用下列任一方式:
您可以根據這些通知設定應用程式,以便在主機維護事件期間進行轉換。舉例來說,請參閱本文中的「將暫時資料從本機 SSD 磁碟遷移」一節。
將暫時性資料從本機 SSD 磁碟遷移出去
由於本機 SSD 資料保存,每當 Compute Engine 因主機維護事件停止運算執行個體時,附加至運算執行個體的任何本機 SSD 磁碟上的資料都無法復原。如要避免資料遺失,請設定工作負載,在停止運算執行個體前,將資料從本機 SSD 磁碟遷移出去。舉例來說,您可以採用下列任一方式:
將應用程式設為暫時將執行中的工作轉移到 Cloud Storage 值區,再於運算執行個體重新啟動之後擷取相關資料。
將資料寫入次要永久磁碟。運算執行個體自動重新啟動時,重新連結永久磁碟就能讓應用程式恢復運作。
後續步驟
- 進一步瞭解 GPU 平台。
- 如要進一步瞭解如何管理運算執行個體群組,以及如何為運算執行個體群組調度資源,請參閱設定群組的目標大小。
- 如要監控 GPU 效能,請參閱「監控 GPU 效能」。
- 如要提升網路效能,請參閱「使用較高的網路頻寬」。
- 瞭解如何排解 VM 關機和重新啟動的問題。