本文說明取得和使用 AI Hypercomputer 運算資源的各種方式,也就是計費模式。請根據工作負載、工作負載持續時間和費用需求,選擇最合適的選項。
每個消費選項都會指定下列內容:
如何存取容量來建立 VM 或叢集。
底層的佈建模式,這會決定 VM 的取得容易程度、生命週期和價格。
用量方案比較
下表摘要列出這兩種用量選項的主要差異:
| 用量方案 | AI Hypercomputer 的未來預留項目 | 最多 90 天的未來預留項目 (日曆模式) | 彈性啟動 | Spot |
|---|---|---|---|---|
| 支援的機器 | A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High | A4、A3 Ultra、A3 Mega 或 A3 High,搭配 8 個 GPU | 任何 GPU 機器 ,但 A4X Max 和 A4X 除外 | 任何 GPU 機器 (A4X Max 和 A4X 除外) |
| 效期 | 無限制 | 最多 90 天 | 最多 7 天 | 無限制 (但須遵守先占) |
| 先占 | ||||
| 容量保證 | 非常高。如果 Google Cloud 核准您的預留要求,您就能非常確定 Compute Engine 會佈建您要求的容量。 | 非常高。如果 Google Cloud 核准您的預留要求,您就能非常確定 Compute Engine 會佈建您要求的容量。 | 盡力而為。Compute Engine 會盡力排定您要求容量的佈建作業。 | 盡力而為。Compute Engine 會盡力佈建您要求的容量。 |
| 配額 | Google Cloud 會在提供容量前自動提高配額。 | 不會耗用配額。 | 耗用先占配額。 | 耗用先占配額。 |
| 定價 |
|
|
|
|
| 資源分配 | 密集 | 密集 | 盡可能密集 ( 密集政策或 工作負載政策為選用項目) | 標準 (精簡政策,選用) |
| 佈建模型 | 取決於預留項目 | 取決於預留項目 | 彈性啟動 | Spot |
| 建立方式 |
如要建立 VM,請執行下列操作:
|
如要建立 VM,請執行下列操作:
|
要求建立彈性啟動 VM 時,Compute Engine 會根據可用性排定 VM 建立作業。有可用容量時,Compute Engine 會佈建彈性啟動 VM。如要建立彈性啟動 VM,請使用「部署選項總覽」一文所述的任一方法。 |
您可以使用「部署選項總覽」一文所述的任一方法,立即建立 VM。 |
選擇使用選項
請使用下列流程圖,選擇最符合工作負載需求的計費方案:

上圖中的問題如下:
需要超過 90 天的運算資源嗎?
是:請參閱「 在 AI Hypercomputer 中使用未來預留項目」。
否:請前往問題 2。
需要預留容量嗎?
是:請參閱在日曆模式中使用未來預留項目。
否:請前往問題 3。
工作負載是否具備容錯能力?
在 AI Hypercomputer 中使用未來預留項目
如要執行需要密集分配資源的大型分散式工作負載,您可以預先要求運算資源,在該期間,您擁有預留資源的獨占存取權,並可使用這些資源建立 VM 或叢集。預留項目期限結束時,Compute Engine 會執行下列操作:
- Compute Engine 會刪除預留項目。
- 根據您為 VM 指定的終止動作,Compute Engine 會停止或刪除使用預留項目的任何 VM。
AI Hypercomputer 未來預留項目的理想工作負載
未來預留項目非常適合下列工作負載:
預先訓練基礎模型
多主機基礎模型推論
AI Hypercomputer 中未來預留項目的主要特徵
未來預留項目具有下列特性:
-
您可以預留 A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High (8 個 GPU) 機型。 機器會密集配置,以縮短網路延遲。
-
您可以預留任意數量的 VM,預留時間長度不限,但必須從未來日期開始。在預留期限結束前,使用預留資源建立及執行 VM。如果您預留資源一年以上,則必須購買並附上依資源計算的承諾使用合約。
-
預留期間開始後,您可以按照下列步驟修改自動建立的預留項目:
-
您使用「取決於預留項目」的佈建模式,可享有下列優點:
您更有機會取得 GPU。
除了附加至 VM 的承諾,您還可享有 vCPU 和 GPU 最高 53% 的折扣。
如何在 AI Hypercomputer 中使用未來預留項目
如要使用未來預留項目建立 VM 或叢集,請完成下列步驟:
-
要求預留容量。聯絡帳戶團隊並指定要預留的資源。Google 會根據可用性為您建立預留要求草稿。如果資訊正確無誤,即可提交。 Google Cloud 會立即核准預訂要求。
如需操作說明,請參閱「預留容量」。
-
使用保留的資源。在所選預留期間開始時,您可以使用預留項目建立 VM 或叢集。
如要瞭解建立 VM 或叢集的不同方法,請參閱「部署選項總覽」。
在日曆模式中使用未來預留項目
如要執行需要密集分配資源的短期分散式工作負載,您可以要求最多 90 天的運算資源。在該段時間內,您擁有預留資源的獨占存取權,並可使用這些資源建立 VM 或叢集。預留項目期限結束時,Compute Engine 會執行下列操作:
- Compute Engine 會刪除預留項目。
- 根據您為 VM 指定的終止動作,Compute Engine 會停止或刪除使用預留項目的任何 VM。
日曆模式未來預留項目的理想工作負載
日曆模式的未來預留項目適合下列工作負載:
模型預先訓練
模型微調
模擬
推論
日曆模式未來預留項目的主要特徵
日曆模式的未來預留項目具有下列特徵:
-
您可以預留 A4、A3 Ultra、A3 Mega 或 A3 High (8 個 GPU) 機型。這些機器會密集配置,以縮短網路延遲。
-
您可以查看未來的可用性,並預留最多 80 個 VM,預留時間最長可達 90 天。然後,您可以在預留期結束前,使用預留資源建立 VM。
-
預留期間開始後,您可以按照下列步驟修改自動建立的預留項目:
-
您使用「取決於預留項目」的佈建模式,可享有下列優點:
您更有機會取得 GPU。
vCPU 和 GPU 可獲得高達 53% 的折扣。
如何使用日曆模式的未來預留項目
如要在日曆模式中使用未來的預留項目建立 VM 或叢集,請完成下列步驟:
-
查看資源供應情形。您可以查看要預訂資源的未來可用情形。建立預留要求時,您可以指定已確認可用的資源數量、類型和預留時間長度。這樣做可提高 Google Cloud 核准要求的機率。
如需操作說明,請參閱「 查看資源未來供應情形」。
-
預留容量。您對未來時段提出預留要求。 Google Cloud 會在兩分鐘內核准預留要求。如果獲得核准,Compute Engine 就會保留容量。在您選擇的交付日期,您可以使用預留資源建立 VM 或叢集。
如需操作說明,請參閱 為 GPU VM 或 TPU 建立預留項目要求。
-
使用保留的資源。在所選預留期間開始時,您可以使用預留項目建立 VM 或叢集。
如要瞭解建立 VM 或叢集的不同方法,請參閱下列文章:
- 如要建立 A4、A3 Ultra、A3 Mega 或 A3 High (8 個 GPU) VM,請參閱部署選項總覽。
- 如要建立啟用 GPUDirect-TCPX 的 A3 Mega 或 A3 High (8 個 GPU) VM,請參閱「建立啟用 GPUDirect-TCPX 的 A3 VM」。
使用彈性啟動
如要執行需要密集分配資源的短期工作負載,可以使用彈性啟動功能,要求最多七天的運算資源。只要有可用資源,Compute Engine 就會建立您要求的 VM 數量。您可以停止獨立的彈性啟動 VM,但無法停止代管執行個體群組 (MIG) 透過大小調整要求建立的彈性啟動 VM。彈性啟動 VM 會一直存在,直到您刪除 VM,或 Compute Engine 在執行時間結束時刪除 VM 為止。
適合彈性啟動的工作負載
彈性啟動非常適合可隨時啟動的工作負載,例如:
小型模型預先訓練
模型微調
模擬
批次推論
彈性啟動的主要特色
彈性起點具有下列特性:
-
您可以要求任何 GPU 機型,但 A4X Max 和 A4X 除外。Compute Engine 會盡力密集分配機器,這可能會導致 Flex-start VM 在同一可用區內相距遙遠。如要控管 VM 的放置位置並縮短網路延遲時間,您可以採取下列做法:
- 如果是獨立的彈性啟動型 VM,請 將密集配置政策套用至 VM。
- 如要為 MIG 設定目標大小,請套用 工作負載政策。
您使用彈性啟動佈建模式,可享有下列優點:
您更有機會取得 GPU。
vCPU、記憶體和 GPU 可獲得最高 53% 的折扣。
如何使用彈性啟動
如要使用彈性啟動功能建立 VM 或叢集,請完成下列步驟:
-
選用:建立密集配置政策或工作負載政策。您可以建立密集配置政策 (適用於獨立 VM 或大量 VM) 或工作負載政策 (適用於 MIG),指定 VM 之間的距離。所選設定會影響政策支援的機型和 VM 數量。
-
建立彈性啟動型 VM。要求建立 VM 後,Compute Engine 會根據可用性排定 VM 建立作業。當容量可用時,Compute Engine 會佈建彈性啟動 VM。VM 會持續執行,直到您加以停止或刪除,或直到執行時間長度結束為止。
如需操作說明,請參閱「部署選項總覽」。
使用 Spot
如要執行容錯工作負載,您可以根據可用性立即取得運算資源。以盡可能最低的價格取得資源。不過,Compute Engine 可能會隨時先占 VM 並取回資源。
適合 Spot 的工作負載
Spot 非常適合可接受作業中斷的工作負載,例如:
批次處理
高效能運算 (HPC)
持續整合與持續部署 (CI/CD)
資料分析
媒體編碼
線上推論
Spot 的主要特性
Spot 具有下列特性:
-
您可以建立任何 GPU 機型,但 A4X Max 和 A4X 除外。密集配置取決於可用資源。如要確保分配位置更接近,您可以對 VM 套用密集配置政策。
-
您即刻就能建立 VM,VM 會持續執行,直到您加以停止或刪除,或直到 Compute Engine 先占 VM 並取回資源。
-
您使用 Spot 佈建模式,可享有下列優點:
您更有機會取得 GPU。
許多機型、GPU、TPU 和本機 SSD 磁碟可享最高 91% 的折扣。
如何使用 Spot
如要使用 Spot 建立 VM 或叢集,請完成下列步驟:
-
選用:建立密集配置政策或工作負載政策。您可以建立密集配置政策 (適用於獨立 VM 或大量 VM) 或工作負載政策 (適用於 MIG),指定 VM 之間的距離。所選設定會影響政策支援的機型和 VM 數量。
-
建立 Spot VM。您可以視可用性建立任意數量的 VM。VM 會持續執行,直到您加以停止或刪除,或直到 Compute Engine 先占 VM 並取回資源。
如需操作說明,請參閱「部署選項總覽」。