Google Cloud 致力於提供世界一流的人工智慧 (AI) 基礎架構,在各種領域中,為您最嚴苛的 GPU 加速工作負載提供強大支援。您可以在 Google Cloud 上使用 GPU 執行 AI、機器學習 (ML)、科學、分析、工程、消費者和企業應用程式。
透過與 NVIDIA 的合作夥伴關係, Google Cloud 提供最新 GPU,同時最佳化軟體堆疊,並提供各種儲存空間和網路選項。如需可用 GPU 的完整清單,請參閱 GPU 平台。
以下各節概述 Google Cloud上 GPU 的優點。
GPU 加速 VM
在 Google Cloud上,您可以存取及佈建最符合需求的 GPU。我們提供專屬的加速器最佳化機器系列,內建 GPU 和網路功能,非常適合用來提升效能。這些機型適用於 A4X、A4、A3、A2 和 G2 機器系列。
多種佈建選項
您可以使用加速器最佳化機器系列,搭配下列任一項開放原始碼或 Google Cloud 產品,佈建叢集。
Vertex AI
Vertex AI 是全代管的機器學習 (ML) 平台,可用來訓練及部署 ML 模型和 AI 應用程式。在 Vertex AI 應用程式中,您可以透過下列方式使用 GPU 加速 VM,提升效能:
- 在自訂訓練 GKE 工作站集區中使用支援 GPU 的 VM。
- 使用 Vertex AI Model Garden 中的開放原始碼大型語言模型。
- 縮短預測延遲時間。
- 提升 Vertex AI Workbench 筆記本程式碼的效能。
- 提升 Colab Enterprise 執行階段的效能。
AI Hypercomputer
AI Hypercomputer 是一種超級運算系統,經過最佳化處理,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。這項整合式系統具備效能最佳化硬體、開放式軟體、機器學習框架及彈性的付費模式。AI Hypercomputer 的功能和服務經過精心設計,可讓您部署及管理大量加速器和網路資源 (最多可達數萬個),並將這些資源視為單一均質單元。這個選項非常適合建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。詳情請參閱 AI Hypercomputer 總覽。
如要開始使用 Cluster Director,請參閱「選擇部署策略」。
Compute Engine
您也可以在 Compute Engine 上建立及管理個別 VM,或附有 GPU 的小型 VM 叢集。這個方法主要用於執行需要大量繪圖資源的工作負載、模擬工作負載,或小規模的 ML 模型訓練。
下表列出可用於建立附加 GPU 的 VM 的方法:
部署選項 |
部署作業指南 |
建立 VM,用於提供服務和單一節點工作負載 |
|
建立代管執行個體群組 (MIG) |
|
大量建立 VM |
|
建立單一 VM |
|
建立虛擬工作站 |
Cloud Run
您可以為 Cloud Run 執行個體設定 GPU。GPU 非常適合在 Cloud Run 上使用大型語言模型執行 AI 推論工作負載。
在 Cloud Run 中,請參閱下列資源,瞭解如何在 GPU 上執行 AI 工作負載: