為協助您執行概念驗證 (POC) AI/ML 工作負載,本頁面提供 AI Hypercomputer 教學課程的總覽,說明在 Google Cloud 產品上部署常見 AI 模型的完整程序。
這些教學課程專為機器學習 (ML) 工程師、研究人員、平台管理員和營運人員,以及資料和 AI 專家設計。如要有效使用這些教學課程,您應對機器學習概念有基本瞭解,並熟悉 Google Cloud 服務。具備部署及管理 AI 模型的經驗,也有助於瞭解本課程內容。
教學課程類別
AI 工作負載教學課程分為下列類別:
- 在 GKE 上使用 vLLM 執行推論
- 執行微調
- 執行訓練
在 Google Kubernetes Engine 上使用 vLLM 執行推論
這些教學課程說明如何使用 Google Kubernetes Engine (GKE) 上的 vLLM 服務架構,部署及提供大型語言模型 (LLM) 以進行推論。您將瞭解如何使用 GKE 的容器編排功能,有效率地執行推論工作負載。這些教學課程涵蓋使用 Hugging Face 存取模型、設定 GKE 叢集 (例如在 Autopilot 模式中)、處理憑證,以及部署 vLLM 容器,以便與 Gemma 3、Llama 4 和 Qwen3 等 LLM 互動。
執行微調
這些教學課程說明如何針對各種Google Cloud 叢集類型 (包括 GKE 和 Slurm) 的特定工作,微調大型語言模型。舉例來說,您可以在多節點和多 GPU 的 GKE 叢集 (例如使用搭載 NVIDIA B200 GPU 的 A4 VM 執行個體) 和 Slurm 叢集上,微調 Gemma 3。您將建立自訂 VM 映像檔、設定 RDMA 網路,並使用 Hugging Face Accelerate 和 FSDP 等程式庫執行分散式微調工作。部分教學課程也涵蓋使用 Ray 等架構執行視覺相關工作。
執行訓練
這些教學課程說明如何在高效能叢集上訓練或預先訓練 LLM。舉例來說,您會學習如何在多節點和多 GPU 的 Slurm 叢集上,使用 A4 虛擬機器預先訓練 Qwen2 等模型。您可以使用 Google Cloud Cluster Toolkit 部署 Slurm 叢集、建立自訂 VM 映像檔、設定共用的 Filestore 執行個體、設定高速 RDMA 網路,以及使用 Hugging Face Accelerate 執行分散式預先訓練作業。
後續步驟
觀看 AI Hypercomputer 教學課程:
- 在 GKE 上使用 vLLM 提供 Gemma 3 27B 推論服務
- 在 A4 GKE 叢集上微調 Gemma 3
- 在 A4 Slurm 叢集上訓練 Qwen2
- 在 TPU 上使用 vLLM 服務 Qwen2-72B