AI 工作負載教學課程總覽

為協助您執行概念驗證 (POC) AI/ML 工作負載,本頁面提供 AI Hypercomputer 教學課程的總覽,說明在 Google Cloud 產品上部署常見 AI 模型的完整程序。

這些教學課程的適用對象為機器學習工程師、研究人員、平台管理員和營運人員,以及資料和 AI 專家。如要有效使用這些教學課程,您應先瞭解機器學習概念,並熟悉 Google Cloud 服務。具備部署及管理 AI 模型的經驗,也有助於瞭解本課程內容。

教學課程類別

AI 工作負載教學課程分為下列類別:

  • 在 GKE 上使用 vLLM 執行推論
  • 執行微調
  • 執行訓練

在 Google Kubernetes Engine 上使用 vLLM 執行推論

這些教學課程說明如何使用 Google Kubernetes Engine (GKE) 上的 vLLM 服務框架,部署及提供大型語言模型 (LLM) 進行推論。您將瞭解如何使用 GKE 的容器自動化調度管理能力,有效處理推論工作負載。這些教學課程涵蓋使用 Hugging Face 存取模型、設定 GKE 叢集 (例如以 Autopilot 模式)、處理憑證,以及部署 vLLM 容器以與 Gemma 3、Llama 4 和 Qwen3 等 LLM 互動。

執行微調

這些教學課程說明如何針對各種Google Cloud 叢集類型 (包括 GKE 和 Slurm) 的特定工作,微調大型語言模型。舉例來說,您可以在多節點和多 GPU GKE 叢集 (例如使用搭載 NVIDIA B200 GPU 的 A4 VM 執行個體) 和 Slurm 叢集上微調 Gemma 3。您將建立自訂 VM 映像檔、設定 RDMA 網路,並使用 Hugging Face Accelerate 和 FSDP 等程式庫執行分散式微調工作。部分教學課程也涵蓋如何使用 Ray 等架構執行與視覺相關的工作。

執行訓練

這些教學課程說明如何在高效能叢集上訓練或預先訓練 LLM。舉例來說,您會學習在多節點和多 GPU Slurm 叢集上,使用 A4 虛擬機器預先訓練 Qwen2 等模型。您可以使用 Google Cloud Cluster Toolkit 部署 Slurm 叢集、建立自訂 VM 映像檔、設定共用的 Filestore 執行個體、設定高速 RDMA 網路,以及使用 Hugging Face Accelerate 執行分散式預先訓練工作。

後續步驟

觀看 AI Hypercomputer 教學課程: