Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI 工作負載教學課程總覽

為協助您執行概念驗證 (POC) AI/ML 工作負載，本頁面提供 AI Hypercomputer 教學課程的總覽，說明在 Google Cloud 產品上部署常見 AI 模型的完整程序。

這些教學課程專為機器學習 (ML) 工程師、研究人員、平台管理員和營運人員，以及資料和 AI 專家設計。如要有效使用這些教學課程，您應對機器學習概念有基本瞭解，並熟悉 Google Cloud 服務。具備部署及管理 AI 模型的經驗，也有助於瞭解本課程內容。

教學課程類別

AI 工作負載教學課程分為下列類別：

在 GKE 上使用 vLLM 執行推論
執行微調
執行訓練

在 Google Kubernetes Engine 上使用 vLLM 執行推論

這些教學課程說明如何使用 Google Kubernetes Engine (GKE) 上的 vLLM 服務架構，部署及提供大型語言模型 (LLM) 以進行推論。您將瞭解如何使用 GKE 的容器編排功能，有效率地執行推論工作負載。這些教學課程涵蓋使用 Hugging Face 存取模型、設定 GKE 叢集 (例如在 Autopilot 模式中)、處理憑證，以及部署 vLLM 容器，以便與 Gemma 3、Llama 4 和 Qwen3 等 LLM 互動。

執行微調

這些教學課程說明如何針對各種Google Cloud 叢集類型 (包括 GKE 和 Slurm) 的特定工作，微調大型語言模型。舉例來說，您可以在多節點和多 GPU 的 GKE 叢集 (例如使用搭載 NVIDIA B200 GPU 的 A4 VM 執行個體) 和 Slurm 叢集上，微調 Gemma 3。您將建立自訂 VM 映像檔、設定 RDMA 網路，並使用 Hugging Face Accelerate 和 FSDP 等程式庫執行分散式微調工作。部分教學課程也涵蓋使用 Ray 等架構執行視覺相關工作。

執行訓練

這些教學課程說明如何在高效能叢集上訓練或預先訓練 LLM。舉例來說，您會學習如何在多節點和多 GPU 的 Slurm 叢集上，使用 A4 虛擬機器預先訓練 Qwen2 等模型。您可以使用 Google Cloud Cluster Toolkit 部署 Slurm 叢集、建立自訂 VM 映像檔、設定共用的 Filestore 執行個體、設定高速 RDMA 網路，以及使用 Hugging Face Accelerate 執行分散式預先訓練作業。

後續步驟

觀看 AI Hypercomputer 教學課程：

AI 工作負載教學課程總覽 透過集合功能整理內容 你可以依據偏好儲存及分類內容。