AI 工作负载教程概览

为帮助您运行概念验证 (POC) AI/机器学习工作负载,本页面简要介绍了 AI Hypercomputer 教程,其中描述了在 Google Cloud 产品上部署常见 AI 模型的完整流程。

这些教程适用于机器学习 (ML) 工程师、研究人员、平台管理员和运维人员,以及数据和 AI 专家。为了有效地使用这些教程,您应该对机器学习概念有基本的了解,并且熟练掌握 Google Cloud 服务。如果您有部署和管理 AI 模型的经验,也有助于理解本内容。

教程类别

AI 工作负载教程分为以下几类:

  • 在 GKE 上使用 vLLM 运行推理
  • 运行微调
  • 运行训练

在 Google Kubernetes Engine 上使用 vLLM 运行推理

这些教程介绍了如何使用 Google Kubernetes Engine (GKE) 上的 vLLM 服务框架部署大语言模型 (LLM) 并将其用于推理。您将学习如何使用 GKE 的容器编排功能来高效运行推理工作负载。这些教程涵盖了以下内容:使用 Hugging Face 访问模型、设置 GKE 集群(例如,在 Autopilot 模式下)、处理凭据,以及部署 vLLM 容器以与 Gemma 3、Llama 4 和 Qwen3 等 LLM 进行交互。

运行微调

这些教程介绍了如何针对各种Google Cloud 集群类型(包括 GKE 和 Slurm)中的特定任务对 LLM 进行微调。例如,您可以在多节点和多 GPU GKE 集群(例如,使用配备 NVIDIA B200 GPU 的 A4 虚拟机实例)和 Slurm 集群上对 Gemma 3 进行微调。您将创建自定义虚拟机映像、配置 RDMA 网络,并使用 Hugging Face Accelerate 和 FSDP 等库执行分布式微调作业。部分教程还介绍了如何使用 Ray 等框架来处理与视觉相关的任务。

运行训练

这些教程介绍了如何在高性能集群上训练或预训练 LLM。例如,您将学习如何在多节点和多 GPU Slurm 集群上使用 A4 虚拟机预训练 Qwen2 等模型。您可以使用 Google Cloud 集群工具包部署 Slurm 集群、创建自定义虚拟机映像、配置共享 Filestore 实例、配置高速 RDMA 网络,以及使用 Hugging Face Accelerate 运行分布式预训练作业。

后续步骤

探索 AI Hypercomputer 教程: