创建包含两个 A4 虚拟机的全代管式 Slurm 集群

本快速入门介绍了如何使用 Cluster Director 创建和连接到 Slurm 集群。您创建的集群使用两个 A4 虚拟机 (VM) 实例,这些实例旨在帮助您的 Slurm 集群高效处理大规模模型训练和推理工作负载。

Cluster Director 是一项托管服务,可简化和自动化集群部署,从而减少运营开销,让您专注于运行工作负载。如果您希望更好地控制集群的部署和管理,请使用 Cluster Toolkit 创建 Slurm 集群


如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示

操作演示


准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud新手,请 创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. 启用 Hypercompute Cluster API、Compute Engine API、Filestore API、Google Cloud Managed Lustre API、Cloud Logging API 和 Cloud Monitoring API:

    启用 API
  7. 验证您的项目和 Compute Engine 默认服务账号是否具有以下 Identity and Access Management (IAM) 角色:
  8. 如果您的项目所在的组织具有可信映像政策 (constraints/compute.trustedImageProjects),请验证 clusterdirector-public-images 项目是否包含在允许的项目列表中。如需查看组织的可信映像政策,请参阅设置映像访问权限限制

费用

本快速入门使用以下可计费 Google Cloud 资源:

  • Compute Engine

    • 两台具有 A4 机器类型的虚拟机

    • 一个用于 Slurm 登录节点的永久性磁盘卷,大小为 100 GB

    • 一个 100 GB 的 Google Cloud Hyperdisk Balanced 卷(适用于 A4 虚拟机)

  • Filestore:具有 10 TiB (10,240 GiB) 容量的 Filestore 实例

如需根据您的预计使用量来估算费用,请使用价格计算器

创建 Slurm 集群

如需创建 Slurm 集群,请完成以下步骤:

  1. 在 Google Cloud 控制台中,前往 Cluster Director 页面。

    前往 Cluster Director

  2. 点击 创建集群

  3. 在随即显示的对话框中,点击分步配置。系统会显示创建集群页面。

  4. 集群名称字段中,输入 cluster001

  5. 计算部分中,点击配置资源。在显示的添加资源配置窗格中,完成以下步骤:

    1. GPU 类型列表中,选择 NVIDIA B200 180GB

    2. 实例数量字段中,输入 2

    3. 使用选项部分中,选择您要用于获取资源的使用选项。

    4. 位置部分中,指定您要创建 A4 虚拟机的区域可用区,或者您要用于创建虚拟机的预留所在的区域和可用区。

    5. 点击完成

  6. 在导航菜单中,点击存储空间

  7. 存储部分,点击 修改存储配置。在显示的添加存储配置窗格中,完成以下步骤:

    1. 容量部分中,选择 10-100 TiB,以 2.5 TiB 为增量

    2. 点击完成

  8. 点击创建。系统会显示集群页面。

    创建集群可能需要一些时间才能完成。完成时间取决于您请求的虚拟机数量以及虚拟机所在可用区中的资源可用性。如果请求的资源不可用,Cluster Director 会保留创建请求,直到资源变得可用。

查看集群创建请求

如需查看集群创建请求,请完成以下步骤:

  1. 集群表格的名称列中,点击 cluster001。系统会显示一个包含集群详细信息的页面,并且详细信息标签页处于选中状态。

  2. 计算部分中,找到状态行。当 AI Hypercomputer 将其值设置为 Ready 时,您可以继续执行下一部分。

通过 SSH 连接到集群

如需通过 SSH 连接到集群,请完成以下步骤:

  1. 点击节点标签页。

  2. 登录节点表格中,找到包含 cluster001-login-001 节点的行。在该行的连接列中,点击 SSH 按钮。系统会显示 SSH-in-browser 窗口。

  3. 如果出现提示,请点击授权。连接到集群可能需要一些时间才能完成。当终端准备就绪后,请继续下一部分。

运行示例作业

SSH-in-browser 窗口中,完成以下步骤:

  1. 如需验证 Slurm 正在运行,请运行以下命令:

    sinfo
    
  2. 如需提交返回节点主机名的测试作业,请运行以下命令:

    srun hostname
    
  3. 如需提交休眠 30 秒的批量作业,请运行以下命令:

    sbatch --wrap="sleep 30"
    
  4. 如需检查队列中作业的状态,请运行以下命令:

    squeue
    
  5. 如需查看作业的结算数据,请运行以下命令:

    sacct
    

您已成功创建 Slurm 集群、连接到该集群并运行示例作业。如果 AI Hypercomputer 仍未创建 A4 虚拟机,您可以等待集群创建虚拟机,修改集群以添加或移除虚拟机,也可以删除集群以避免产生任何不必要的费用。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

要删除项目,请执行以下操作:

  1. 在 Google Cloud 控制台中,前往管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

删除集群

如需删除您在本快速入门中创建的集群及其关联的资源,请完成以下步骤:

  1. 在包含集群详细信息的页面上,点击 删除

  2. 在显示的对话框中,输入 cluster001,然后点击删除进行确认。

后续步骤