创建包含两个 A4 虚拟机的全代管式 Slurm 集群
本快速入门介绍了如何使用 Cluster Director 创建和连接到 Slurm 集群。您创建的集群使用两个 A4 虚拟机 (VM) 实例,这些实例旨在帮助您的 Slurm 集群高效处理大规模模型训练和推理工作负载。
Cluster Director 是一项托管服务,可简化和自动化集群部署,从而减少运营开销,让您专注于运行工作负载。如果您希望更好地控制集群的部署和管理,请使用 Cluster Toolkit 创建 Slurm 集群。
如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示:
准备工作
- 登录您的 Google Cloud 账号。如果您是 Google Cloud新手,请 创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
启用 Hypercompute Cluster API、Compute Engine API、Filestore API、Google Cloud Managed Lustre API、Cloud Logging API 和 Cloud Monitoring API:
启用 API- 验证您的项目和 Compute Engine 默认服务账号是否具有以下 Identity and Access Management (IAM) 角色:
-
如需获得完成本快速入门所需的权限,请让您的管理员为您授予项目的以下 IAM 角色:
-
如需创建和管理集群,请使用:Cluster Director Editor (
roles/hypercomputecluster.editor) -
如需在集群中创建和管理虚拟机:Compute Instance Admin (v1) (
roles/compute.instanceAdmin.v1) -
如需连接到集群中的登录节点,请执行以下操作:
- Compute OS Login (
roles/compute.osLogin) - IAP-Secured Tunnel User (
roles/iap.tunnelResourceAccessor)
- Compute OS Login (
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
-
如需创建和管理集群,请使用:Cluster Director Editor (
-
如需获得完成本快速入门所需的权限,请让您的管理员为您授予 Compute Engine 默认服务账号的以下 IAM 角色:
-
创建集群:Service Account User (
roles/iam.serviceAccountUser) -
如需管理集群中的资源,请执行以下操作:
- Logs Writer (
roles/logging.logWriter) - Monitoring Metric Writer (
roles/monitoring.metricWriter) - Storage Object Viewer (
roles/storage.objectViewer)
- Logs Writer (
-
创建集群:Service Account User (
-
- 如果您的项目所在的组织具有可信映像政策 (
constraints/compute.trustedImageProjects),请验证clusterdirector-public-images项目是否包含在允许的项目列表中。如需查看组织的可信映像政策,请参阅设置映像访问权限限制。
费用
本快速入门使用以下可计费 Google Cloud 资源:
Compute Engine:
两台具有 A4 机器类型的虚拟机
一个用于 Slurm 登录节点的永久性磁盘卷,大小为 100 GB
一个 100 GB 的 Google Cloud Hyperdisk Balanced 卷(适用于 A4 虚拟机)
Filestore:具有 10 TiB (10,240 GiB) 容量的 Filestore 实例
如需根据您的预计使用量来估算费用,请使用价格计算器。
创建 Slurm 集群
如需创建 Slurm 集群,请完成以下步骤:
在 Google Cloud 控制台中,前往 Cluster Director 页面。
点击 创建集群。
在随即显示的对话框中,点击分步配置。系统会显示创建集群页面。
在集群名称字段中,输入
cluster001。在计算部分中,点击配置资源。在显示的添加资源配置窗格中,完成以下步骤:
在 GPU 类型列表中,选择 NVIDIA B200 180GB。
在实例数量字段中,输入
2。在使用选项部分中,选择您要用于获取资源的使用选项。
在位置部分中,指定您要创建 A4 虚拟机的区域和可用区,或者您要用于创建虚拟机的预留所在的区域和可用区。
点击完成。
在导航菜单中,点击存储空间。
在存储部分,点击 修改存储配置。在显示的添加存储配置窗格中,完成以下步骤:
在容量部分中,选择 10-100 TiB,以 2.5 TiB 为增量。
点击完成。
点击创建。系统会显示集群页面。
创建集群可能需要一些时间才能完成。完成时间取决于您请求的虚拟机数量以及虚拟机所在可用区中的资源可用性。如果请求的资源不可用,Cluster Director 会保留创建请求,直到资源变得可用。
查看集群创建请求
如需查看集群创建请求,请完成以下步骤:
在集群表格的名称列中,点击 cluster001。系统会显示一个包含集群详细信息的页面,并且详细信息标签页处于选中状态。
在计算部分中,找到状态行。当 AI Hypercomputer 将其值设置为 Ready 时,您可以继续执行下一部分。
通过 SSH 连接到集群
如需通过 SSH 连接到集群,请完成以下步骤:
点击节点标签页。
在登录节点表格中,找到包含 cluster001-login-001 节点的行。在该行的连接列中,点击 SSH 按钮。系统会显示 SSH-in-browser 窗口。
如果出现提示,请点击授权。连接到集群可能需要一些时间才能完成。当终端准备就绪后,请继续下一部分。
运行示例作业
在 SSH-in-browser 窗口中,完成以下步骤:
如需验证 Slurm 正在运行,请运行以下命令:
sinfo如需提交返回节点主机名的测试作业,请运行以下命令:
srun hostname如需提交休眠 30 秒的批量作业,请运行以下命令:
sbatch --wrap="sleep 30"如需检查队列中作业的状态,请运行以下命令:
squeue如需查看作业的结算数据,请运行以下命令:
sacct
您已成功创建 Slurm 集群、连接到该集群并运行示例作业。如果 AI Hypercomputer 仍未创建 A4 虚拟机,您可以等待集群创建虚拟机,修改集群以添加或移除虚拟机,也可以删除集群以避免产生任何不必要的费用。
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
删除项目
为了避免产生费用,最简单的方法是删除您为本教程创建的项目。
要删除项目,请执行以下操作:
- 在 Google Cloud 控制台中,前往管理资源页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。
删除集群
如需删除您在本快速入门中创建的集群及其关联的资源,请完成以下步骤:
在包含集群详细信息的页面上,点击 删除。
在显示的对话框中,输入
cluster001,然后点击删除进行确认。