部署选项概览

如需运行人工智能 (AI)、机器学习 (ML) 或高性能计算 (HPC) 工作负载,您可以部署 AI 优化型虚拟机以及 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器集群。如需详细了解这些机器的功能如何让您能够运行大规模 AI/机器学习集群,请参阅集群管理概览

您可以直接从 Compute Engine 或通过在 Compute Engine 实例上运行的其他服务(例如 Cluster Toolkit 或 Google Kubernetes Engine)创建 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)虚拟机。

如需根据您的应用场景使用最合适的虚拟机或集群创建选项,请选择以下各项之一:

方法 用例
Cluster Director 您希望使用一种全代管式服务,自动设置和配置 Slurm 集群。Cluster Director 可帮助您为集群配置计算、网络和存储资源,以最大限度地提高性能并最大限度地减少停机时间。如需了解详情,请参阅基于模板创建 AI 优化型集群
Cluster Toolkit

您希望使用开源软件来为您简化部署 Slurm 和 GKE 集群的过程。Cluster Toolkit 具有高度的可定制性和可扩展性。如需了解详情,请参阅以下内容:

GKE 您希望根据工作负载的需求尽可能灵活地配置 Google Kubernetes Engine 集群。如需了解详情,请参阅创建自定义 AI 优化型 Google Kubernetes Engine 集群
使用 Compute Engine

您希望完全控制基础设施层,以便设置自己的编排器。如需了解详情,请参阅以下内容: