如需运行人工智能 (AI)、机器学习 (ML) 或高性能计算 (HPC) 工作负载,您可以部署 AI 优化型 Compute Engine 实例和集群,这些实例和集群使用 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器。如需详细了解这些机器的功能,以便运行大规模 AI 和 ML 集群,请参阅 集群管理概览。
您可以直接从 Compute Engine 创建 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)实例,也可以通过在 Compute Engine 实例上运行的其他服务(例如 Cluster Toolkit 或 Google Kubernetes Engine)创建这些实例。
如需根据您的应用场景使用最合适的计算实例或集群创建选项,请选择以下各项之一:
| 方法 | 用例 |
|---|---|
| Cluster Director | 您需要一项全代管式服务,以自动设置和配置 Slurm 集群。Cluster Director 可帮助您 配置计算、网络和存储资源,以 最大限度地提高性能并最大限度地减少停机时间。如需了解详情,请参阅 为 AI 工作负载创建全代管式 Slurm 集群。 |
| Cluster Toolkit | 您希望使用开源软件来为您简化部署 Slurm 和 GKE 集群的过程 。Cluster Toolkit 是 旨在实现高度自定义和可扩展性。您可以使用蓝图来预配网络和存储资源。如需了解详情,请参阅以下内容: |
| GKE | 您希望根据工作负载的需求尽可能灵活地配置 Google Kubernetes Engine 集群 。如需了解详情,请参阅 创建自定义 AI 优化型 Google Kubernetes Engine 集群。 |
| 使用 Compute Engine | 您希望完全控制基础设施层,以便设置自己的编排器。如需了解详情,请参阅以下内容:
|