如需运行人工智能 (AI)、机器学习 (ML) 或高性能计算 (HPC) 工作负载,您可以部署经过 AI 优化的 Compute Engine 实例和集群,这些实例和集群使用 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器。如需详细了解这些机器的功能(可用于运行大规模 AI 和 ML 集群),请参阅集群管理概览。
您可以直接从 Compute Engine 创建 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)实例,也可以通过在 Compute Engine 实例上运行的其他服务(例如 Cluster Toolkit 或 Google Kubernetes Engine)创建这些实例。
如需根据您的应用场景使用最合适的计算实例或集群创建选项,请选择以下各项之一:
| 方法 | 用例 |
|---|---|
| Cluster Director | 您希望使用一种全代管式服务,自动完成 Slurm 集群的设置和配置。Cluster Director 可帮助您为集群配置计算、网络和存储资源,以最大限度地提高性能并最大限度地减少停机时间。如需了解详情,请参阅基于模板创建 AI 优化型集群。 |
| Cluster Toolkit | 您希望使用开源软件来为您简化部署 Slurm 和 GKE 集群的过程。Cluster Toolkit 具有高度的可定制性和可扩展性。如需了解详情,请参阅以下内容: |
| GKE | 您希望根据工作负载的需求尽可能灵活地配置 Google Kubernetes Engine 集群。如需了解详情,请参阅创建自定义 AI 优化型 Google Kubernetes Engine 集群。 |
| 使用 Compute Engine | 您希望完全控制基础设施层,以便设置自己的编排器。如需了解详情,请参阅以下内容:
|