AI Hypercomputer 是一种经过优化的超级计算系统,可支持人工智能 (AI) 和机器学习 (ML) 工作负载。 它是由性能优化型硬件、开源软件、机器学习框架和灵活的使用模式组成的集成系统。
AI Hypercomputer 系统融入了最佳实践和系统级设计,可全面提升 AI 预训练、调优及服务的成效和效率。
系统架构
AI Hypercomputer 由以下层组成:
- 性能优化型基础架构:包含加速器、 网络和存储资源,可提供计算能力 来支持您的工作负载。
- 开源软件:TensorFlow、PyTorch 和 JAX 等热门机器学习 框架的优化版本。Google 提供了操作系统 (OS),这些操作系统配置了必要的软件,可用于利用集群中预配的计算资源。 如需将大量加速器作为单一单元进行部署和管理,您 可以使用 Cluster Director、 Google Kubernetes Engine 或 Slurm。或者,您也可以使用 Compute Engine API 手动部署资源。
- 使用选项:多种预配集群的选项,可根据您的具体需求和 工作负载模式优化成本和硬件可用性。
福利
AI Hypercomputer 具有以下优势:
- 高性能和有效吞吐量: 有效吞吐量 指标用于衡量机器学习效率。 AI Hypercomputer 可优化调度、运行时和 编排层。
- 快速启动并运行:AI Hypercomputer 提供了 Cluster Director 和 蓝图等工具, 可让您可靠且重复地部署大量 经过加速器优化的资源,这些资源经过配置,可支持要求最 高的 AI 和机器学习工作负载。
- 针对性能优化的存储层:使用 Cloud Storage 和 Google Cloud Managed Lustre 等高性能存储服务,为 AI 和机器学习工作负载提供可伸缩、高吞吐量、低延迟的 存储。
使用场景
AI Hypercomputer 旨在满足以下使用场景的需求:
使用场景 |
示例工作负载 |
|---|---|
大规模 AI 和机器学习工作负载 |
|
高性能计算 (HPC) |
|