AI Hypercomputer 概览

AI Hypercomputer 是一种超级计算系统,经过优化可支持人工智能 (AI) 和机器学习 (ML) 工作负载。它是由性能优化型硬件、开源软件、机器学习框架和灵活的使用模式组成的集成系统。

AI Hypercomputer 系统采用最佳实践和系统级设计,可提升 AI 预训练、调优及服务的成效和效率。

系统架构

AI Hypercomputer 由以下层组成:

  • 经过性能优化的基础架构:包含加速器、网络和存储资源,可提供支持工作负载的计算能力。
  • 开放式软件:TensorFlow、PyTorch 和 JAX 等热门机器学习框架的优化版本。Google 提供已配置必要软件的操作系统 (OS),以便利用集群中预配的计算资源。如需将大量加速器作为单一单元进行部署和管理,您可以使用 Cluster Director、Google Kubernetes Engine 或 Slurm。或者,您也可以使用 Compute Engine API 手动部署资源。
  • 使用选项:多种选项可用于预配集群,根据您的具体需求和工作负载模式优化成本和硬件可用性。

优势

AI Hypercomputer 具有以下优势:

  • 高性能和高有效吞吐量Goodput指标用于衡量机器学习效率。 AI Hypercomputer 可优化调度、运行时和编排层。
  • 快速启动并运行:AI Hypercomputer 提供 Cluster Director蓝图等工具,让您能够可靠且重复地部署大量经过优化的加速器资源,这些资源经过配置,可支持要求最严苛的 AI 和机器学习工作负载。

使用场景

AI Hypercomputer 旨在满足以下使用情形的需求:


使用场景

工作负载示例

大规模 AI 和机器学习工作负载

  • 生成式 AI 分布式训练
  • 生成式 AI 推理
  • 欺诈检测
  • 推荐模型

高性能计算 (HPC)

  • 复杂模拟
  • 药物研发、蛋白质折叠和基因组分析
  • 风险分析和量化交易

后续步骤