Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI Hypercomputer 概览

AI Hypercomputer 是一种超级计算系统，经过优化可支持人工智能 (AI) 和机器学习 (ML) 工作负载。它是由性能优化型硬件、开源软件、机器学习框架和灵活的使用模式组成的集成系统。

AI Hypercomputer 系统融合了最佳实践和系统级设计，可全面提升 AI 预训练、调优及服务的成效和效率。

系统架构

AI Hypercomputer 由以下层组成：

经过性能优化的基础架构：包含加速器、网络和存储资源，可提供计算能力来支持您的工作负载。
开放式软件：TensorFlow、PyTorch 和 JAX 等热门机器学习框架的优化版本。Google 提供已配置必要软件的操作系统 (OS)，以便利用集群中预配的计算资源。如需将大量加速器作为单个单元进行部署和管理，您可以使用 Cluster Director、Google Kubernetes Engine 或 Slurm。或者，您也可以使用 Compute Engine API 手动部署资源。
使用选项：多种选项可用于预配集群，根据您的具体需求和工作负载模式优化成本和硬件可用性。

AI Hypercomputer 具有以下优势：

高性能和有效吞吐量：有效吞吐量指标用于衡量机器学习效率。AI Hypercomputer 可优化调度、运行时和编排层。
快速启动并运行：AI Hypercomputer 提供 Cluster Director 和蓝图等工具，让您能够可靠且重复地部署大量经过优化的加速器资源，这些资源经过配置，可支持要求最严苛的 AI 和机器学习工作负载。
针对性能优化的存储层：使用 Cloud Storage 和 Google Cloud Managed Lustre 等高性能存储服务，为 AI 和机器学习工作负载提供可伸缩、高吞吐量、低延迟的存储。

AI Hypercomputer 旨在满足以下使用情形的需求：

使用场景	工作负载示例
大规模 AI 和机器学习工作负载	生成式 AI 分布式训练生成式 AI 推理欺诈检测推荐模型
高性能计算 (HPC)	复杂模拟药物研发、蛋白质折叠和基因组分析风险分析和量化交易

使用场景

工作负载示例