使用 Cloud Storage Rapid 优化 AI/机器学习和数据分析的存储

Cloud Storage 提供了多种选项,可帮助您针对需要高性能的使用情形(例如人工智能 [AI]、机器学习 [ML] 和数据密集型分析)优化数据存储。本页将介绍这些选项,并引导您选择适合工作负载需求的选项。

Cloud Storage Rapid 产品系列

Cloud Storage Rapid 是 Cloud Storage 中的一系列高性能产品,旨在消除 AI/机器学习和数据分析工作负载的数据瓶颈。随着 AI/ML 模型复杂性的增加,数据集达到 PB 级规模,存储性能通常会成为昂贵的 GPU 和 TPU 集群的主要瓶颈。Cloud Storage Rapid 利用可用区架构将数据放置在更靠近计算资源的位置,从而帮助加速器保持饱和状态、缩短训练时间,并降低最严苛工作负载的总拥有成本 (TCO)。Cloud Storage Rapid 包含 Rapid Bucket 和 Anywhere Cache。

使用 Rapid 存储分区将数据存储在 Rapid Storage 存储类别中

快速存储桶是一种高性能的可用区级对象存储解决方案,可让您通过将可用区定义为存储桶的位置,将数据存储在Rapid Storage中。借助 Rapid Bucket,您可以将数据与 AI 加速器放置在同一物理可用区中,从而在其他 Cloud Storage 产品中实现最低的延迟时间和最高的吞吐量。快速存储分区可提供低于 1 毫秒的延迟时间、高达 15 TB/秒的聚合吞吐量,并支持每秒最多 2,000 万次查询次数 (QPS)。

快速存储分区支持有状态的流式对象附加,允许应用实时将数据写入现有对象。借助此功能,您可以避免代价高昂的对象重写,并实现即时数据可见性,从而让消费类应用在数据写入时即可读取数据。

最适合用于:训练、检查点和部署需要超低延迟和高确定性性能的 AI 模型

如果您希望:读取和写入操作都能获得专用高性能

如需了解如何使用快速存储分区创建可用区级存储分区,请参阅创建可用区级存储分区

使用 Anywhere Cache 创建可用区级缓存

Anywhere Cache 是一种全代管式、由固态硬盘提供支持的可用区级读取缓存,可与您现有的区域级、双区域或多区域存储分区搭配使用,无需更改 API。缓存可提供临时存储容量和带宽,并根据工作负载的需求自动扩容或缩容。当数据由缓存所在可用区中的虚拟机读取时,系统会自动将数据从存储桶注入到缓存中。

Anywhere Cache 可提供 2.5 TB/秒的总吞吐量,并通过将数据与虚拟机放置在同一可用区中来缩短延迟时间,从而加快读取速度。除了更快地提供数据之外,与直接从存储桶提供的数据相比,从缓存提供的数据产生的数据传输费用、数据检索费用和操作费用更低。如需了解详情,请参阅 Anywhere Cache 的优势

最适合用于:训练、检查点恢复和部署需要从现有 Cloud Storage 存储桶中读取高带宽的 AI 模型

如果您有:Cloud Storage 存储桶中的现有数据存储,并且希望加快访问速度,请使用此选项

如需了解如何使用 Anywhere Cache,请参阅创建和管理缓存