存储服务

本文档介绍了人工智能 (AI) 和机器学习 (ML) 工作负载中的存储服务用例和建议。

存储空间使用场景

存储服务可用于以下 AI 和机器学习工作负载:

  • 准备和加载数据以用于训练
  • 加载模型权重以进行推理
  • 保存和恢复模型检查点
  • 加载虚拟机映像
  • Logging 数据
  • 主目录
  • 加载应用库、软件包和依赖项

存储建议

建议使用以下存储解决方案来优化 AI 和 ML 系统性能:

存储服务 功能 使用场景
Cloud Storage

概览:高度可伸缩、高度耐用且经济实惠的对象存储。它非常适合存储训练所需的大量数据集和模型检查点,以及托管最终训练好的模型。Cloud Storage 与 Cloud Storage FUSE 搭配使用是大多数 AI 和 ML 使用情形下的推荐存储解决方案,因为与文件系统服务相比,它能以更高的成本效益扩展数据存储空间。

  • 支持 GPU 和 TPU 集群的大规模(高达 EB 级)训练数据。
  • 支持高吞吐量(带宽高达 1.25TB/秒或更高)。如需最大限度地提高 Cloud Storage 中的吞吐量,请申请更多带宽
  • 通过与 Cloud Storage FUSE 集成,Cloud Storage 存储分区可以作为本地文件系统装载。借助 Cloud Storage FUSE CSI 驱动程序,您还可以将存储分区装载为 Google Kubernetes Engine (GKE) 中的本地文件系统,以处理大规模 AI 和机器学习工作负载。
  • 使用 Anywhere Cache 将存储空间与计算工作负载放置在同一可用区,从而在搭配多区域存储桶使用时,提供更高的吞吐量(最高可达 2.5TB/s)、更低的延迟和位置灵活性。
  • 如需详细了解如何将 Cloud Storage FUSE 用于 AI 和机器学习工作负载,请参阅使用 Cloud Storage FUSE 优化 AI 和机器学习工作负载

建议用于以下方面

  • 成本效益
  • 数据处理和准备
  • 模型训练和推理
  • 保存和恢复模型检查点

不建议用于以下方面

  • 需要完全符合 POSIX 标准的应用
  • 主目录
Google Cloud Managed Lustre

概览:一种高性能、全代管式并行文件系统,可针对 AI 和高性能计算 (HPC) 应用进行优化。 适用于需要多个计算节点快速且一致地访问共享数据以进行模拟、建模和分析的环境。

  • 可扩容至 8 PB 容量,吞吐量最高可达 1 TB/秒。
  • 支持数千 IOPS/TiB。
  • 提供超低亚毫秒级延迟时间。
  • 提供全面的 POSIX 支持,可将本地 AI 工作负载直接迁移到 Google Cloud。
  • 如需详细了解如何将 Managed Lustre 用于 AI 和机器学习工作负载,请参阅使用 Google Cloud Managed Lustre 优化 AI 和机器学习工作负载

建议用于以下方面

  • 将 AI 和机器学习工作负载迁移到云端
  • 模型模拟
  • 模型训练和推理
  • 保存和恢复模型检查点
  • 频繁进行小规模读取和写入的工作负载
  • 主目录

不建议用于以下方面

  • 需要超过 8 PB 数据的工作负载

后续步骤