AI 可用区

本文档简要介绍了 Cloud Storage 的 AI 区域。AI 可用区是专门的 Google Cloud 可用区,旨在为人工智能 (AI) 和机器学习 (ML) 工作负载提供计算能力。它们可提供出色的 ML 加速器(GPU 和 TPU)容量。

AI 可用区针对 AI 和机器学习工作负载进行了优化,例如:

  • 大规模训练
  • 小规模训练、微调、批量推理和重新训练
  • 实时机器学习推理

如需了解 AI 可用区的背景信息,请参阅 Compute Engine 文档中的 AI 可用区

在某个区域内,AI 可用区可能在地理位置上远离标准(非 AI)可用区。

AI 可用区与其他 Cloud Storage 和 Google Cloud功能兼容。

存储架构建议

我们建议您使用分层存储架构来平衡费用、持久性和性能:

  • 冷存储层:使用标准区域中的区域级 Cloud Storage 存储分区来持久存储高度耐用的训练数据集和模型检查点(“可信来源”)。

  • 性能层:使用专用区域存储服务作为高速缓存或临时暂存空间。这种方法可消除地区间延迟,并在作业处于活跃状态时最大限度地提高吞吐量。

建议使用以下存储解决方案,通过 AI 区域优化 AI 和 ML 系统性能:

存储服务 说明 使用场景
Cloud Storage 的 Anywhere Cache 功能

一种全托管式、由 SSD 提供支持的可用区级读取缓存,可将存储分区中频繁读取的数据引入 AI 可用区。

在 AI 可用区中为包含要提供服务的训练数据集或模型的区域级源存储分区创建 Anywhere Cache 实例。当训练作业读取文件时,该文件会被提取到快速的可用区内缓存中。后续读取操作直接从缓存中提供,绕过区域网络。这非常适合模型训练中重复的数据访问模式以及低延迟模型服务。

推荐使用场景:

  • 读取密集型工作负载
  • 低延迟模型训练和服务

不建议用于:

  • 需要完全符合 POSIX 标准的应用

最佳做法

使用 AI 区域时,请遵循以下存储空间最佳实践:

  • 在与计算资源相同的 AI 可用区中预配性能层。将计算和存储资源放置在同一位置有助于确保 GPU 和 TPU 保持完全饱和状态,从而最大限度地提高“有效吞吐量”(有用的吞吐量)。

  • 对于 Anywhere Cache,在开始主要训练周期之前,请预读取数据集以填充或预热 SSD 支持的缓存。

可使用 AI 的地区

下表显示了 AI 可用区及其父 Google Cloud区域。

地理区域 父级地区 AI 可用区
美国 us-south1 us-south1-ai1b

注意事项

  • 您可以在 Google Cloud 区域的 AI 可用区中访问 Google Cloud 产品。不过,从 AI 可用区访问 Google Cloud区域中的服务可能会增加网络延迟,因为 AI 可用区的位置可能与该区域的标准可用区的位置在物理上是分开的。

  • 我们建议您在标准可用区(而非 AI 可用区)中运行非机器学习工作负载,因为 AI 可用区并非在本地提供所有 Google Cloud 服务。

后续步骤