高性能机器类型的自动化配置值

本文档介绍了如何自动设置用于高性能 Compute Engine 机器类型的默认 Cloud Storage FUSE 值,这些值旨在针对要求严苛的高吞吐量工作负载优化性能。在装载时手动设置的值会替换这些默认值。

机器类型

以下高性能 Compute Engine 机器类型的配置值是自动设置的:

系列类型 机器类型
A2 机器系列
a2-megagpu-16g
a2-ultragpu-8g
A3 机器系列
a3-edgegpu-8g
a3-highgpu-8g
a3-megagpu-8g
a3-ultragpu-8g
A4 机器系列
4-highgpu-8g-lowmem
TPU v5e
ct5l-hightpu-8t
ct5lp-hightpu-8t
TPU v5p
ct5p-hightpu-4t
ct5p-hightpu-4t-tpu
TPU v6e (Trillium)
ct6e-standard-4t
ct6e-standard-4t-tpu
ct6e-standard-8t
ct6e-standard-8t-tpu

自动配置值

检测到支持的机器类型时,Cloud Storage FUSE 会自动应用以下配置值:

Cloud Storage FUSE 配置文件字段 Cloud Storage FUSE CLI 选项 自动配置值
metadata-cache.negative-ttl-secs --metadata-cache-negative-ttl-secs 0
metadata-cache.ttl-secs1 --metadata-cache-ttl-secs1

-1

metadata-cache.stat-cache-max-size-mb --stat-cache-max-size-mb 1024
metadata-cache.type-cache-max-size-mb --type-cache-max-size-mb 128
implicit-dirs --implicit-dirs true
file-system.rename-dir-limit --rename-dir-limit 200000

1 将此配置设为 -1 可始终从缓存中传送文件,从而显著提升性能。请注意,此配置会绕过一致性检查,可能会导致提供过时的数据。如需详细了解如何管理数据一致性,请参阅 Cloud Storage FUSE 中的缓存概览

进一步微调性能

当您使用高性能 Google Cloud 机器类型时,系统会自动应用本页中详述的配置值。不过,您可以使用以下方法进一步微调机器,以获得最佳性能:

  • 使用性能调优最佳实践指南,通过使用关键 Cloud Storage FUSE 功能和配置来改进 Cloud Storage FUSE,以实现最大吞吐量和最佳性能。

  • 如果您在 Google Kubernetes Engine 集群上运行训练、服务或检查点和即时 (JIT) 缓存工作负载,并使用 Cloud GPU 或 Cloud TPU 访问 Cloud Storage 中的大型数据集,则可以利用预配置的 YAML 文件将 Cloud Storage 存储分区直接挂载到 pod 中,从而更高效地简化设置。如需详细了解如何使用预配置的 GKE YAML 文件,请参阅使用预配置的 GKE YAML 文件优化 Cloud Storage FUSE 性能

  • 如果您使用 Cloud Storage FUSE 运行训练、服务或检查点工作负载,可以使用 profile 字段--profile 命令选项,根据具体的工作负载类型自动调整特定的 Cloud Storage FUSE 配置,以实现最佳性能。如需了解详情,请参阅基于配置文件的 AI/机器学习工作负载配置

后续步骤