Cloud Storage FUSE 中的缓存概览

本文档详细介绍了 Cloud Storage FUSE 可用的缓存选项,以及如何配置每种缓存类型。

为了帮助提高数据检索的性能,Cloud Storage FUSE 提供了四种类型的可选缓存。请参阅下表,详细了解每种类型的缓存:

缓存类型 说明
文件缓存

加快了读取密集型工作负载的文件数据读取速度,这些工作负载会重复访问数据,尤其是人工智能和机器学习训练,其中会多次读取相同的大文件,从而显著缩短延迟时间。

列表缓存

加快了经常列出目录全部内容的工作负载的目录列出操作,例如在处理作业开始时迭代处理大量文件,从而提高了目录遍历速度。

统计信息缓存

加快了频繁检查文件属性的应用的文件元数据操作,这对于许多反复检查文件是否已更改的应用来说很常见,从而减少了对 Cloud Storage 的 `GetMetadata` 调用次数。

类型缓存

加快了对执行多次存在性检查或路径查找的工作负载的文件或目录存在性检查速度,通过减少为检查路径是否存在而向 Cloud Storage 发出的请求数量,缩短了延迟时间。

注意事项

  • 启用缓存可以提高性能,但会降低一致性,这通常发生在您使用多个更改频率较高的客户端访问同一存储桶时。为减少对一致性的影响,我们建议将存储桶装载为只读。如需详细了解缓存行为,请参阅 Cloud Storage FUSE GitHub 文档中的 Cloud Storage FUSE 语义

  • 为避免缓存抖动,请确保整个数据集不超过缓存容量。此外,请考虑缓存介质可以提供的最大容量和性能。如果达到预配缓存的最大性能和/或容量限制,则直接从 Cloud Storage 读取会很有帮助,因为限制比 Cloud Storage FUSE 高得多。

缓存数据的读取路径

Cloud Storage FUSE 缓存会在将重复读取提取到缓存后加快这些读取的速度。在首次读取以及缓存未命中时,都会直接转到 Cloud Storage,且受到正常 Cloud Storage 网络延迟时间的限制。 如需提高首次读取性能,请参阅预先填充元数据缓存

后续步骤