Cloud Storage FUSE でのキャッシュ保存の概要

このドキュメントでは、Cloud Storage FUSE で使用可能なキャッシュ保存オプションと、各キャッシュタイプを構成する方法について説明します。

データ取得のパフォーマンスを向上させるため、Cloud Storage FUSE には次の 4 種類のキャッシュ保存機能がオプションとして用意されています。次の表に、各タイプのキャッシュ保存の詳細を示します。

キャッシュタイプ	説明
ファイルキャッシュ保存	データに繰り返しアクセスする読み取り負荷の高いワークロード（特に、同じ大きなファイルが複数回読み取られる AI と ML のトレーニング）のファイルデータ読み取りを高速化し、レイテンシを大幅に短縮します。
リストキャッシュ保存	ディレクトリのコンテンツ全体を頻繁に一覧表示するワークロード（処理ジョブの開始時に大量のファイルをイテレーションするなど）のディレクトリリストオペレーションが高速化され、ディレクトリトラバーサルの速度が向上します。
統計キャッシュ保存	ファイル属性を頻繁にチェックするアプリケーションのファイルメタデータオペレーションを高速化します。ファイルが変更されたかどうかを繰り返しチェックする多くのアプリケーションで一般的です。これにより、Cloud Storage の「GetMetadata」呼び出しの数が減ります。
型キャッシュ保存	存在チェックやパス検索を頻繁に行うワークロードのファイルまたはディレクトリの存在チェックを高速化し、パスが存在するかどうかを確認するために Cloud Storage に送信されるリクエストの数を減らしてレイテンシを短縮します。

考慮事項

キャッシュを有効にすると、パフォーマンスは向上しますが、整合性が低下します。これは通常、変更率の高い複数のクライアントを使用して同じバケットにアクセスする場合に発生します。整合性への影響を軽減するため、バケットを読み取り専用としてマウントすることをおすすめします。キャッシュ保存の動作の詳細については、Cloud Storage FUSE GitHub ドキュメントの Cloud Storage FUSE セマンティクスをご覧ください。
キャッシュスラッシングを回避するため、データセット全体がキャッシュ容量に収まるようにしてください。また、キャッシュメディアが提供できる最大容量とパフォーマンスも考慮してください。プロビジョニングされたキャッシュのパフォーマンス、容量の上限、またはその両方に達した場合は、Cloud Storage FUSE よりも上限がはるかに高い Cloud Storage から直接読み取ることをおすすめします。

キャッシュ保存されたデータの読み取りパス

Cloud Storage FUSE キャッシュは、キャッシュに取り込まれた後の反復読み取りを高速化します。初回読み取りとキャッシュミスは、どちらも Cloud Storage に直接送信され、通常の Cloud Storage ネットワークのレイテンシの影響を受けます。初回読み取りのパフォーマンスを改善するには、メタデータキャッシュに事前入力するをご覧ください。

次のステップ

各キャッシュタイプの詳細を確認する。

Cloud Storage FUSE でのキャッシュ保存の概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

考慮事項

キャッシュ保存されたデータの読み取りパス

次のステップ

Cloud Storage FUSE でのキャッシュ保存の概要