このドキュメントでは、Cloud Storage FUSE で使用可能なキャッシュ保存オプションと、各キャッシュ タイプを構成する方法について説明します。
データ取得のパフォーマンスを向上させるため、Cloud Storage FUSE には次の 4 種類のキャッシュ保存機能がオプションとして用意されています。次の表に、各タイプのキャッシュ保存の詳細を示します。
キャッシュの種類 | 説明 |
---|---|
ファイル キャッシュ保存 | データを繰り返しアクセスする読み取り負荷の高いワークロード(特に、同じ大きなファイルが複数回読み取られる人工知能と機械学習のトレーニング)のファイルデータ読み取りを高速化し、レイテンシを大幅に短縮します。 |
リスト キャッシュ保存 | 処理ジョブの開始時に大量のファイルを反復処理するなど、ディレクトリの内容全体を頻繁に一覧表示するワークロードのディレクトリ リスト オペレーションを高速化し、ディレクトリ トラバーサルの速度を向上させます。 |
統計キャッシュ保存 | ファイル属性を頻繁にチェックするアプリケーションのファイル メタデータ オペレーションを高速化します。これは、ファイルが変更されたかどうかを繰り返しチェックする多くのアプリケーションで一般的です。これにより、Cloud Storage の `GetMetadata` 呼び出しの数が減ります。 |
型キャッシュ保存 | 存在チェックやパス検索を頻繁に行うワークロードのファイルまたはディレクトリの存在チェックを高速化し、パスが存在するかどうかを確認するために Cloud Storage に送信されるリクエストの数を減らしてレイテンシを短縮します。 |
考慮事項
キャッシュを有効にすると、パフォーマンスは向上しますが、整合性が低下します。これは通常、変更率の高い複数のクライアントを使用して同じバケットにアクセスする場合に発生します。整合性への影響を軽減するため、バケットを読み取り専用としてマウントすることをおすすめします。キャッシュ保存の動作の詳細については、Cloud Storage FUSE GitHub ドキュメントの Cloud Storage FUSE セマンティクスをご覧ください。
キャッシュ スラッシングを回避するため、データセット全体がキャッシュ容量に収まるようにしてください。また、キャッシュ メディアが提供できる最大容量とパフォーマンスも考慮してください。プロビジョニングされたキャッシュのパフォーマンス、容量の上限、またはその両方に達した場合は、Cloud Storage FUSE よりも上限がはるかに高い Cloud Storage から直接読み取ることをおすすめします。
キャッシュ保存されたデータの読み取りパス
Cloud Storage FUSE キャッシュは、キャッシュに取り込まれた後の反復読み取りを高速化します。初回読み取りとキャッシュミスは、どちらも Cloud Storage に直接送信され、通常の Cloud Storage ネットワークのレイテンシの影響を受けます。初回読み取りのパフォーマンスを改善するには、メタデータ キャッシュに事前入力するをご覧ください。
次のステップ
各キャッシュ保存タイプの詳細を確認する: