Cloud Storage FUSE でのファイルキャッシュ保存

このドキュメントでは、Cloud Storage FUSE のファイルキャッシュの概要と、ファイルキャッシュの構成および使用方法について説明します。

Cloud Storage FUSE のファイルキャッシュは、クライアントサイドの読み取りキャッシュです。これを使用すると、選択したより高速なキャッシュストレージから繰り返しファイルを読み取れるため、読み取りオペレーションのパフォーマンスが向上します。ファイルキャッシュが有効になっている場合、Cloud Storage FUSE は頻繁にアクセスされるファイルのコピーをローカルに保存します。これにより、後続の読み取りをキャッシュから直接提供できるため、レイテンシが短縮され、スループットが向上します。

ファイルキャッシュのメリット

ファイルキャッシュには次の利点があります。

小規模なランダム I/O のパフォーマンスの向上: ファイルキャッシュは、キャッシュメディアから直接読み取りを行うことで、レイテンシとスループットを改善します。小規模でランダムな I/O オペレーションは、キャッシュから処理することで大幅に高速化できます。
並列ダウンロードが自動的に有効になる: ファイルキャッシュが有効になっている場合、Cloud Storage FUSE バージョン 2.12 以降では並列ダウンロードが自動的に有効になります。並列ダウンロードでは、ファイルキャッシュディレクトリをプリフェッチバッファとして使用して、複数のワーカーでファイルを並列にダウンロードします。これにより、モデルの読み込み時間を最大 9 倍短縮できます。モデル提供やチェックポイントの復元など、大規模なファイルを読み込む単一スレッドの読み取りシナリオには、並列ダウンロードを使用することをおすすめします。
既存の容量の使用: ファイルのキャッシュ保存では、追加のストレージに対して課金されることなく、キャッシュディレクトリにすでにプロビジョニングされているマシン容量を使用できます。これには、a2-ultragpu、a3-highgpu、Persistent Disk（各 VM で使用されるブートディスク）、メモリ内 /tmpfs などの Cloud GPU マシンタイプにバンドルされているローカル SSD が含まれます。
料金の削減: キャッシュヒットがローカルで処理されるため、Cloud Storage オペレーションやネットワークの料金が発生しません。
AI と ML のトレーニングの総所有コストの改善: ファイルキャッシュによりデータの読み込みが速くなるため、Cloud GPU と Cloud TPU の使用率が向上します。トレーニング時間が短縮され、人工知能と機械学習（AI / ML）のトレーニングワークロードの費用対効果が高まります。

並列ダウンロード

並列ダウンロードでは、ファイルキャッシュディレクトリをプリフェッチバッファとして使用して、複数のワーカーでファイルの複数の部分を並列でダウンロードすることで、読み取りパフォーマンスを向上させることができます。モデル提供、チェックポイントの復元、大規模オブジェクトのトレーニングなど、大規模なファイルを読み込むシナリオには、並列ダウンロードを使用することをおすすめします。

並列ダウンロードでファイルキャッシュを有効にするユースケースには、次のようなものがあります。

ユースケースのタイプ説明

トレーニング

ユースケースのタイプ	説明
トレーニング	アクセスするデータが複数回読み取られる場合は、ファイルキャッシュを有効にします。同じファイルが複数回読み取られる場合も、同じファイルの異なるオフセットが読み取られる場合も同様です。データセットがファイルキャッシュよりも大きい場合は、ファイルキャッシュを無効のままにして、代わりに次のいずれかの方法を使用します。 `--file-cache-cache-file-for-range-read` `gcsfuse` オプション構成ファイルの `file-cache:cache-file-for-range-read` フィールド
モデルの重み付けとチェックポイントの読み取り	並列ダウンロードでファイルキャッシュを有効にすると、並列ダウンロードを利用できるようになります。これにより、ファイルキャッシュと並列ダウンロードを使用しない場合よりも、大容量のファイルをはるかに高速に読み込むことができます。

アクセスするデータが複数回読み取られる場合は、ファイルキャッシュを有効にします。同じファイルが複数回読み取られる場合も、同じファイルの異なるオフセットが読み取られる場合も同様です。データセットがファイルキャッシュよりも大きい場合は、ファイルキャッシュを無効のままにして、代わりに次のいずれかの方法を使用します。

モデルの重み付けとチェックポイントの読み取り並列ダウンロードでファイルキャッシュを有効にすると、並列ダウンロードを利用できるようになります。これにより、ファイルキャッシュと並列ダウンロードを使用しない場合よりも、大容量のファイルをはるかに高速に読み込むことができます。

考慮事項

ファイルキャッシュの有効期間（TTL）: TTL に基づいてファイルキャッシュエントリがまだ期限切れになっておらず、ファイルがキャッシュに存在している場合、そのファイルに対する読み取りオペレーションは、Cloud Storage にリクエストが発行されることなく、ローカルクライアントキャッシュから処理されます。
ファイルキャッシュエントリの有効期限: ファイルキャッシュエントリの有効期限が切れている場合、最初に Cloud Storage に対して GET ファイル属性呼び出しが行われます。ファイルが存在しない場合や、属性またはコンテンツが変更されている場合は、新しいコンテンツが取得されます。属性が無効になっただけで、コンテンツは有効なまま（オブジェクト生成が変更されていない）の場合、属性呼び出しで有効性が確認された後にのみ、コンテンツがキャッシュから提供されます。どちらのオペレーションでもネットワークレイテンシが発生します。
ファイルキャッシュの無効化: Cloud Storage FUSE クライアントによって、キャッシュに保存されたファイルまたはその属性が変更されると、整合性を確保するために、そのクライアントのキャッシュエントリはすぐに無効になります。ただし、同じファイルにアクセスしている他のクライアントは、個々の TTL 設定によって無効になるまで、キャッシュ保存バージョンの読み取りを続行します。
ファイルサイズと使用可能な容量: 読み取り対象のファイルは、ファイルキャッシュディレクトリの使用可能な容量に収まるサイズでなければなりません。この容量は、--file-cache-max-size-mb オプションまたは file-cache:max-size-mb フィールドを使用して制御できます。
キャッシュの強制排除: キャッシュに保存されているメタデータとデータのエビクションは、--file-cache-max-size-mb 制限ごとに構成された空きスペースのしきい値に達すると開始される LRU（最も長い間使われていないものを特定する）アルゴリズムに基づいて行われます。エントリが TTL に基づいて期限切れになると、最初に Cloud Storage に対して GET メタデータ呼び出しが行われますが、これはネットワークのレイテンシの影響を受けます。データとメタデータが個別に管理されるため、一方のエンティティがエビクションまたは無効化され、他方のエンティティではこれらが行われない場合があります。
キャッシュの永続性: Cloud Storage FUSE キャッシュは、マウント解除時に保持されず、再起動します。ファイルキャッシュの場合、キャッシュからファイルを提供するために必要なメタデータエントリはマウント解除と再起動時に削除されますが、ファイルキャッシュ内のデータはファイルディレクトリに残っている可能性があります。マウントを解除するか再起動した後に、ファイルキャッシュディレクトリ内のデータを削除することをおすすめします。
ランダム読み取りと部分読み取りの管理: 最初のファイル読み取りオペレーションがファイルの先頭（オフセット 0）から開始される場合、Cloud Storage FUSE ファイルキャッシュは、狭い範囲のサブセットからしか読み取らない場合でも、ファイル全体をキャッシュに取り込んで読み込みます。これにより、同じオブジェクトからのその後のランダムまたは部分的な読み取りは、キャッシュから直接処理されます。

デフォルトでは、他のオフセットからの読み取りでは非同期の完全ファイル取得がトリガーされません。この動作を変更して、Cloud Storage FUSE が最初のランダム読み取り時にキャッシュにファイルを取り込むようにするには、--file-cache-cache-file-for-range-read オプションまたは file-cache:cache-file-for-range-read フィールドを true に設定します。

同じオブジェクトに対して多くの異なるランダム読み取りまたは部分読み取りのオペレーションが実行される場合は、このプロパティを有効にすることをおすすめします。
データセキュリティ: キャッシュ保存を有効にすると、Cloud Storage FUSE は、--cache-dir オプションまたは cache-dir フィールドを使用して指定したキャッシュディレクトリをキャッシュの基盤となるディレクトリとして使用し、Cloud Storage バケットのファイルを暗号化された形式で保持します。このキャッシュディレクトリにアクセスできるユーザーまたはプロセスは、これらのファイルにアクセスできます。このディレクトリへのアクセスを制限することをおすすめします。
ファイルキャッシュへの直接アクセスまたは複数アクセス: Cloud Storage FUSE 以外のプロセスを使用してキャッシュディレクトリ内のファイルへのアクセスやファイルの変更を行うと、データが破損するおそれがあります。Cloud Storage FUSE キャッシュは、実行中の各 Cloud Storage FUSE プロセスに固有であり、同じマシンまたは別のマシンで実行されている別の Cloud Storage FUSE プロセスを認識しません。そのため、異なる Cloud Storage FUSE プロセスで同じキャッシュディレクトリを使用することはおすすめしません。
同じマシンでの複数の Cloud Storage FUSE プロセスの実行: 同じマシンで複数の Cloud Storage FUSE プロセスを実行する必要がある場合は、各 Cloud Storage FUSE プロセスが独自のキャッシュディレクトリを取得するか、次のいずれかの方法でデータが破損しないようにする必要があります。
- 共有キャッシュを使用してすべてのバケットをマウントする: 動的マウントを使用して、アクセス可能なすべてのバケットを共有キャッシュにより 1 つのプロセスでマウントします。詳細については、Cloud Storage FUSE の動的マウントをご覧ください。
- 特定のバケットでキャッシュを有効にする: 静的マウントを使用して、指定したバケットでのみキャッシュ保存を有効にします。詳細については、Cloud Storage FUSE の静的マウントをご覧ください。
- 特定のフォルダまたはディレクトリのみをキャッシュに保存する: バケット全体をマウントするのではなく、特定のバケットレベルのフォルダのみをマウントしてキャッシュに保存します。詳細については、バケット内のディレクトリをマウントするをご覧ください。

始める前に

ファイルキャッシュでは、ファイルをキャッシュに保存するディレクトリパスが必要です。既存のファイルシステムに新しいディレクトリを作成するか、プロビジョニングされたストレージに新しいファイルシステムを作成できます。使用する新しいストレージをプロビジョニングする場合は、次の手順で新しいファイルシステムを作成します。

Google Cloud Hyperdisk の場合は、新しい Google Cloud Hyperdisk ボリュームを作成するをご覧ください。
Persistent Disk の場合は、新しい Persistent Disk ボリュームを作成するをご覧ください。
ローカル SSD の場合は、VM にローカル SSD を追加するをご覧ください。
メモリ内 RAM ディスクの場合は、メモリ内 RAM ディスクの作成をご覧ください。

ファイルキャッシュの動作を有効にして構成する

次のいずれかの方法で、ファイルキャッシュを有効にして構成する方法を選択します。
- gcsfuse オプションの値として指定します。
- Cloud Storage FUSE 構成ファイルで指定する
注: サンプル構成を使用して、ファイルキャッシュを有効にして構成することもできます。詳細については、ファイルキャッシュと並列ダウンロードを有効にする構成例をご覧ください。
次のいずれかの方法で、使用するキャッシュディレクトリを指定します。これにより、Google Kubernetes Engine 以外のデプロイメントでファイルキャッシュを有効にできます。
- gcsfuse オプション: --cache-dir
- 構成ファイルのフィールド: cache-dir
Google Kubernetes Engine 用の Cloud Storage FUSE CSI ドライバを使用する Google Kubernetes Engine デプロイメントを使用している場合は、次のいずれかを指定します。
- gcsfuse オプション: --file-cache-max-size-mb
- 構成ファイルのフィールド: file-cache:max-size-mb
注: Google Kubernetes Engine でファイルキャッシュを有効にする方法については、ファイルキャッシュを有効にして使用するをご覧ください。
省略可: 並列ダウンロードが自動的に有効になっていない場合は、次のいずれかを true に設定して、並列ダウンロードを有効にします。
- gcsfuse オプション: --file-cache-enable-parallel-downloads
- 構成ファイルのフィールド: file-cache:enable-parallel-downloads
マウントされたディレクトリ内で Cloud Storage FUSE キャッシュが使用できる合計容量を制限するには、次のいずれかのオプションを調整します。キャッシュディレクトリを指定すると、このオプションは自動的に値 -1 に設定されます。
- gcsfuse オプション: --file-cache-max-size-mb
- 構成ファイルのフィールド: file-cache:max-size-mb
MiB または GiB 単位で値を指定して、キャッシュサイズを制限することもできます。
注: スタンドアロンの Cloud Storage FUSE や Google Kubernetes Engine ベース以外のデプロイメントなどの Compute Engine 仮想マシン（VM）を使用している場合、cache-dir を有効にすると、--file-cache-max-size-mb オプションまたは file-cache:max-size-mb フィールドが自動的に有効になり、-1 に設定されます。
省略可: キャッシュに保存されたエントリの TTL の有効期限をバイパスし、利用可能な場合はキャッシュからファイルメタデータを提供するには、次のいずれかの方法で値 -1 を設定します。
- gcsfuse オプション: --metadata-cache-ttl-secs
- 構成ファイルのフィールド: metadata-cache:ttl-secs
デフォルトは 60 秒です。値 -1 を指定すると、無制限に設定されます。要件に基づいて高い値を指定することもできます。ttl-secs 値は、ワークロードで許容される限り高く設定することをおすすめします。キャッシュに保存されたエントリの TTL の詳細については、考慮事項をご覧ください。
省略可: ファイルの最初の読み取りオペレーションが offset 0 以外の場所から開始された場合に、ファイル全体を非同期的にキャッシュに読み込むファイルキャッシュの機能を有効にします。これにより、後続の読み取りでも同じファイルの異なるオフセットをキャッシュから取得できます。次のいずれかの方法で、オプションを true に設定します。
- gcsfuse オプション: --file-cache-cache-file-for-range-read
- 構成ファイルのフィールド: file-cache:cache-file-for-range-read
省略可: 統計情報キャッシュとタイプキャッシュを構成します。統計情報キャッシュとタイプキャッシュの詳細については、タイプキャッシュ保存の概要または統計情報キャッシュ保存の概要をご覧ください。
ワークロードを実行する前に、マウントされたバケットで ls -R コマンドを手動で実行してメタデータを事前入力し、高速なバッチ方式で初回の読み取りが行われる前にタイプキャッシュが入力されるようにします。初回読み取りのパフォーマンスを改善する方法について詳しくは、初回読み取りを改善するをご覧ください。

ファイルキャッシュを有効にすると、Cloud Storage FUSE バージョン 2.12 以降で並列ダウンロードが自動的に有効になります。古いバージョンの Cloud Storage FUSE を使用している場合は、enable-parallel-downloads オプションを true に設定して、並列ダウンロードを有効にします。

並列ダウンロードのサポートプロパティを構成する

必要に応じて、Cloud Storage FUSE CLI または Cloud Storage FUSE 構成ファイルを使用して、並列ダウンロードの次のサポートプロパティを構成できます。

プロパティの説明	`gcsfuse` オプション	構成ファイルのフィールド
Cloud Storage からファイルキャッシュにオブジェクトをダウンロードするためにファイルごとに生成できるワーカーの最大数。	`--file-cache-parallel-downloads-per-file`	`file-cache:parallel-downloads-per-file`
ファイルダウンロードジョブ全体で、任意の時点で生成できるワーカーの最大数。デフォルトでは、マシン上の CPU コア数の 2 倍の値に設定されます。上限を指定しない場合は、値 -1 を入力します。	`--file-cache-max-parallel-downloads`	`file-cache:max-parallel-downloads`
オブジェクトをファイルキャッシュにダウンロードするときに、各ワーカーが Cloud Storage に対して行う 1 回の読み取りリクエストのサイズ（MiB 単位）。並列ダウンロードは、読み取る対象のファイルのサイズが指定されたサイズである場合にのみトリガーされます。	`--file-cache-download-chunk-size-mb`	`file-cache:download-chunk-size-mb`

並列ダウンロードを無効にする

並列ダウンロードを無効にするには、次のいずれかを false に設定します。

gcsfuse オプション: --file-cache-enable-parallel-downloads
構成ファイルのフィールド: file-cache:enable-parallel-downloads

次のステップ

Cloud Storage FUSE のキャッシュに関する考慮事項を確認する。
Cloud Storage FUSE のパフォーマンスを改善する方法を確認する。