Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI Hypercomputer の AI / ML ワークロード用ストレージサービスの概要

ストレージサービスは、AI Hypercomputer エコシステムで高性能なモデルトレーニング、推論、ファインチューニングを実現するうえで不可欠なデータアーキテクチャを提供します。では複数のストレージサービスを利用できますが、最適な選択肢は、人工知能（AI）と機械学習（ML）のライフサイクル内のユースケースの I/O、スループット、スケール、レイテンシの要件によって異なります。 Google Cloud

このドキュメントでは、GPU または TPU のパフォーマンスの最適化に最適なストレージサービスを Google Cloud 紹介し、比較します。また、特定の AI および ML ユースケースに最適なサービスに関する推奨事項も提供します。

ストレージサービスの概要

Google Cloud には、AI および ML ユースケース向けに最適化された複数のストレージソリューションが用意されています。

Cloud Storage は、トレーニングや一括推論に必要な大規模なデータセットの処理と保存用に設計されたオブジェクトストレージシステムです。Cloud Storage には、AI および ML タスクのデータストレージを最適化するための機能がいくつか用意されています。
Google Cloud Managed Lustre は、トレーニングと推論のワークロードに必要な、特殊な低レイテンシで高並行のメタデータパフォーマンス向けに設計された、フルマネージドの POSIX 準拠並列ファイルシステムです。

以降のセクションでは、各ストレージサービスについて詳しく説明します。

Cloud Storage

Cloud Storage は、グローバルなスケーラビリティ、耐久性、費用対効果を提供するように設計された基盤となるオブジェクトストアです。Cloud Storage を使用する場合、データはバケットと呼ばれるコンテナにオブジェクトとして保存されます。Cloud Storage には、AI および ML ワークロードのパフォーマンスを最適化するのに役立つバケット向けの機能が複数用意されています。

Cloud Storage Rapid ファミリーのプロダクトは、コンピューティングリソースの近くにデータを配置することで、AI および ML ワークロードのデータボトルネックを解消するように設計されています。これらのプロダクトを使用すると、コンピューティングワークロードと同じゾーンにデータを配置し、GPU または TPU クラスタの高パフォーマンスで費用対効果の高いデータストレージスケーリングを実現できます。Cloud Storage Rapid プロダクトには、次のものがあります。
- Rapid Bucket は、ゾーンバケットの Cloud Storage で最速の読み取り / 書き込みパフォーマンスを提供します。ゾーンバケット内のオブジェクトは、 I/O 集約型のワークロード向けに最適化された高性能ストレージクラスである Rapid Storage ストレージクラスに保存されます。Rapid Bucket は、レイテンシの短縮に加えて、Cloud Storage の他のプロダクトやバケットロケーションと比較して、スループットが大幅に向上します（最大 15 TB/秒）。
- Rapid Cache は、コードを変更することなく、既存のバケットへのデータ読み取りを高速化します。Rapid Cache は、データ読み取りリクエストのデータ提供に使用される、Cloud Storage バケット用の SSD ベースのゾーン読み取りキャッシュです。このプロダクトは、キャッシュのないバケットよりも高いスループット（最大 2.5 TB/秒）と低いレイテンシを実現します。
  
  Rapid Cache は、アクセラレータ容量がリージョン全体に分散されるマルチリージョンバケット用に設定されることがよくあります。 Google Cloud キャッシュから読み取られたデータには、マルチリージョンバケットから直接読み取られたデータよりもデータ転送料金が削減されます。
Cloud Storage FUSE は、バケットをローカルファイルシステムとしてマウントできるオープンソースの FUSE アダプタです。これにより、アプリケーションは標準のファイルシステムセマンティクスを使用してオブジェクトストレージとやり取りできます。この機能を使用すると、ローカルファイルアクセスで Cloud Storage のグローバルなスケーラビリティ、耐久性、費用対効果を活用できます。Cloud Storage FUSE は、によって積極的にメンテナンスとサポートが行われています Google。

Cloud Storage FUSE には、並列ダウンロードなど、複数のクライアントサイドキャッシュとチューニングパラメータが用意されています。これらの機能により、開発の複雑さを抽象化し、ストリームのシャーディングまたは並列化によって最高のパフォーマンスを実現できます。
階層型名前空間により、バケットに真のファイルシステム構造が実現し、効率的なデータ管理機能が提供されます。これには、アトミックフォルダの名前変更やファイル検索の高速化（Cloud Storage FUSE でバケットがマウントされている場合）が含まれます。階層型名前空間では、階層型名前空間のないバケットと比較して、オブジェクトの読み取りと書き込みの秒間クエリ数（QPS）が 8 倍になります。階層型名前空間を使用するメリットの詳細については、パフォーマンスと管理のメリットをご覧ください。

高スループットのデータ読み込みと頻繁なモデルチェックポイントが必要なワークロードがある場合は、階層型名前空間を有効にすることを強くおすすめします。 Rapid Bucket でゾーンバケットを作成する場合は、階層型名前空間を有効にする必要があります。

Managed Lustre

Google Cloud Managed Lustre は、AI および ML アプリケーション向けに最適化された、高性能で POSIX 準拠のフルマネージド並列ファイルシステムです。Managed Lustre アーキテクチャは、チェックポイント、強化学習における高速の重み伝播、Key-Value（KV）キャッシュなど、高スループット、低レイテンシ、高メタデータ並行処理の AI/ML ワークロードに最適です。

Managed Lustre の一般的なユースケースの詳細については、ビジネスケースをご覧ください。

ストレージサービスの比較

次の表に、主な特性における Cloud Storage と Managed Lustre の概要を比較します。

特性	Cloud Storage	Managed Lustre
アーキテクチャ	オブジェクトストアデータはデフォルトでフラットバケットに保存されます。すべてのバケットタイプ（ゾーン、リージョン、デュアルリージョン、およびマルチリージョン）で、Cloud Storage Rapid 機能で高速化できる地理的冗長オプションが用意されています。必要に応じて階層型名前空間を有効にして、ファイルシステム構造でのデータの保存をサポートするバケットを作成できます。必要に応じて Cloud Storage FUSE を有効にして、バケットをローカルファイルシステムとしてマウントできます。	並列ファイルシステムデータは Managed Lustre インスタンスにファイルとして保存され、追加のチューニングを行うことなく、アクセラレータクラスタ全体にローカルファイルシステムとしてマウントされます。
ストレージ容量	EB 単位でスケーリングできます。	インスタンスのパフォーマンスティアに応じて、最大 80 PB までスケーリングできます。
パフォーマンス	以下をサポートしています。 Rapid Bucket を使用したオープンファイルのミリ秒未満のレイテンシ Rapid Bucket を使用した数千万の IOP/TiB Rapid Cache を使用した最大 2.5 TB/秒の帯域幅 Rapid Bucket を使用した最大 15 TB/秒の帯域幅帯域幅の増加リクエスト	以下をサポートしています。ミリ秒未満のレイテンシ数千万の IOP/TiB 最大 10 TB/秒の帯域幅
料金	詳細については、Cloud Storage の料金をご覧ください。	詳細については、 Managed Lustre の料金をご覧ください。
要件別の推奨事項	トレーニングデータセット、非同期のマルチティアチェックポイント、モデルの重み付けの保存に、スケーラブルなオブジェクトストアと一般的な費用対効果が必要なアプリケーションにおすすめします。特に、Cloud Storage Rapid は、高性能で費用対効果の高いデータスケーリングにおすすめです。	完全に POSIX 準拠の並列ファイルシステムまたはホームディレクトリが必要なアプリケーションにおすすめします。また、KV キャッシュのオフロード、同期チェックポイント、強化学習の高速重み伝播など、レイテンシの影響を受けやすいワークロードや高メタデータ並行処理のワークロードにもおすすめです。

ユースケース別のストレージサービスの推奨事項

ユースケース	ストレージサービスの推奨事項	推奨される理由
データセットのトレーニングと準備	主な推奨事項: Cloud Storage Rapid Bucket	Cloud Storage バケットは、大量のトレーニングデータセットと推論データセットに必要な容量、スループットスケール、費用対効果、耐久性を提供します。Rapid Bucket を使用してゾーンバケットを作成すると、ゾーンバケットは非常に高いスループット（最大 15 TB/秒）と、最適なコストでオープンファイルのミリ秒未満のレイテンシを実現できます。
データセットのトレーニングと準備	2 番目の推奨事項: Managed Lustre	Managed Lustre はミリ秒未満のレイテンシを実現します。低レイテンシとメタデータの並行処理のパフォーマンスが優先される、最も集中的なトレーニングとデータセットの準備タスク専用の超高速ワークスペースとして役立ちます。
チェックポイントまたは重み転送のためのモデルの重み付けの移動または保存	主な推奨事項: Managed Lustre	Managed Lustre はミリ秒未満のレイテンシと並列データアクセスを提供するため、数千のロールアウトワーカーが同じ重みファイルを同時にプルしても速度が低下しません。
チェックポイントまたは重み転送のためのモデルの重み付けの移動または保存	2 番目の推奨事項: Cloud Storage Rapid Bucket	Rapid Bucket は、GCSFS を `fsspec` を介して併用する場合や、クライアントサイドのパフォーマンスチューニングで Cloud Storage FUSE と併用する場合に、非同期のマルチティアチェックポイントまたは分散チェックポイントに適しています。
推論用のモデルの保存とダウンロード	主な推奨事項: Cloud Storage Rapid Cache または Rapid Bucket	Rapid Cache は、推論のコールドスタートを短縮するブースターとして機能します。Rapid Cache を使用すると、モデルの重み付けを推論ノードと同じゾーンで事前ウォーミングできるため、新しい推論インスタンスはモデルの重み付けをすばやくダウンロードして最初のリクエストを処理できます。 Rapid Bucket は、高性能で高速化されたゾーンストレージエンジンとして機能し、推論フリートと同じゾーンにモデルの重み付けを配置できます。モデル提供には、ダウンロードパフォーマンスを最大化するために、 vLLM 用の Run:ai Model Streamer を使用することをおすすめします。他の推論スタックでは、 Cloud Storage FUSE の並列ダウンロードパラメータを最適化することで、モデルの重み付けのダウンロード時のコールドスタートレイテンシを大幅に短縮できます。
推論用のモデルの保存とダウンロード	2 番目の推奨事項: Managed Lustre	Managed Lustre はミリ秒未満のレイテンシと並列データアクセスを提供し、パフォーマンスに敏感なモデルと、同じモデルを同時にダウンロードする並行 GPU のスケーリングにメリットをもたらします。
KV キャッシュのオフロード	主な推奨事項: Managed Lustre	Managed Lustre はミリ秒未満のレイテンシと並列データアクセスを提供するため、異なるノードが KV キャッシュを「プル」し、チャットの履歴全体を再処理することなくチャットを再開できます。

次のステップ

AI、ML、データ集約型分析向けに設計された Cloud Storage のプロダクトファミリーである Cloud Storage Rapidの詳細を確認する。
Cloud Storage FUSE または Cloud Storage FUSE CSI ドライバを使用してデータセットをダウンロードする際のパフォーマンスを最適化する方法を確認する。
Google Kubernetes Engine でモデルの読み込みを高速化する方法を確認する。

AI Hypercomputer の AI / ML ワークロード用ストレージ サービスの概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ストレージ サービスの概要