ストレージ サービス

このドキュメントでは、人工知能(AI)と機械学習(ML)のワークロードにおけるストレージ サービスのユースケースと推奨事項について説明します。

ストレージのユースケース

ストレージ サービスは、次の AI / ML ワークロードで使用される場合があります。

  • トレーニング用のデータを準備して読み込む
  • 推論用のモデルの重みを読み込む
  • モデルのチェックポイントの保存と復元
  • VM イメージの読み込み
  • ロギングデータ
  • ホーム ディレクトリ
  • アプリケーション ライブラリ、パッケージ、依存関係の読み込み

ストレージに関する推奨事項

AI / ML システムのパフォーマンスを最適化するには、次のストレージ ソリューションをおすすめします。

ストレージ サービス 機能 ユースケース
Cloud Storage

概要: スケーラビリティと耐久性に優れ、低コストのオブジェクト ストア。トレーニングとモデルのチェックポイントに必要な大規模なデータセットの保存や、最終的にトレーニングされたモデルのホスティングに適しています。Cloud Storage FUSE を使用した Cloud Storage は、ファイル システム サービスよりも費用対効果の高い方法でデータ ストレージをスケーリングできるため、ほとんどの AI / ML ユースケースにおすすめのストレージ ソリューションです。

  • GPU クラスタと TPU クラスタの大規模(最大 EB)のトレーニング データをサポートします。
  • 高スループット(最大 1.25 TB/秒以上の帯域幅)をサポートします。Cloud Storage でスループットを最大化するには、帯域幅の増加をリクエストします。
  • Cloud Storage FUSE との統合により、Cloud Storage バケットをローカル ファイル システムとしてマウントできます。Cloud Storage FUSE CSI ドライバを使用すると、スケーリングされた AI ワークロードと ML ワークロード用に、Google Kubernetes Engine(GKE)でバケットをローカル ファイル システムとしてマウントすることもできます。
  • Anywhere Cache を使用して、コンピューティング ワークロードと同じゾーンにストレージをコロケーションします。これにより、マルチリージョン バケットと組み合わせて使用すると、スループットの向上(最大 2.5 TB/秒)、レイテンシの短縮、ロケーションの柔軟性が実現します。
  • AI / ML ワークロードに Cloud Storage FUSE を使用する方法については、Cloud Storage FUSE を使用して AI / ML ワークロードを最適化するをご覧ください。

推奨される用途:

  • 費用対効果
  • データ処理と準備
  • モデルのトレーニングと推論
  • モデルのチェックポイントの保存と復元

推奨されない用途:

  • 完全な POSIX 準拠を必要とするアプリケーション
  • ホーム ディレクトリ
Google Cloud Managed Lustre

概要: AI アプリケーションとハイ パフォーマンス コンピューティング(HPC)アプリケーション向けに最適化された、高パフォーマンスでフルマネージドの並列ファイル システム。シミュレーション、モデリング、分析のために複数のコンピューティング ノードが共有データに高速かつ一貫してアクセスする必要がある環境に適しています。

  • 容量は 8 PB まで、スループットは最大 1 TB/秒までスケーリングできます。
  • 数千の IOPS/TiB をサポートします。
  • 超低レイテンシ(1 ミリ秒未満)を実現します。
  • 完全な POSIX サポートにより、オンプレミス AI ワークロードを Google Cloudにすぐに移行できます。
  • AI / ML ワークロードに Managed Lustre を使用する方法については、Google Cloud Managed Lustre で AI / ML ワークロードを最適化するをご覧ください。

推奨される用途:

  • AI / ML ワークロードをクラウドに移行する
  • モデル シミュレーション
  • モデルのトレーニングと推論
  • モデルのチェックポイントの保存と復元
  • 頻繁に小規模な読み取りと書き込みを行うワークロード
  • ホーム ディレクトリ

推奨されない用途:

  • 8 PB を超えるデータを必要とするワークロード

次のステップ