AI ゾーン

このドキュメントでは、Cloud Storage の AI ゾーンの概要について説明します。AI ゾーンは、AI と ML のワークロードにコンピューティング容量を提供するように設計された特殊な Google Cloud ゾーンです。これらは、ML アクセラレータ(GPU と TPU)の容量を大幅に提供します。

AI ゾーンは、次のような AI / ML ワークロード向けに最適化されています。

  • 大規模なトレーニング
  • 小規模なトレーニング、ファインチューニング、一括推論、再トレーニング
  • リアルタイム ML 推論

AI ゾーンの背景情報については、Compute Engine ドキュメントの AI ゾーンをご覧ください。

リージョン内では、AI ゾーンが標準(非 AI)ゾーンから地理的に離れている場合があります。

AI ゾーンは、他の Cloud Storage 機能や Google Cloud機能と互換性があります。

ストレージ アーキテクチャの推奨事項

階層型ストレージ アーキテクチャを使用して、費用、耐久性、パフォーマンスのバランスを取ることをおすすめします。

  • コールド ストレージ レイヤ: トレーニング データセットとモデル チェックポイントの永続的で耐久性の高いストレージ(「信頼できる情報源」)には、標準ゾーンのリージョン Cloud Storage バケットを使用します。

  • パフォーマンス レイヤ: 専用のゾーン ストレージ サービスを使用して、高速キャッシュまたは一時スクラッチ スペースとして機能します。このアプローチにより、ゾーン間のレイテンシが解消され、アクティブなジョブの実行中にスループットが最大化されます。

AI ゾーンで AI / ML システムのパフォーマンスを最適化するには、次のストレージ ソリューションをおすすめします。

ストレージ サービス 説明 ユースケース
Cloud Storage の Anywhere Cache 機能

バケットから AI ゾーンに頻繁に読み取られるデータを取り込む、SSD を利用したフルマネージドのゾーン読み取りキャッシュ。

サービス提供するトレーニング データセットまたはモデルを含むリージョン ソースバケットの AI ゾーンに、Anywhere Cache インスタンスを作成します。トレーニング ジョブがファイルを読み取ると、ファイルは高速なゾーン内キャッシュにプルされます。後続の読み取りは、リージョン ネットワークをバイパスして、キャッシュから直接提供されます。これは、モデル トレーニングの反復的なデータアクセス パターンや、低レイテンシのモデル サービングに最適です。

推奨する用途:

  • 読み取り負荷の高いワークロード
  • 低レイテンシのモデル トレーニングとサービング

推奨されない用途

  • 完全な POSIX 準拠を必要とするアプリケーション

ベスト プラクティス

AI ゾーンを使用する場合は、次のストレージのベスト プラクティスに従ってください。

  • パフォーマンス レイヤは、コンピューティング リソースと同じ AI ゾーンにプロビジョニングします。コンピューティングとストレージをコロケーションすると、GPU と TPU が完全に飽和状態になり、グッドプット(有用なスループット)を最大化できます。

  • Anywhere Cache の場合、プライマリ トレーニング エポックを開始する前に、データセットの事前読み取りを実行して、SSD バックアップ キャッシュにデータを入力するか、ウォームアップします。

利用可能な AI ゾーン

次の表に、AI ゾーンとその親リージョンを示します。 Google Cloud

地理的エリア 親リージョン AI ゾーン
米国 us-south1 us-south1-ai1b

考慮事項

  • リージョンの AI ゾーンから、 Google Cloud リージョンの Google Cloud プロダクトにアクセスできます。ただし、AI ゾーンから Google Cloudリージョンのサービスにアクセスすると、ネットワーク レイテンシが増加する可能性があります。これは、AI ゾーンのロケーションが、リージョンの標準ゾーンのロケーションと物理的に分離されている可能性があるためです。

  • AI ゾーンではすべての Google Cloud サービスがローカルで提供されないため、ML 以外のワークロードは AI ゾーンではなく標準ゾーンで実行することをおすすめします。

次のステップ