このドキュメントでは、Cloud Storage の AI ゾーンの概要について説明します。AI ゾーンは、AI と ML のワークロードにコンピューティング容量を提供するように設計された特殊な Google Cloud ゾーンです。これらは、ML アクセラレータ(GPU と TPU)の容量を大幅に提供します。
AI ゾーンは、次のような AI / ML ワークロード向けに最適化されています。
- 大規模なトレーニング
- 小規模なトレーニング、ファインチューニング、一括推論、再トレーニング
- リアルタイム ML 推論
AI ゾーンの背景情報については、Compute Engine ドキュメントの AI ゾーンをご覧ください。
リージョン内では、AI ゾーンが標準(非 AI)ゾーンから地理的に離れている場合があります。
AI ゾーンは、他の Cloud Storage 機能や Google Cloud機能と互換性があります。
ストレージ アーキテクチャの推奨事項
階層型ストレージ アーキテクチャを使用して、費用、耐久性、パフォーマンスのバランスを取ることをおすすめします。
コールド ストレージ レイヤ: トレーニング データセットとモデル チェックポイントの永続的で耐久性の高いストレージ(「信頼できる情報源」)には、標準ゾーンのリージョン Cloud Storage バケットを使用します。
パフォーマンス レイヤ: 専用のゾーン ストレージ サービスを使用して、高速キャッシュまたは一時スクラッチ スペースとして機能します。このアプローチにより、ゾーン間のレイテンシが解消され、アクティブなジョブの実行中にスループットが最大化されます。
AI ゾーンで AI / ML システムのパフォーマンスを最適化するには、次のストレージ ソリューションをおすすめします。
| ストレージ サービス | 説明 | ユースケース |
|---|---|---|
| Cloud Storage の Anywhere Cache 機能 |
バケットから AI ゾーンに頻繁に読み取られるデータを取り込む、SSD を利用したフルマネージドのゾーン読み取りキャッシュ。 サービス提供するトレーニング データセットまたはモデルを含むリージョン ソースバケットの AI ゾーンに、Anywhere Cache インスタンスを作成します。トレーニング ジョブがファイルを読み取ると、ファイルは高速なゾーン内キャッシュにプルされます。後続の読み取りは、リージョン ネットワークをバイパスして、キャッシュから直接提供されます。これは、モデル トレーニングの反復的なデータアクセス パターンや、低レイテンシのモデル サービングに最適です。 |
推奨する用途:
推奨されない用途
|
ベスト プラクティス
AI ゾーンを使用する場合は、次のストレージのベスト プラクティスに従ってください。
パフォーマンス レイヤは、コンピューティング リソースと同じ AI ゾーンにプロビジョニングします。コンピューティングとストレージをコロケーションすると、GPU と TPU が完全に飽和状態になり、グッドプット(有用なスループット)を最大化できます。
Anywhere Cache の場合、プライマリ トレーニング エポックを開始する前に、データセットの事前読み取りを実行して、SSD バックアップ キャッシュにデータを入力するか、ウォームアップします。
利用可能な AI ゾーン
次の表に、AI ゾーンとその親リージョンを示します。 Google Cloud
| 地理的エリア | 親リージョン | AI ゾーン |
|---|---|---|
| 米国 | us-south1 |
us-south1-ai1b |
考慮事項
リージョンの AI ゾーンから、 Google Cloud リージョンの Google Cloud プロダクトにアクセスできます。ただし、AI ゾーンから Google Cloudリージョンのサービスにアクセスすると、ネットワーク レイテンシが増加する可能性があります。これは、AI ゾーンのロケーションが、リージョンの標準ゾーンのロケーションと物理的に分離されている可能性があるためです。
AI ゾーンではすべての Google Cloud サービスがローカルで提供されないため、ML 以外のワークロードは AI ゾーンではなく標準ゾーンで実行することをおすすめします。
次のステップ
- バケットを作成する。
- Anywhere Cache の詳細を確認する。
- Cloud Storage バケットのロケーションについて確認する。
- AI / ML ワークロードのアーキテクチャ センターの設計ガイダンスを読む。