クラスタ作成の概要

このドキュメントでは、AI Hypercomputer で AI ワークロード用のクラスタを作成する方法について説明します。具体的には、クラスタの起動時に行うプロセスと選択について説明します。

始める前に

  • サポートする既存のワークロードが必要です。

  • モデルのトレーニングや推論など、AI ワークロードと ML ワークロードで一般的に使用される用語を理解している必要があります。

クラスタを起動する

クラスタを起動する手順は次のとおりです。

  1. ワークロードを決定してマシンタイプを選択する
  2. 使用オプションを選択して容量を取得する
  3. デプロイ オプションを選択する
  4. オーケストレーターを選択する
  5. オペレーティング システムとクラスタ イメージを選択する
  6. クラスタを作成する

ワークロードを決定してマシンタイプを選択する

AI ワークロードのマシンタイプを選択します。AI Hypercomputer は、A4X Max、A4X、A4、A3 マシンシリーズを使用したクラスタ作成をサポートしています。 マシンの使用に関する次の推奨事項を考慮してください。

各マシンシリーズの詳細については、GPU マシン タイプをご覧ください。各マシンのワークロード の推奨事項の詳細については、推奨 構成をご覧ください。

使用オプションを選択して容量を取得する

GPU リソースの使用オプションは、ワークロードの可用性と選択したマシンタイプに応じて選択してください。 たとえば、A4X Max マシンタイプまたは A4X マシンタイプを使用するには、将来の予約の消費モデルを使用して特定の日時に容量を予約する必要があります。次のオプションは、消費モデルの概要を示しています。

  • 将来の予約: A4X Max、A4X、A4、A3 Ultra マシンタイプで使用できます。 リソースの割り当て密度が高く、vCPU と GPU の割引率は最大 53% です。 将来の予約は、基盤モデルの事前トレーニングやマルチホスト基盤モデルの推論など、長期間にわたって安定性を必要とするワークロードに最適です。この使用オプションを使用するには、将来の開始日時についてお客様のアカウント担当の Google チームを通じて容量をリクエストする必要があります。

  • カレンダー モードでの将来の予約: A4、A3 Ultra、 A3 Mega、A3 High(8-GPU VM のみ)マシンタイプで使用できます。リソースの 割り当て密度が高く、vCPU と GPU の割引率は最大 53% です。カレンダー モードでの将来の予約は、最大 90 日間実行され、安定性を必要とするワークロード(モデルの事前トレーニングやファインチューニングなど)のリソースを予約するのに役立ちます。ただし、この 使用オプションを使用するには、将来の日時にリソースを予約する予約リクエストを作成し、 Google Cloud の承認を得る必要があります。

  • Flex Start: A4X Max と A4X を除くすべての GPU マシンタイプで使用できます。 Flex Start を使用すると、有効期間が最大 7 日間の高密度クラスタを作成できます。A2 以降のマシンタイプの場合、vCPU と GPU の割引率は最大 53% です。Flex Start クラスタは、Compute Engine、Cluster Director、Cluster Toolkit、GKE を介して直接作成できます。ただし、クラスタはすぐに使用できるわけではありません。リソースが使用可能になるとすぐに Google が作成します。

  • Spot: A4X Max と A4X を除くすべての GPU マシンタイプで使用できます。 Spot VM を使用すると、可用性に基づいて コンピューティング リソースをすぐに作成できますが、Compute Engine は いつでも仮想マシン(VM)インスタンスを プリエンプトできます。Spot VM の料金は、Compute Engine で可能な最大の割引率(61% ~ 90%)で設定されます。

使用オプションの詳細については、使用オプションの 比較をご覧ください。

デプロイ オプションを選択する

クラスタのデプロイに必要な制御レベルに応じて、インフラストラクチャをより細かく制御できる高度に管理されたデプロイか、管理作業の少ないデプロイのどちらかを選択します。

高度な管理

Google にインフラストラクチャのデプロイと設定を依頼する場合は、Cluster Director、Cluster Toolkit、GKE を使用します。

  • **Cluster Director**: クラスタの複雑な設定と構成を自動化する Google Cloud プロダクトです。クラスタのコンピューティング、ネットワーキング、ストレージ リソースを構成して、パフォーマンスを最大化し、ダウンタイムを最小限に抑えることができます。Cluster Director は、クラスタの管理オーバーヘッドを回避し、ワークロードの実行に集中したい IT 管理者と AI 研究者向けに設計されています。

  • Cluster Toolkit: Google が提供する オープンソース ツール。GKE または Compute Engine のクラスタ構成と デプロイを簡素化します。事前定義されたブループリントを使用して、Slurm を使用する A4 マシンタイプなどの一般的な構成をデプロイします。ブループリントを変更して、デプロイとソフトウェア スタックをカスタマイズできます。

  • GKE: マネージド Kubernetes サービスとオープンソース コンテナ オーケストレーション プラットフォーム。GKE には、自動スケーリングや高可用性などの機能があります。また、コンテナ化されたアプリケーションのオーケストレーション、 専用ハードウェアのサポート、エコシステムとの Google Cloud 互換性も備えているため、AI ワークロードや ML ワークロードのデプロイと管理に適しています。GKE クラスタは、GKE を直接使用するか、Cluster Toolkit を使用してデプロイできます。GKE Standard モードと Autopilot モードのどちらかを選択できます。

管理が少なく、より細かい制御

クラスタとクラスタにインストールされているソフトウェアをより詳細に制御するには、マネージド Compute Engine インスタンス グループ(MIG)を使用して Compute Engine クラスタを作成するか、インスタンスを一括作成します。次に、必要な主要なソフトウェアをインスタンスに手動でインストールします。

オーケストレーターを選択する

オーケストレーターは、クラスタの管理を自動化します。オーケストレーターを使用すると、クラスタ内の各コンピューティング インスタンスを管理する必要がなくなります。Slurm や GKE などのオーケストレーターは、ジョブのキューイング、リソース割り当て、自動スケーリング(GKE の場合)、その他の日常的なクラスタ管理タスクなどを処理します。

  • Slurm: Slurm は、HPC、AI、 ML ワークロードで一般的に使用されるオープンソースのオーケストレーターです。Slurm を使用するには、Cluster Toolkit(クラスタに Slurm を自動的にインストールするクラスタ ブループリントを提供)を使用するか、Compute Engine クラスタに Slurm を手動でインストールします。

  • GKE: GKE は、オープンソースのコンテナ オーケストレーション プラットフォームである Kubernetes をベースに構築されたマネージド サービスです。GKE は、コンテナ化されたアプリケーションのオーケストレーション、専用ハードウェアのサポート、エコシステムでの位置付けにより、AI ワークロードや ML ワークロードのデプロイと管理に最適です。 Google CloudGKE クラスタは、GKE を直接使用するか、Cluster Toolkit を使用してデプロイできます。

  • 独自のオーケストレーターを使用する: 他のオーケストレーターを使用する場合は、 Compute Engine クラスタで使用する必要があります。ただし、Compute Engine クラスタの作成は、 で提供されるオプションの中で最も管理が少ないオプションです。 Google Cloudこの選択は、インスタンスの設定、メンテナンス、更新を行う責任があることを意味します。

オペレーティング システム イメージを選択する

GKE と Compute Engine のどちらを使用するかに応じて、選択したオペレーティング システムを含むイメージ(GKE クラスタ用の Container-Optimized OS、Compute Engine クラスタ用のアクセラレータ OS イメージなど)を選択します。また、コンテナの Deep Learning Software Layer(DSLS)イメージを選択することもできます。

詳細については、AI Hypercomputer イメージをご覧ください。

GKE クラスタのイメージ

GKE クラスタを作成するには、Standard モードと Autopilot モードの両方でデフォルトのコンテナ OS イメージを使用することをおすすめします。ただし、標準モードでは、Ubuntu などの他の使用可能なイメージを使用することもできます。

Cluster Toolkit を使用してクラスタをデプロイする場合、コンテナ OS イメージのみを使用できます。これは、クラスタ ブループリントに組み込まれているイメージであるためです。各ノードイメージの詳細については、GKE ドキュメントのノード イメージをご覧ください。

GKE では、NVIDIA CUDA や NCCL などのパッケージや、PyTorch などの ML フレームワークをインストールする Deep Learning Software Layer(DLSL)コンテナ イメージも提供しています。これにより、ディープ ラーニング ワークロードですぐに使用できる環境が提供されます。これらの事前構築済みの DLSL コンテナ イメージは、GKE クラスタでシームレスに動作することがテストされ、検証されています。

Compute Engine クラスタの OS イメージ

AI Hypercomputer には、Compute Engine を使用して AI ワークロードと ML ワークロードを実行するように最適化されたイメージが用意されています。最も使い慣れた OS を選択してください。

  • Rocky Linux 9 アクセラレータ
  • Rocky Linux 8 アクセラレータ
  • Ubuntu 24.04 LTS アクセラレータ
  • Ubuntu 22.04 LTS アクセラレータ

Cluster Toolkit を使用する場合、これらのアクセラレータ イメージはすでに Cluster Toolkit ブループリントにバンドルされています。これは、Cluster Toolkit が Ubuntu LTS アクセラレータの OS イメージを拡張するカスタム イメージを作成するためです。

各 OS イメージの詳細については、Compute Engine ドキュメントのオペレーティング システム の詳細をご覧ください。

クラスタを作成する

クラスタ作成プロセスを確認し、ワークロードの予備的な決定を行ったら、次のいずれかのオプションを使用してクラスタを作成します。