A4 マシンタイプを使用して AI によって最適化された Slurm クラスタを作成する
このページでは、gcloud CLI と Cluster Toolkit を使用して、A4 アクセラレータ最適化マシンタイプで AI 最適化 Slurm クラスタをすばやく作成してデプロイする方法について説明します。
A4 アクセラレータ最適化マシンタイプには NVIDIA B200 GPU がアタッチされており、集中的な AI コンピューティング用に特別に設計されています。これにより、Slurm クラスタで大規模なモデルのトレーニングと推論を効率的に処理できます。 Google Cloudの A4 アクセラレータ最適化マシンタイプの詳細については、GPU マシンタイプをご覧ください。
または、Cluster Director を使用して A4 ベースの Slurm クラスタを作成することもできます。Cluster Director は、クラスタのデプロイを簡素化して自動化し、運用オーバーヘッドを削減するマネージド サービスです。詳細については、テンプレートに基づいて AI 最適化クラスタを作成するをご覧ください。
このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、「ガイドを表示」をクリックしてください。
チュートリアルの概要
このチュートリアルでは、A4 アクセラレータ最適化マシンタイプを使用して AI 最適化 Slurm クラスタを設定する手順について説明します。具体的には、Compute Engine 仮想マシンでクラスタを設定して、必要な Terraform モジュールを保存する Cloud Storage バケットを作成し、Slurm クラスタをプロビジョニングする Filestore インスタンスを設定します。このチュートリアルの手順を完了するには、次のプロセスを行います。
- 必要な権限と環境変数を使用して Google Cloud プロジェクトを設定します。
- Cloud Storage バケットを設定します。
- Cluster Toolkit を設定します。
- Cluster Toolkit ディレクトリに切り替えます。
- Slurm Deployment YAML ファイルを作成します。
- ブループリントを使用して Slurm クラスタをプロビジョニングします。
- Slurm クラスタに接続します。
始める前に
- 1 台の
a4-highgpu-8gマシンの容量ブロックを予約します。これらのマシンは、このチュートリアルに必要です。 Slurm クラスタをプロビジョニングするのに十分な Filestore の割り当てがあることを確認します。最小 10,240 GiB のゾーン容量(高スケール SSD 容量とも呼ばれる)が必要です。
Filestore の割り当てを確認するには、 Google Cloud コンソールの [割り当てとシステム上限] を表示し、表をフィルタリングして Filestore リソースのみを表示します。
- Filestore の割り当てを確認する手順の詳細については、API 固有の割り当てを表示するをご覧ください。
- 割り当てが不足している場合は、割り当ての増加をリクエストします。
Compute Engine、Filestore、Cloud Storage、Service Usage、Cloud Resource Manager API を有効にします。
必要なロール
Compute Engine のデフォルト サービス アカウントに Slurm クラスタをデプロイするために必要な権限を付与するには、Compute Engine のデフォルト サービス アカウントに次の IAM ロールを付与するよう管理者に依頼してください。
-
プロジェクトに対する Storage オブジェクト閲覧者 (
roles/storage.objectViewer) -
プロジェクトに対する Compute インスタンス管理者(v1) (
roles/compute.instanceAdmin.v1) -
サービス アカウント自体に対するサービス アカウント ユーザー (
roles/iam.serviceAccountUser)
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
管理者は、カスタムロールや他の事前定義ロールを使用して、Compute Engine のデフォルト サービス アカウントに必要な権限を付与することもできます。
費用
このチュートリアルの実行にかかる費用は、チュートリアルの設定やジョブの実行など、完了するセクションによって異なります。料金計算ツールを使用して費用を計算できます。
このチュートリアルの設定費用を見積もるには、次の仕様を使用します。
- リージョンあたりの Filestore(標準)容量: 10,240 GiB。
- 標準永続ディスク: Slurm ログインノード用に 50 GB の
pd-standard。 - パフォーマンス(SSD)永続ディスク: Slurm コントローラ用に 50 GB の
pd-ssd。 - VM インスタンス: 1
a4-highgpu-8g.
Cloud Shell を起動する
このチュートリアルでは、 Google Cloudでホストされているリソースを管理するためのシェル環境である Cloud Shell を使用します。
Cloud Shell には、Google Cloud CLI がプリインストールされています。gcloud CLI は、 Google Cloudの主要なコマンドライン インターフェースを提供します。Cloud Shell を起動します。
Google Cloud コンソールに移動します。
コンソールの右上隅にある [Cloud Shell をアクティブにする] ボタン
をクリックします。
Cloud Shell セッションが開始し、コマンドライン プロンプトが表示されます。このシェルを使用して gcloud コマンドと Cluster Toolkit コマンドを実行します。
環境変数を設定する
Cloud Shell で、チュートリアルの残りの部分で使用する次の環境変数を設定します。これらの環境変数は、次のタスクのプレースホルダの値を設定します。
予約済みの
a4-highgpu-8gマシンにアクセスするための関連する値でプロジェクトを構成する。Cluster Toolkit モジュールを保存するための Cloud Storage バケットを設定する。
予約容量の変数
export A4_RESERVATION_PROJECT_ID=A4_RESERVATION_PROJECT_ID export A4_RESERVATION_NAME=A4_RESERVATION_NAME export A4_DEPLOYMENT_NAME=A4_DEPLOYMENT_NAME export A4_REGION=A4_REGION export A4_ZONE=A4_ZONE export A4_DEPLOYMENT_FILE_NAME=A4_DEPLOYMENT_FILE_NAME
次のように置き換えます。
A4_RESERVATION_PROJECT_ID: A4 マシンタイプの予約ブロックが付与された Google Cloudプロジェクト ID。A4_RESERVATION_NAME: プロジェクトで使用される GPU 予約の名前。例:a4high-exrA4_DEPLOYMENT_NAME: Slurm クラスタ デプロイの一意の名前。例:my-slurm-cluster-deploymentA4_REGION: 予約済みの A4 マシン予約ブロックを実行しているリージョン。例:us-central1A4_ZONE: 予約済みマシンを含むゾーン。この文字列には、リージョンとゾーンの両方を含める必要があります。例:us-central1-aA4_DEPLOYMENT_FILE_NAME: Slurm ブループリント YAML ファイルの一意の名前。このチュートリアルを複数回行う場合は、毎回一意のデプロイ名を選択してください。
ストレージ容量の変数
Cloud Storage バケットの環境変数を作成します。
Cluster Toolkit は、ブループリントを使用して VM のクラスタを定義してデプロイします。ブループリントでは、クラウド インフラストラクチャをプロビジョニングする 1 つ以上の Terraform モジュールを定義します。このバケットは、これらのブループリントの保存に使用されます。
export GOOGLE_CLOUD_BUCKET_NAME=GOOGLE_CLOUD_BUCKET_NAME export GOOGLE_CLOUD_BUCKET_LOCATION=GOOGLE_CLOUD_BUCKET_LOCATION
次のように置き換えます。
GOOGLE_CLOUD_BUCKET_NAME: バケットの命名要件を満たす、Cloud Storage バケットに使用する名前。GOOGLE_CLOUD_BUCKET_LOCATION: バケットがホストされる任意の Google Cloud リージョン。例:us-central1
A4 承認済みプロジェクトに切り替える
次のコマンドを実行して、A4 マシンタイプの承認済み予約ブロックがある Google Cloudプロジェクトにいることを確認します。
gcloud config set project ${A4_RESERVATION_PROJECT_ID}Cloud Storage バケットを作成する
Terraform モジュールを保存するバケットを作成します。Cloud Shell から、環境変数を使用して次のコマンドを実行します。
Terraform を使用する際のおすすめの方法は、バージョン対応のファイルに状態をリモートに保存することです。 Google Cloudでは、バージョニングが有効になっている Cloud Storage バケットを作成できます。
gcloud storage buckets create gs://${GOOGLE_CLOUD_BUCKET_NAME} \
--project=${A4_RESERVATION_PROJECT_ID} \
--default-storage-class=STANDARD \
--location=${GOOGLE_CLOUD_BUCKET_LOCATION} \
--uniform-bucket-level-access
gcloud storage buckets update gs://${GOOGLE_CLOUD_BUCKET_NAME} --versioning
Cluster Toolkit を設定する
Google Cloud プロジェクトに Slurm クラスタを作成するには、 Cluster Toolkit を使用してクラスタのデプロイとプロビジョニングを処理します。Cluster Toolkit は、 Google Cloudにワークロードをデプロイするプロセスを簡素化するために Google Cloudが提供するオープンソース ソフトウェアです。
Cluster Toolkit を設定する手順は次のとおりです。
Cluster Toolkit GitHub リポジトリのクローンを作成する
Cloud Shell で GitHub リポジトリのクローンを作成します。
git clone https://github.com/GoogleCloudPlatform/cluster-toolkit.git
メインの作業ディレクトリに移動します。
cd cluster-toolkit/
Cluster Toolkit バイナリをビルドする
Cloud Shell で、次のコマンドを実行して、ソースから Cluster Toolkit バイナリをビルドします。
make
ビルドを確認するには、次のコマンドを実行します。
A4 High アクセラレータ最適化マシンの Slurm クラスタをデプロイするには、Cluster Toolkit のバージョン
v1.51.1以降を使用する必要があります。./gcluster --version
バイナリをビルドしたことで、ジョブまたはワークロードを実行するクラスタをデプロイする準備が整いました。
デプロイ ファイルを作成する
Cluster Toolkit ディレクトリに、Slurm デプロイ YAML ファイルを作成します。
nano ${A4_DEPLOYMENT_FILE_NAME}.yamlYAML ファイルに次の内容を貼り付けます。
--- terraform_backend_defaults: type: gcs configuration: bucket: GOOGLE_CLOUD_BUCKET_NAME vars: deployment_name: A4_DEPLOYMENT_FILE_NAME project_id: A4_RESERVATION_PROJECT_ID region: A4_REGION zone: A4_ZONE a4h_reservation_name: A4_RESERVATION_NAME a4h_cluster_size: 1ファイルを保存して終了するには、Ctrl+O > Enter > Ctrl+X の順に押します。
Slurm クラスタをプロビジョニングする
Slurm クラスタをプロビジョニングするには、次のデプロイ コマンドを実行します。このコマンドは、examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml ブループリント ファイルを使用して Slurm クラスタをプロビジョニングします。
Cloud Shell で、クラスタの作成を開始します。
./gcluster deploy -d ${A4_DEPLOYMENT_FILE_NAME}.yaml examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml --auto-approve
クラスタに接続する
デプロイ後、 Google Cloud コンソールに接続してクラスタを表示します。
Google Cloud コンソールで、[Compute Engine] > [VM インスタンス] ページに移動します。
ログインノード(
a4high-login-001など)を見つけます。[SSH] をクリックして接続します。
クリーンアップ
このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。
Slurm クラスタを破棄する
リソースが不要になったら、クリーンアップすることをおすすめします。
A4 High ブループリントでは、Filestore インスタンスで削除からの保護がデフォルトで有効になっています。Slurm クラスタを破棄する場合は、destroy コマンドを実行する前に削除からの保護を無効にする必要があります。
削除からの保護を無効にする
インスタンスの更新時に削除保護を無効にするには、次のようなコマンドを使用します。
gcloud filestore instances update INSTANCE_NAME \
--no-deletion-protection
INSTANCE_NAME は、編集するインスタンスの名前に置き換えます。例: my-genomics-instance
INSTANCE_NAME を見つけるには、gcloud filestore instances
list を実行します。このコマンドは、現在の Google Cloud プロジェクト内のすべての Filestore インスタンスを一覧表示します。名前、ロケーション(ゾーン)、階層、容量、ステータスなどが表示されます。
コマンドを実行したら、このチュートリアルで実行されている a4-highgpu-8g マシンと一致する Filestore インスタンスを見つけます。
Slurm クラスタを破棄する
破棄のコマンドを実行する前に、Cluster Toolkit ディレクトリのルートに移動します。デフォルトでは、
DEPLOYMENT_FOLDERは Cluster Toolkit ディレクトリのルートにあります。クラスタを破棄するには、次のコマンドを実行します。
./gcluster destroy DEPLOYMENT_FOLDER --auto-approve
DEPLOYMENT_FOLDERは、デプロイ フォルダの名前に置き換えます。通常はDEPLOYMENT_NAMEと同じです。
破棄が完了すると、次のようなメッセージが表示されます。
Destroy complete! Resources: xx destroyed.
ストレージ バケットの削除
前のコマンドがエラーなしで終了したことを確認してから、Cloud Storage バケットを削除します。
gcloud storage buckets delete gs://${GOOGLE_CLOUD_BUCKET_NAME}
トラブルシューティング
エラー: ストレージが残っていないため、Cloud Shell はクラスタをプロビジョニングできません。
このエラーは、Cloud Shell を頻繁に使用していて、ストレージ容量が不足している場合に表示されることがあります。
この問題を解決するには、Cloud Shell を無効にするかリセットするをご覧ください。
エラー: クラスタ名またはブループリント名がすでに存在します。
プロジェクトで、このチュートリアルで使用したものとまったく同じファイル名が使用されていた場合に、このエラーが表示されることがあります。たとえば、組織内の別のユーザーがこのチュートリアルをエンドツーエンドで実行した場合などです。
この問題を解決するには、チュートリアルをもう一度実行して、デプロイ ファイルの一意の名前を選択し、新しいデプロイ ファイルを使用して Slurm クラスタのプロビジョニング コマンドを再実行します。
次のステップ
- 高度な Slurm タスク:
- Slurm クラスタを再デプロイする方法を確認する
- Slurm クラスタでネットワーク パフォーマンスをテストする方法を確認する
- ホストイベントの管理方法を確認する。
- コンピューティング インスタンスのトポロジを表示する
- Slurm クラスタのコンピューティング インスタンスをモニタリングする
- ホストの不具合を報告する