オーケストレーション

Vertex AI Training クラスタに関心をお持ちの場合は、営業担当者にお問い合わせください。

Vertex AI トレーニングクラスタは、クラスタのジョブの管理とスケジューリングのオーケストレーターとして Simple Linux Utility for Resource Management（Slurm）を使用します。

Slurm は、スケーラビリティとフォールトトレランスで知られる、広く使用されているオープンソースのクラスタ管理およびジョブスケジューリングシステムです。

Slurm の主な機能

Slurm は、特定のジョブが定義された期間に独占的に使用する一連のコンピューティングノードを割り当てます。これにより、ジョブは実行に必要なリソースに干渉なしで専用アクセスできるようになります。
Slurm は、ジョブの送信と実行からモニタリングと完了まで、ジョブのライフサイクル全体を管理するためのフレームワークを提供します。このシステムは、割り当てられたノードのセットで実行される並列ジョブを処理するように特別に設計されています。
Slurm は、高度な優先度設定エンジンを使用してコンピューティングリソースへのアクセスを仲介し、保留中のジョブのキューを維持します。このシステムは、ジョブサイズ、ユーザーの優先度、待ち時間などの要素を考慮して、クラスタ全体で公平かつ効率的なリソース使用率を確保します。

基本的なクラスタ構成

ジョブを実行する前に、Slurm クラスタの基本的な構造を定義する必要があります。このセクションでは、コンピューティングノードをパーティションに整理する方法、専用のログインノードプールを指定する方法、ユーザーの共有ホームディレクトリを構成する方法など、重要な構成設定について詳しく説明します。

パーティション

パーティションはノードを論理セットにグループ化します。これは、さまざまなマシンタイプやアクセス階層の管理に役立ちます。これらは、slurm_spec のパーティショフィールド内のリストとして定義されます。

各パーティションオブジェクトには、次の必須フィールドがあります。

id: パーティションの固有識別子。
node_pool_ids: このパーティションに属する 1 つ以上のノードプールの ID を含むリスト。

例:

"partitions": [
  {
    "id": "a4",
    "node_pool_ids": [ "a4" ]
  }
]

ログインノードプールは、ユーザーがクラスタを操作するための主要なエントリポイントとして機能する専用ノードを提供します。login_node_pool_id フィールドは、このプールの固有識別子を指定します。

例:

"login_node_pool_id": "login"

ホームディレクトリのストレージ

home_directory_storage フィールドは、クラスタ内のすべてのノードの /home ディレクトリとしてマウントされる Filestore インスタンスを指定します。これにより、すべてのユーザーに共有の永続的なホームディレクトリが提供されます。

この値には、Filestore インスタンスの完全なリソース名を指定する必要があります。

例:

"home_directory_storage": "projects/PROJECT_ID/locations/REGION-ZONE/instances/FILESTORE_INSTANCE_NAME"

高度な Slurm 構成

Vertex AI Training クラスタでは、選択した slurm.conf パラメータをカスタマイズできますが、これらの設定はクラスタの初期作成時にのみ構成でき、後で変更することはできません。

アカウンティング

Vertex AI Training クラスタでは、組み込みのアカウンティング機能を使用して、クラスタ内のリソース使用量を追跡できます。ジョブ固有の CPU 時間やメモリ使用量などの指標をモニタリングする方法については、公式の Slurm アカウンティングドキュメントをご覧ください。

パラメータ	値	例
AccountingStorageEnforce	カンマ区切りの文字列	`associations,limits,qos`

プリエンプションと優先度

ジョブのスケジュール設定と優先順位付けを管理するために、Vertex AI Training クラスタでは Slurm のジョブのプリエンプションを構成できます。プリエンプションは、多要素優先度プラグインと連携して、優先度の高い作業のために実行中のジョブを一時停止する必要があるかどうかを判断します。

コンセプトの概要については、多要素優先度プラグインとプリエンプションに関する Slurm の公式ドキュメントをご覧ください。

プリエンプションパラメータ

パラメータ	値	例
PREEMPT_TYPE	文字列	`preempt/partition_prio`
PREEMPT_MODE	カンマ区切りの文字列	`SUSPEND,GANG`
PREEMPT_EXEMPT_TIME	文字列	`00:00:00`

優先度パラメータ

パラメータ	値	例
PRIORITY_TYPE	文字列	`priority/multifactor`
PRIORITY_WEIGHT_AGE	整数	`0`
PRIORITY_WEIGHT_ASSOC	整数	`0`
PRIORITY_WEIGHT_FAIRSHARE	整数	`0`
PRIORITY_WEIGHT_JOB_SIZE	整数	`0`
PRIORITY_WEIGHT_PARTITION	整数	`0`
PRIORITY_WEIGHT_QOS	整数	`0`
PRIORITY_WEIGHT_TRES	カンマ区切りの文字列	`cpu=100,mem=150`

プロローグスクリプトとエピローグスクリプト

次のフィールドを使用して、各ジョブの開始時（プロローグ）と終了時（エピローグ）に自動的に実行されるカスタム Bash スクリプトを構成できます。

prolog_bash_scripts: 文字列のリスト。各文字列には、ジョブの開始前に実行される Bash スクリプトの完全な内容が含まれています。
epilog_bash_scripts: 文字列のリスト。各文字列には、ジョブの完了後に実行される Bash スクリプトの完全な内容が含まれています。

これは、一意のジョブ環境を設定したり、自動クリーンアップタスクを実行したりする場合に便利です。

クラスタ仕様の例

次の例は、トレーニングクラスタを作成するための完全な JSON 構成を示しています。この仕様は、独自のニーズに合わせて調整できます。

{
  // ... other cluster configurations ...
  "orchestratorSpec": {
    "slurmSpec": {
      "partitions": [
        {
          "id": "a4",
          "node_pool_ids": ["a4"]
        }
      ],
      "login_node_pool_id": "login",
      "home_directory_storage": "projects/PROJECT_ID/locations/REGION-ZONE/instances/FILESTORE_INSTANCE_ID",
      "accounting": {
        "accounting_storage_enforce": "ACCOUNTING_STORAGE_ENFORCE"
      },
      "scheduling": {
        "priority_type": "PRIORITY_TYPE",
        "priority_weight_age": PRIORITY_WEIGHT_AGE,
        "priority_weight_assoc": PRIORITY_WEIGHT_ASSOC,
        "priority_weight_fairshare": PRIORITY_WEIGHT_FAIRSHARE,
        "priority_weight_job_size": PRIORITY_WEIGHT_JOB_SIZE,
        "priority_weight_partition": PRIORITY_WEIGHT_PARTITION,
        "priority_weight_qos": PRIORITY_WEIGHT_QOS,
        "priority_weight_tres": "PRIORITY_WEIGHT_TRES",
        "preempt_type": "PREEMPT_TYPE",
        "preempt_mode": "PREEMPT_MODE",
        "preempt_exempt_time": "PREEMPT_EXEMPT_TIME"
      },
      "prolog_bash_scripts": [
        "#!/bin/bash\necho 'First prolog script running'",
        "#!/bin/bash\necho 'Second prolog script running'"
      ],
      "epilog_bash_scripts": [
        "#!/bin/bash\necho 'Epilog script running'"
      ]
      // ... other Slurm settings ...
    }
  }
}

クラスタの管理と運用

実行中のクラスタの管理

選択したアカウンティングとプリエンプションの設定でクラスタを作成したら、Slurm のコマンドラインツールを使用してユーザーアカウントを管理し、ジョブスケジューリングをモニタリングできます。

sacctmgr を使用したアカウント管理

sacctmgr コマンドは、Slurm データベースでユーザーとアカウントの情報を管理するための主なツールです。たとえば、アカウントに新しいユーザーを追加して、パーティションへのアクセス権を付与するには、次のコマンドを実行します。

sudo sacctmgr add User Accounts=<account> Partition=<partition> <user>

sacctmgr オプションの完全なリストについては、Slurm アカウンティングの公式ドキュメントをご覧ください。

ジョブの優先度を確認する

キュー内の各ジョブの優先度コンポーネントを確認するには、sprio ユーティリティを使用します。これは、特定のジョブが他のジョブよりも先に実行されるようにスケジュールされている理由を理解するのに役立ちます。

詳細な使用方法については、sprio ユーティリティのドキュメントをご覧ください。

プリエンプションの例

Slurm の公式ドキュメントには、さまざまなプリエンプション戦略の動作例がいくつか記載されています。これらは、Slurm プリエンプションページで確認できます。

次のステップ

以降では、ML ライフサイクルの最終ステップである、トレーニング済みモデルの管理、デプロイ、モニタリングに焦点を当てます。

推論用にモデルをデプロイする: トレーニング済みモデルを Vertex AI エンドポイントにデプロイして、オンライン推論リクエストを大規模に処理します。
- エンドポイントにモデルをデプロイする
モデルのライフサイクルを管理する: Vertex AI Model Registry を使用して、モデルのバージョン管理、比較、管理を行います。トレーニングが成功すると、新しいモデルを自動的に登録するようにパイプラインを構成できます。
- Vertex AI Model Registry の概要
パイプラインの実行とモデルのパフォーマンスをモニタリングします。
- パイプラインモニタリング: パイプライン実行の実行グラフ、アーティファクト、パフォーマンスを追跡して、問題をデバッグし、オーケストレーションを最適化します。
  - パイプライン結果の可視化と分析
- モデルモニタリング: デプロイ後、モデルの予測パフォーマンスのドリフトと異常を検出するようにモニタリングを設定します。これにより、モデルの精度を長期にわたって維持できます。
  - Vertex AI Model Monitoring の概要
費用を最適化してクラスタのライフサイクルを管理する: 自動化されたパイプラインを使用する場合は、実行頻度を考慮してクラスタのライフサイクルを管理します。
- 実行頻度が低い場合は、最後のパイプラインステップを追加してクラスタを削除し、費用を節約します。通常、これには削除関数を呼び出すカスタムパイプラインコンポーネントの作成が含まれます。
- 頻繁に実行する場合は、クラスタをアクティブなままにして、ジョブの起動時間を短縮します。

オーケストレーション コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。