デプロイ オプションの概要

AI、ML、HPC のワークロードを実行するには、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)マシンを使用する AI 最適化 Compute Engine インスタンスとクラスタをデプロイします。大規模な AI クラスタと ML クラスタを実行できるこれらのマシンの機能の詳細については、クラスタ管理の概要をご覧ください。

A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)インスタンスは、Compute Engine から直接作成することも、Cluster Toolkit や Google Kubernetes Engine などの Compute Engine インスタンスで実行される他のサービスを介して作成することもできます。

ユースケースに適したコンピューティング インスタンスまたはクラスタを作成するには、次のいずれかを選択します。

オプション ユースケース
Cluster Director Slurm クラスタのセットアップと 構成を自動化するフルマネージド サービスが必要。Cluster Director を使用すると、クラスタのコンピューティング、ネットワーク、ストレージのリソースを構成して、パフォーマンスを最大化し、ダウンタイムを最小限に抑えることができます。詳細については、 AI ワークロード用のフルマネージド Slurm クラスタを作成するをご覧ください。
Cluster Toolkit

Slurm クラスタと GKE クラスタの両方をデプロイするプロセスを簡素化するオープンソース ソフトウェアを使用したい。Cluster Toolkit は、 高度なカスタマイズと拡張ができるように設計されています。詳細については、 以下をご覧ください。

GKE ワークロードのニーズに基づいて Google Kubernetes Engine クラスタを構成する際に、最大限の柔軟性を確保したい。 詳細については、 AI に最適化されたカスタム Google Kubernetes Engine クラスタを作成するをご覧ください。
Compute Engine を使用する

独自のオーケストレーターを設定できるように、インフラストラクチャ レイヤを完全に制御したい。詳細については、以下をご覧ください。