AI、ML、HPC のワークロードを実行するには、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)マシンを使用する AI 最適化 Compute Engine インスタンスとクラスタをデプロイします。大規模な AI クラスタと ML クラスタを実行できるこれらのマシンの機能の詳細については、クラスタ管理の概要をご覧ください。
A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)インスタンスは、Compute Engine から直接作成することも、Cluster Toolkit や Google Kubernetes Engine などの Compute Engine インスタンスで実行される他のサービスを介して作成することもできます。
ユースケースに適したコンピューティング インスタンスまたはクラスタを作成するには、次のいずれかを選択します。
| オプション | ユースケース |
|---|---|
| Cluster Director | Slurm クラスタのセットアップと 構成を自動化するフルマネージド サービスが必要。Cluster Director を使用すると、クラスタのコンピューティング、ネットワーク、ストレージのリソースを構成して、パフォーマンスを最大化し、ダウンタイムを最小限に抑えることができます。詳細については、 AI ワークロード用のフルマネージド Slurm クラスタを作成するをご覧ください。 |
| Cluster Toolkit | Slurm クラスタと GKE クラスタの両方をデプロイするプロセスを簡素化するオープンソース ソフトウェアを使用したい。Cluster Toolkit は、 高度なカスタマイズと拡張ができるように設計されています。詳細については、 以下をご覧ください。 |
| GKE | ワークロードのニーズに基づいて Google Kubernetes Engine クラスタを構成する際に、最大限の柔軟性を確保したい。 詳細については、 AI に最適化されたカスタム Google Kubernetes Engine クラスタを作成するをご覧ください。 |
| Compute Engine を使用する | 独自のオーケストレーターを設定できるように、インフラストラクチャ レイヤを完全に制御したい。詳細については、以下をご覧ください。
|