推奨構成

このドキュメントでは、さまざまな AI、ML、ハイ パフォーマンス コンピューティング(HPC)ワークロードに最適なアクセラレータ、使用量タイプ、デプロイツールに関する推奨事項について説明します。このドキュメントは、ワークロードに最適なデプロイを特定する際に役立ちます。

AI、ML、HPC ワークロードのインフラストラクチャの柱に関する情報と推奨事項については、次のドキュメントをご覧ください。

ワークロードの概要

AI Hypercomputer アーキテクチャは、次のユースケースをサポートしています。

ワークロード 説明 推奨事項
基盤モデルの事前トレーニング これには、大規模なデータセットを使用して言語モデルを構築することが含まれます。基盤モデルの事前トレーニングの結果、一般的なタスクの実行に適した新しいモデルが作成されます。
モデルは、 サイズに基づいて次のように分類されます。
  • フロンティア モデル: 数千億から数兆以上のパラメータに及ぶ ML モデルです。これには、Gemini などの大規模言語モデル(LLM)が含まれます。
  • 大規模モデル: 数十億から数千億以上のパラメータに及ぶモデルです。
事前トレーニング モデルに関する推奨事項をご覧ください。
ファインチューニング これには、トレーニング済みのモデルを取得し、専門的なデータセットやその他の手法を使用して、特定のタスクを実行できるように適応させることが含まれます。 ファインチューニングは通常、大規模モデルに対して行われます。 モデルのファインチューニングに関する推奨事項をご覧ください。
推論(サービング) これには、トレーニング済みまたはファインチューニング済みのモデルを取得し、ユーザーまたはアプリケーションが使用できるようにすることが含まれます。
推論ワークロードは、モデルのサイズに基づいて 次のように分類されます。
  • マルチホスト基盤モデルの推論: 数千億 から数兆以上のパラメータに及ぶトレーニング済みの ML モデルを使用して推論を実行します。これらの推論ワークロードでは、 計算負荷が複数のホストマシン間で共有されます。
  • 単一ホスト基盤モデルの推論: 数十億から数千億の パラメータに及ぶトレーニング済みの ML モデルを使用して推論を実行します。これらの推論ワークロードでは、計算 負荷は単一のホストマシンに限定されます。
  • 大規模モデルの推論: 数十億から数千億のパラメータに及ぶトレーニング済みまたはファインチューニング済みの ML モデルを使用して推論を実行します。
推論に関する推奨事項をご覧ください。
中小規模モデルの ML これには、サイズと複雑さが小さい ML モデルのトレーニングとサービングが含まれます。通常、より専門的なタスクに使用されます。 中小規模モデルの ML に関する推奨事項をご覧ください。
HPC これは、コンピューティング リソースを集約することで、単一のワークステーション、サーバー、コンピュータで行うよりも高いパフォーマンスを実現する手法です。HPC は、学術研究、 科学、設計、シミュレーション、ビジネス インテリジェンスの問題を解決するために使用されます。 HPC に関する推奨事項をご覧ください。

事前トレーニング モデルに関する推奨事項

基盤モデルの事前トレーニングでは、アクセラレータの大規模なクラスタを使用し、大量のデータを継続的に読み取り、順方向パスと逆方向パスで重みを調整してデータから学習します。これらのトレーニング ジョブは、一度に数週間、あるいは数か月間実行されます。

以降のセクションでは、モデルの事前トレーニング時に使用するアクセラレータと推奨される使用量タイプについて説明します。

推奨されるアクセラレータ

で基盤モデルを事前トレーニングするには Google Cloud、 A4X MaxA4A3 のアクセラレータ最適化マシンタイプを使用し、 オーケストレーターを使用してクラスタをデプロイすることをおすすめします。アクセラレータのこれらの大規模クラスタをデプロイするには、 Cluster Director または Cluster Toolkitを使用することをおすすめします。詳細については、次の表で選択したクラスタのそれぞれのデプロイガイドをご覧ください。

ワークロード 推奨事項 クラスタ デプロイガイド
マシンタイプ オーケストレーター
  • フロンティア モデルのトレーニング
  • 大規模モデルのトレーニング
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE デフォルト構成で AI によって最適化された GKE クラスタを作成する
Slurm
  • フロンティア モデルのトレーニング
  • 大規模モデルのトレーニング
A3 Mega GKE 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
Slurm
  • 大規模モデルのトレーニング
A3 High GKE 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
Slurm A3 High Slurm クラスタをデプロイする

推奨される使用量タイプ

最小限の費用でアクセラレータの大規模なクラスタを確実に取得するには、予約を使用し、これらの予約を長期間リクエストすることをおすすめします。使用量タイプの詳細については、 使用オプションを選択するをご覧ください。

モデルのファインチューニングに関する推奨事項

大規模な基盤モデルのファインチューニングでは、アクセラレータの小規模なクラスタを使用し、適度な量のデータを読み取り、特定のタスクを実行するようにモデルを調整します。これらのファインチューニング ジョブは、数日、あるいは数週間実行されます。

以降のセクションでは、モデルのファインチューニング時に使用する推奨アクセラレータと使用量タイプについて説明します。

推奨されるアクセラレータ

でモデルをファインチューニングするには、A4X MaxA4XA4A3 のアクセラレータ最適化マシンタイプを使用し、 オーケストレーターを使用してクラスタをデプロイすることをおすすめします。 Google Cloud

アクセラレータのこれらのクラスタをデプロイするには、 Cluster Director または Cluster Toolkit を使用することをおすすめします。詳細については、次の表で選択したマシンタイプのそれぞれのクラスタ デプロイガイドをご覧ください。

ワークロード 推奨事項 クラスタ デプロイガイド
マシンタイプ オーケストレーター
大規模モデルのファインチューニング
  • A4X Max
  • A4X
  • A4
GKE デフォルト構成で AI によって最適化された GKE クラスタを作成する
Slurm
大規模モデルのファインチューニング A3 Mega GKE 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
Slurm
大規模モデルのファインチューニング A3 High GKE 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
Slurm A3 High Slurm クラスタをデプロイする

推奨される使用量タイプ

ファインチューニング ワークロードの場合は、カレンダー モードで将来の予約を使用してリソースをプロビジョニングすることをおすすめします。使用オプションの詳細については、 使用オプションを選択する をご覧ください。

推論に関する推奨事項

以降のセクションでは、推論の実行時に使用する推奨アクセラレータと使用量タイプについて説明します。

推奨されるアクセラレータ

推論に推奨されるアクセラレータは、マルチホスト フロンティアまたは大規模モデルの推論を実行しているか、単一ホスト フロンティアの推論を実行しているかによって異なります。

推奨されるアクセラレータ(マルチホスト)

Google Cloudでマルチホスト フロンティアまたは大規模モデルの推論を実行するには、 A4X MaxA4XA4、またはA3 のアクセラレータ最適化マシンタイプを使用し、 オーケストレーターを使用してマシンをデプロイすることをおすすめします。アクセラレータのこれらのクラスタをデプロイするには、 Cluster Director または Cluster Toolkitを使用することをおすすめします。これらのクラスタを使い始めるには、推奨されるマシンタイプごとにクラスタ デプロイガイドへのリンクが用意されています。

ワークロード 推奨事項 クラスタ デプロイガイド
マシンタイプ オーケストレーター
マルチホスト フロンティアの推論
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE デフォルト構成で AI によって最適化された GKE クラスタを作成する
Slurm
マルチホスト フロンティアの推論 A3 Mega GKE 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
Slurm
大規模モデルの推論 A3 High GKE 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
Slurm A3 High Slurm クラスタをデプロイする

推奨されるアクセラレータ(単一ホスト)

次の表に、単一ホスト フロンティアの推論を実行する際に使用する推奨アクセラレータを示します。これらの VM を使い始めるには、推奨されるマシンタイプごとに VM デプロイガイドへのリンクが用意されています。

ワークロード 推奨事項 VM デプロイガイド
マシンタイプ オーケストレーター
単一ホスト フロンティアの推論
  • A4
  • A3 Ultra
なし AI に最適化されたインスタンスを作成する
単一ホスト フロンティアの推論 A3 High なし GPUDirect-TCPX を有効にして A3 VM を作成する

推奨される使用量タイプ

推論には、長時間実行される予約またはカレンダー モードでの将来の予約を使用することをおすすめします。使用オプションの詳細については、 使用オプションを選択する をご覧ください。

中小規模モデルの ML に関する推奨事項

中小規模のモデルを使用する ML ワークロードでは、費用とパフォーマンスの最適なバランスを実現することが主な考慮事項となります。

推奨されるアクセラレータ

次の表に、中小規模モデルの ML ワークロードに使用する推奨アクセラレータを示します。

ワークロード 推奨事項 VM デプロイガイド
マシンタイプ オーケストレーター
中小規模モデルの ML
  • G4
  • G2
なし G2 インスタンスまたは G4 インスタンスを作成する

HPC に関する推奨事項

HPC ワークロードでは、アクセラレータ最適化マシンシリーズまたは コンピューティング最適化マシンシリーズが適しています。 アクセラレータ最適化マシンシリーズを使用する場合、最適なものは、GPU にオフロードする必要がある計算量によって異なります。HPC ワークロードに関する推奨事項の詳細なリストについては、 HPC ワークロードの実行に関するベスト プラクティスをご覧ください。

推奨事項の概要

以下に、さまざまなワークロードに推奨されるアクセラレータと使用量タイプの推奨事項の概要を示します。


リソース

推奨事項
モデルの事前トレーニング
マシン ファミリー A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High のいずれかのアクセラレータ最適化マシンタイプを使用する
使用量タイプ 予約を使用する
モデルのファインチューニング
マシン ファミリー A4X Max、A4X、A4、A3 のアクセラレータ最適化マシンタイプを使用する
使用量タイプ 予約を使用する
推論
マシン ファミリー A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High のいずれかのアクセラレータ最適化マシンタイプを使用する
使用量タイプ 予約を使用する
HPC
HPC ワークロードの実行に関するベスト プラクティスの概要セクションをご覧ください。