このドキュメントでは、さまざまな AI、ML、ハイ パフォーマンス コンピューティング(HPC)ワークロードに最適なアクセラレータ、消費タイプ、デプロイ ツールに関する推奨事項について説明します。このドキュメントは、ワークロードに最適なデプロイを特定するのに役立ちます。
AI、ML、HPC ワークロードのインフラストラクチャ ピラーに関する情報と推奨事項については、次のドキュメントをご覧ください。
ワークロードの概要
AI ハイパーコンピュータ アーキテクチャは、次のユースケースをサポートしています。
| ワークロード | 説明 | 推奨事項 |
|---|---|---|
| 基盤モデルの事前トレーニング | これには、大規模なデータセットを使用して言語モデルを構築することが含まれます。基盤モデルの事前トレーニングの結果は、一般的なタスクの実行に優れた新しいモデルになります。 モデルは、サイズに基づいて次のように分類されます。
|
事前トレーニング モデルに関する推奨事項をご覧ください。 |
| ファインチューニング | これには、トレーニング済みのモデルをベースに、特殊なデータセットやその他の手法を使用して、特定のタスクを実行するように適応させることが含まれます。ファインチューニングは通常、大規模なモデルで実行されます。 | モデルのファインチューニングに関する推奨事項をご覧ください。 |
| 推論またはサービング | これには、トレーニング済みモデルまたはファイン チューニング済みモデルを取得して、ユーザーまたはアプリケーションが使用できるようにすることが含まれます。 推論ワークロードは、モデルのサイズに基づいて次のように分類されます。
|
推論に関する推奨事項をご覧ください。 |
| 小規模から中規模のモデルの ML | これには、サイズと複雑さが小さい ML モデルのトレーニングとサービングが含まれます。通常、より専門的なタスクに使用されます。 | 小規模から中規模のモデルの機械学習に関する推奨事項をご覧ください。 |
| HPC | これは、コンピューティング リソースを集約することで、単一のワークステーション、サーバー、コンピュータよりも高いパフォーマンスを実現する手法です。HPC は、学術研究、科学、設計、シミュレーション、ビジネス インテリジェンスの問題を解決するために使用されます。 | HPC の推奨事項をご覧ください。 |
事前トレーニング モデルに関する推奨事項
基盤モデルの事前トレーニングでは、大規模なアクセラレータ クラスタを使用して、大量のデータを継続的に読み取り、フォワード パスとバックワード パスで重みを調整してデータから学習します。これらのトレーニング ジョブは、数週間、あるいは数か月間実行されます。
以降のセクションでは、モデルの事前トレーニング時に使用するアクセラレータと推奨される使用量タイプについて説明します。
推奨されるアクセラレータ
Google Cloudで基盤モデルを事前トレーニングするには、A4X Max、A4、または A3 のアクセラレータ最適化マシンタイプを使用し、オーケストレーターを使用してクラスタをデプロイすることをおすすめします。このような大規模なアクセラレータ クラスタをデプロイするには、Cluster Director または Cluster Toolkit を使用することをおすすめします。詳細については、次の表で選択したクラスタのデプロイガイドをご覧ください。
| ワークロード | 推奨事項 | クラスタ デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
|
|
GKE | デフォルト構成で AI によって最適化された GKE クラスタを作成する |
| Slurm | |||
|
A3 Mega | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | |||
|
A3 High | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | A3 High Slurm クラスタをデプロイする | ||
推奨される使用タイプ
大規模なアクセラレータ クラスタを確実に取得するには、予約を使用することをおすすめします。具体的には、予約済みリソースの費用を最小限に抑えるため、確約利用割引を受けられるだけの十分な期間でこの予約をリクエストすることをおすすめします。消費タイプの詳細については、消費オプションを選択するをご覧ください。
モデルのファインチューニングに関する推奨事項
大規模な基盤モデルのファインチューニングでは、アクセラレータの小規模なクラスタを使用し、中程度の量のデータを読み取って、特定のタスクを実行するようにモデルを調整します。これらのファインチューニング ジョブは、数日または数週間実行されます。
以降のセクションでは、モデルのファインチューニング時に使用する推奨アクセラレータと使用量タイプについて説明します。
推奨されるアクセラレータ
Google Cloudでモデルをファインチューニングするには、A4X Max、A4X、A4、または A3 のアクセラレータ最適化マシンタイプを使用し、オーケストレータを使用してクラスタをデプロイすることをおすすめします。
これらのアクセラレータ クラスタをデプロイするには、Cluster Director または Cluster Toolkit を使用することをおすすめします。詳細については、次の表で選択したマシンタイプのクラスタ デプロイ ガイドをご覧ください。
| ワークロード | 推奨事項 | クラスタ デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| 大規模モデルのファインチューニング |
|
GKE | デフォルト構成で AI によって最適化された GKE クラスタを作成する |
| Slurm | |||
| 大規模モデルのファインチューニング | A3 Mega | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | |||
| 大規模モデルのファインチューニング | A3 High | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | A3 High Slurm クラスタをデプロイする | ||
推奨される使用タイプ
ファインチューニング ワークロードでは、カレンダー モードの将来の予約を使用してリソースをプロビジョニングすることをおすすめします。使用オプションの詳細については、使用オプションを選択するをご覧ください。
推論に関する推奨事項
以降のセクションでは、推論を実行する際に使用する推奨アクセラレータと消費タイプについて説明します。
推奨されるアクセラレータ
推論に推奨されるアクセラレータは、マルチホストのフロンティア モデルまたは大規模モデルの推論を実行するか、単一ホストのフロンティア モデルの推論を実行するかによって異なります。
推奨されるアクセラレータ(マルチホスト)
Google Cloudでマルチホスト フロンティアまたは大規模モデルの推論を実行するには、A4X Max、A4X、A4、または A3 アクセラレータ最適化マシンタイプを使用し、オーケストレーターを使用してマシンをデプロイすることをおすすめします。これらのアクセラレータ クラスタをデプロイするには、Cluster Director または Cluster Toolkit を使用することをおすすめします。これらのクラスタを使い始めるには、推奨される各マシンタイプのクラスタ デプロイ ガイドへのリンクが用意されています。
| ワークロード | 推奨事項 | クラスタ デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| マルチホスト フロンティア推論 |
|
GKE | デフォルト構成で AI によって最適化された GKE クラスタを作成する |
| Slurm | |||
| マルチホスト フロンティア推論 | A3 Mega | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | |||
| 大規模モデルの推論 | A3 High | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | A3 High Slurm クラスタをデプロイする | ||
推奨されるアクセラレータ(単一ホスト)
次の表に、単一ホストのフロンティア推論を実行する際に使用することが推奨されるアクセラレータを示します。これらの VM を使い始めるには、推奨される各マシンタイプの VM デプロイガイドへのリンクをご覧ください。
| ワークロード | 推奨事項 | VM デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| 単一ホストのフロンティア推論 |
|
なし | AI 最適化インスタンスを作成する |
| 単一ホストのフロンティア推論 | A3 High | なし | GPUDirect-TCPX を有効にして A3 VM を作成する |
推奨される使用タイプ
推論には、長期実行予約またはカレンダー モードの将来の予約を使用することをおすすめします。使用オプションの詳細については、使用オプションを選択するをご覧ください。
小規模から中規模のモデルの ML に関する推奨事項
小規模から中規模のモデルを含む ML ワークロードでは、価格とパフォーマンスの最適なバランスを実現することが主な考慮事項となります。
推奨されるアクセラレータ
次の表に、小規模から中規模のモデル ML ワークロードで使用する推奨アクセラレータの概要を示します。
| ワークロード | 推奨事項 | VM デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| 小規模から中規模のモデルの ML |
|
なし | G2 インスタンスまたは G4 インスタンスを作成する |
HPC の推奨事項
HPC ワークロードでは、アクセラレータ最適化マシンシリーズまたはコンピューティング最適化マシンシリーズが適しています。アクセラレータ最適化マシンシリーズを使用する場合、最適なものは GPU にオフロードする必要がある計算量によって異なります。HPC ワークロードの推奨事項の詳細なリストについては、HPC ワークロードの実行に関するベスト プラクティスをご覧ください。
推奨事項の概要
次の表に、さまざまなワークロードに推奨されるアクセラレータと消費タイプの推奨事項の概要を示します。
リソース |
推奨事項 |
|---|---|
| モデルの事前トレーニング | |
| マシン ファミリー | 次のいずれかのアクセラレータ最適化マシンタイプを使用します。A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High |
| 使用タイプ | 予約を使用する |
| モデルの微調整 | |
| マシン ファミリー | A4X Max、A4X、A4、A3 のアクセラレータ最適化マシンタイプを使用する |
| 使用タイプ | 予約を使用する |
| 推論 | |
| マシン ファミリー | 次のいずれかのアクセラレータ最適化マシンタイプを使用します。A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High |
| 使用タイプ | 予約を使用する |
| HPC | |
| HPC ワークロードの実行に関するベスト プラクティスの概要セクションをご覧ください。 | |