このドキュメントでは、さまざまな AI、ML、ハイ パフォーマンス コンピューティング(HPC)ワークロードに最適なアクセラレータ、使用量タイプ、デプロイツールに関する推奨事項について説明します。このドキュメントは、ワークロードに最適なデプロイを特定する際に役立ちます。
AI、ML、HPC ワークロードのインフラストラクチャの柱に関する情報と推奨事項については、次のドキュメントをご覧ください。
ワークロードの概要
AI Hypercomputer アーキテクチャは、次のユースケースをサポートしています。
| ワークロード | 説明 | 推奨事項 |
|---|---|---|
| 基盤モデルの事前トレーニング | これには、大規模なデータセットを使用して言語モデルを構築することが含まれます。基盤モデルの事前トレーニングの結果、一般的なタスクの実行に適した新しいモデルが作成されます。 モデルは、 サイズに基づいて次のように分類されます。
|
事前トレーニング モデルに関する推奨事項をご覧ください。 |
| ファインチューニング | これには、トレーニング済みのモデルを取得し、専門的なデータセットやその他の手法を使用して、特定のタスクを実行できるように適応させることが含まれます。 ファインチューニングは通常、大規模モデルに対して行われます。 | モデルのファインチューニングに関する推奨事項をご覧ください。 |
| 推論(サービング) | これには、トレーニング済みまたはファインチューニング済みのモデルを取得し、ユーザーまたはアプリケーションが使用できるようにすることが含まれます。 推論ワークロードは、モデルのサイズに基づいて 次のように分類されます。
|
推論に関する推奨事項をご覧ください。 |
| 中小規模モデルの ML | これには、サイズと複雑さが小さい ML モデルのトレーニングとサービングが含まれます。通常、より専門的なタスクに使用されます。 | 中小規模モデルの ML に関する推奨事項をご覧ください。 |
| HPC | これは、コンピューティング リソースを集約することで、単一のワークステーション、サーバー、コンピュータで行うよりも高いパフォーマンスを実現する手法です。HPC は、学術研究、 科学、設計、シミュレーション、ビジネス インテリジェンスの問題を解決するために使用されます。 | HPC に関する推奨事項をご覧ください。 |
事前トレーニング モデルに関する推奨事項
基盤モデルの事前トレーニングでは、アクセラレータの大規模なクラスタを使用し、大量のデータを継続的に読み取り、順方向パスと逆方向パスで重みを調整してデータから学習します。これらのトレーニング ジョブは、一度に数週間、あるいは数か月間実行されます。
以降のセクションでは、モデルの事前トレーニング時に使用するアクセラレータと推奨される使用量タイプについて説明します。
推奨されるアクセラレータ
で基盤モデルを事前トレーニングするには Google Cloud、 A4X Max、A4、A3 のアクセラレータ最適化マシンタイプを使用し、 オーケストレーターを使用してクラスタをデプロイすることをおすすめします。アクセラレータのこれらの大規模クラスタをデプロイするには、 Cluster Director または Cluster Toolkitを使用することをおすすめします。詳細については、次の表で選択したクラスタのそれぞれのデプロイガイドをご覧ください。
| ワークロード | 推奨事項 | クラスタ デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
|
|
GKE | デフォルト構成で AI によって最適化された GKE クラスタを作成する |
| Slurm | |||
|
A3 Mega | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | |||
|
A3 High | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | A3 High Slurm クラスタをデプロイする | ||
推奨される使用量タイプ
最小限の費用でアクセラレータの大規模なクラスタを確実に取得するには、予約を使用し、これらの予約を長期間リクエストすることをおすすめします。使用量タイプの詳細については、 使用オプションを選択するをご覧ください。
モデルのファインチューニングに関する推奨事項
大規模な基盤モデルのファインチューニングでは、アクセラレータの小規模なクラスタを使用し、適度な量のデータを読み取り、特定のタスクを実行するようにモデルを調整します。これらのファインチューニング ジョブは、数日、あるいは数週間実行されます。
以降のセクションでは、モデルのファインチューニング時に使用する推奨アクセラレータと使用量タイプについて説明します。
推奨されるアクセラレータ
でモデルをファインチューニングするには、A4X Max、 A4X、A4、A3 のアクセラレータ最適化マシンタイプを使用し、 オーケストレーターを使用してクラスタをデプロイすることをおすすめします。 Google Cloud
アクセラレータのこれらのクラスタをデプロイするには、 Cluster Director または Cluster Toolkit を使用することをおすすめします。詳細については、次の表で選択したマシンタイプのそれぞれのクラスタ デプロイガイドをご覧ください。
| ワークロード | 推奨事項 | クラスタ デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| 大規模モデルのファインチューニング |
|
GKE | デフォルト構成で AI によって最適化された GKE クラスタを作成する |
| Slurm | |||
| 大規模モデルのファインチューニング | A3 Mega | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | |||
| 大規模モデルのファインチューニング | A3 High | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | A3 High Slurm クラスタをデプロイする | ||
推奨される使用量タイプ
ファインチューニング ワークロードの場合は、カレンダー モードで将来の予約を使用してリソースをプロビジョニングすることをおすすめします。使用オプションの詳細については、 使用オプションを選択する をご覧ください。
推論に関する推奨事項
以降のセクションでは、推論の実行時に使用する推奨アクセラレータと使用量タイプについて説明します。
推奨されるアクセラレータ
推論に推奨されるアクセラレータは、マルチホスト フロンティアまたは大規模モデルの推論を実行しているか、単一ホスト フロンティアの推論を実行しているかによって異なります。
推奨されるアクセラレータ(マルチホスト)
Google Cloudでマルチホスト フロンティアまたは大規模モデルの推論を実行するには、 A4X Max、A4X、A4、またはA3 のアクセラレータ最適化マシンタイプを使用し、 オーケストレーターを使用してマシンをデプロイすることをおすすめします。アクセラレータのこれらのクラスタをデプロイするには、 Cluster Director または Cluster Toolkitを使用することをおすすめします。これらのクラスタを使い始めるには、推奨されるマシンタイプごとにクラスタ デプロイガイドへのリンクが用意されています。
| ワークロード | 推奨事項 | クラスタ デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| マルチホスト フロンティアの推論 |
|
GKE | デフォルト構成で AI によって最適化された GKE クラスタを作成する |
| Slurm | |||
| マルチホスト フロンティアの推論 | A3 Mega | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | |||
| 大規模モデルの推論 | A3 High | GKE | 標準モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | A3 High Slurm クラスタをデプロイする | ||
推奨されるアクセラレータ(単一ホスト)
次の表に、単一ホスト フロンティアの推論を実行する際に使用する推奨アクセラレータを示します。これらの VM を使い始めるには、推奨されるマシンタイプごとに VM デプロイガイドへのリンクが用意されています。
| ワークロード | 推奨事項 | VM デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| 単一ホスト フロンティアの推論 |
|
なし | AI に最適化されたインスタンスを作成する |
| 単一ホスト フロンティアの推論 | A3 High | なし | GPUDirect-TCPX を有効にして A3 VM を作成する |
推奨される使用量タイプ
推論には、長時間実行される予約またはカレンダー モードでの将来の予約を使用することをおすすめします。使用オプションの詳細については、 使用オプションを選択する をご覧ください。
中小規模モデルの ML に関する推奨事項
中小規模のモデルを使用する ML ワークロードでは、費用とパフォーマンスの最適なバランスを実現することが主な考慮事項となります。
推奨されるアクセラレータ
次の表に、中小規模モデルの ML ワークロードに使用する推奨アクセラレータを示します。
| ワークロード | 推奨事項 | VM デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| 中小規模モデルの ML |
|
なし | G2 インスタンスまたは G4 インスタンスを作成する |
HPC に関する推奨事項
HPC ワークロードでは、アクセラレータ最適化マシンシリーズまたは コンピューティング最適化マシンシリーズが適しています。 アクセラレータ最適化マシンシリーズを使用する場合、最適なものは、GPU にオフロードする必要がある計算量によって異なります。HPC ワークロードに関する推奨事項の詳細なリストについては、 HPC ワークロードの実行に関するベスト プラクティスをご覧ください。
推奨事項の概要
以下に、さまざまなワークロードに推奨されるアクセラレータと使用量タイプの推奨事項の概要を示します。
リソース |
推奨事項 |
|---|---|
| モデルの事前トレーニング | |
| マシン ファミリー | A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High のいずれかのアクセラレータ最適化マシンタイプを使用する |
| 使用量タイプ | 予約を使用する |
| モデルのファインチューニング | |
| マシン ファミリー | A4X Max、A4X、A4、A3 のアクセラレータ最適化マシンタイプを使用する |
| 使用量タイプ | 予約を使用する |
| 推論 | |
| マシン ファミリー | A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High のいずれかのアクセラレータ最適化マシンタイプを使用する |
| 使用量タイプ | 予約を使用する |
| HPC | |
| HPC ワークロードの実行に関するベスト プラクティスの概要セクションをご覧ください。 | |