このドキュメントでは、さまざまな AI、ML、HPC ワークロードに最適なアクセラレータ、消費タイプ、ストレージ サービス、デプロイツールに関する推奨事項について説明します。このドキュメントは、ワークロードに最適なデプロイを特定するのに役立ちます。
ワークロードの概要
AI ハイパーコンピュータ アーキテクチャは、次のユースケースをサポートしています。
| ワークロード | 説明 | 推奨事項 |
|---|---|---|
| 基盤モデルの事前トレーニング | これには、大規模なデータセットを使用して言語モデルを構築することが含まれます。基盤モデルの事前トレーニングの結果は、一般的なタスクの実行に優れた新しいモデルになります。 モデルは、サイズに基づいて次のように分類されます。
|
事前トレーニング モデルに関する推奨事項をご覧ください。 |
| ファインチューニング | これには、トレーニング済みのモデルを取得し、特殊なデータセットやその他の手法を使用して、特定のタスクを実行するように適応させることが含まれます。ファインチューニングは通常、大規模なモデルに対して行われます。 | モデルのファインチューニングに関する推奨事項をご覧ください。 |
| 推論またはサービング | これには、トレーニング済みモデルまたはファイン チューニング済みモデルを取得し、ユーザーまたはアプリケーションが使用できるようにすることが含まれます。 推論ワークロードは、モデルのサイズに基づいて次のように分類されます。
|
推論に関する推奨事項をご覧ください。 |
| 小規模から中規模のモデルの ML | これには、サイズと複雑さが小さい ML モデルのトレーニングとサービングが含まれます。通常、より専門的なタスクに使用されます。 | 小規模から中規模のモデルの ML に関する推奨事項をご覧ください。 |
| HPC | これは、コンピューティング リソースを集約することで、単一のワークステーション、サーバー、コンピュータよりも高いパフォーマンスを実現する手法です。HPC は、学術研究、科学、設計、シミュレーション、ビジネス インテリジェンスの問題を解決するために使用されます。 | HPC の推奨事項をご覧ください。 |
事前トレーニング モデルに関する推奨事項
基盤モデルの事前トレーニングでは、アクセラレータの大規模なクラスタを使用して、大量のデータを継続的に読み取り、フォワード パスとバックワード パスで重みを調整してデータから学習します。これらのトレーニング ジョブは、数週間、あるいは数か月間実行されます。
以降のセクションでは、モデルの事前トレーニング時に使用するアクセラレータ、推奨される消費タイプ、ストレージ サービスについて説明します。
推奨されるアクセラレータ
Google Cloudで基盤モデルを事前トレーニングするには、A4X、A4、A3 のアクセラレータ最適化マシンを使用し、オーケストレーターを使用してこれらのマシンをデプロイすることをおすすめします。このような大規模なアクセラレータ クラスタをデプロイするには、Cluster Director または Cluster Toolkit を使用することをおすすめします。詳細については、次の表で選択したクラスタのデプロイガイドをご覧ください。
| ワークロード | 推奨事項 | クラスタ デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
|
|
GKE | デフォルト構成で AI によって最適化された GKE クラスタを作成する |
| Slurm | |||
|
A3 Mega | GKE | Standard モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | |||
|
A3 High | GKE | Standard モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | A3 High Slurm クラスタをデプロイする | ||
推奨される使用タイプ
最小限の費用で大規模なアクセラレータ クラスタを確実に取得するには、予約を使用して、その予約を長期間リクエストすることをおすすめします。使用タイプの詳細については、使用オプションを選択するをご覧ください。
推奨されるストレージ サービス
事前トレーニングでは、トレーニング データを継続的かつ迅速に準備する必要があります。また、トレーニング中のモデルのチェックポイントを頻繁かつ迅速に作成することをおすすめします。このようなニーズのほとんどには、Google Cloud Managed Lustre を使用することをおすすめします。代わりに、Cloud Storage FUSE と Anywhere Cache を有効にした Cloud Storage を使用することもできます。ストレージ オプションの詳細については、ストレージ サービスをご覧ください。
モデルのファインチューニングに関する推奨事項
大規模な基盤モデルのファインチューニングでは、アクセラレータの小規模なクラスタを使用し、中程度の量のデータを読み取って、特定のタスクを実行するようにモデルを調整します。これらのファインチューニング ジョブは、数日または数週間実行されます。
以降のセクションでは、モデルのファインチューニング時に使用するアクセラレータ、推奨される消費タイプ、ストレージ サービスについて説明します。
推奨されるアクセラレータ
Google Cloudでモデルをファインチューニングするには、A4X、A4、A3 のアクセラレータ最適化マシンを使用し、オーケストレーターを使用してこれらのマシンをデプロイすることをおすすめします。
これらのアクセラレータ クラスタをデプロイするには、Cluster Director または Cluster Toolkit を使用することをおすすめします。詳細については、次の表で選択したマシンタイプのクラスタ デプロイ ガイドをご覧ください。
| ワークロード | 推奨事項 | クラスタ デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| 大規模モデルのファインチューニング |
|
GKE | デフォルト構成で AI によって最適化された GKE クラスタを作成する |
| Slurm | |||
| 大規模モデルのファインチューニング | A3 Mega | GKE | Standard モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | |||
| 大規模モデルのファインチューニング | A3 High | GKE | Standard モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | A3 High Slurm クラスタをデプロイする | ||
推奨される使用タイプ
ファインチューニング ワークロードでは、カレンダー モードの将来の予約を使用してリソースをプロビジョニングすることをおすすめします。使用オプションの詳細については、使用オプションを選択するをご覧ください。
推奨されるストレージ サービス
モデルのファインチューニングでは、特にファインチューニングのパフォーマンスの読み取り速度に関しては、大量のデータが必要になることがあります。ファインチューニングするモデルのチェックポイントを頻繁かつ迅速に作成することをおすすめします。事前トレーニングと同様に、ほとんどのユースケースでは Google Cloud Managed Lustre をおすすめします。Cloud Storage FUSE と Anywhere Cache を有効にして Cloud Storage を使用することもできます。ストレージ オプションの詳細については、ストレージ サービスをご覧ください。
推論に関する推奨事項
以降のセクションでは、推論を実行する際に使用するアクセラレータ、推奨される消費タイプ、ストレージ サービスについて説明します。
推奨されるアクセラレータ
推論に推奨されるアクセラレータは、マルチホストのフロンティア モデルまたは大規模モデルの推論を実行するか、単一ホストのフロンティア モデルの推論を実行するかによって異なります。
推奨されるアクセラレータ(マルチホスト)
Google Cloudでマルチホスト フロンティアまたは大規模モデルの推論を実行するには、A4X、A4、または A3 アクセラレータ最適化マシンを使用し、オーケストレーターを使用してこれらのマシンをデプロイすることをおすすめします。これらのアクセラレータ クラスタをデプロイするには、Cluster Director または Cluster Toolkit を使用することをおすすめします。これらのクラスタを使い始めるには、推奨される各マシンタイプのクラスタ デプロイガイドへのリンクをご覧ください。
| ワークロード | 推奨事項 | クラスタ デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| マルチホスト フロンティア推論 |
|
GKE | デフォルト構成で AI によって最適化された GKE クラスタを作成する |
| Slurm | |||
| マルチホスト フロンティア推論 | A3 Mega | GKE | Standard モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | |||
| 大規模モデルの推論 | A3 High | GKE | Standard モードのクラスタで GPU ネットワーク帯域幅を最大化する |
| Slurm | A3 High Slurm クラスタをデプロイする | ||
推奨されるアクセラレータ(単一ホスト)
次の表に、単一ホストのフロンティア推論を実行する際に使用することが推奨されるアクセラレータを示します。これらの VM を使い始めるには、推奨される各マシンタイプの VM デプロイガイドへのリンクが提供されています。
| ワークロード | 推奨事項 | VM デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| 単一ホストのフロンティア推論 |
|
なし | AI 最適化インスタンスを作成する |
| 単一ホストのフロンティア推論 | A3 High | なし | GPUDirect-TCPX を有効にして A3 VM を作成する |
推奨される使用タイプ
推論には、長期実行予約またはカレンダー モードの将来の予約を使用することをおすすめします。使用オプションの詳細については、使用オプションを選択するをご覧ください。
推奨されるストレージ サービス
推論では、多くのサーバーに推論バイナリと重みをすばやく読み込むために、高速なデータ読み取りが必要です。モデルの読み込みには、Cloud Storage FUSE と Anywhere Cache が有効になっている Cloud Storage を使用することをおすすめします。Anywhere Cache は、モデルの読み込み時間を短縮し、ネットワーク下り(外向き)料金を削減するゾーン データ キャッシュ ソリューションを提供します。Cloud Storage FUSE と組み合わせると、Anywhere Cache は複数のゾーンとマルチリージョンにわたってモデルを読み込む場合に特に便利です。トレーニングに Google Cloud Managed Lustre を使用している場合は、モデルの読み込みにも Google Cloud Managed Lustre を使用することをおすすめします。これにより、高速なデータ読み取りが可能になり、永続的なゾーン ストレージ ソリューションが実現します。ストレージ オプションの詳細については、ストレージ サービスをご覧ください。
小規模から中規模のモデルの ML に関する推奨事項
小規模から中規模のモデルを使用する ML ワークロードでは、価格とパフォーマンスの最適なバランスを実現することが主な考慮事項となります。
推奨されるアクセラレータ
次の表に、小規模から中規模のモデルの ML ワークロードで使用する推奨アクセラレータの概要を示します。
| ワークロード | 推奨事項 | VM デプロイガイド | |
|---|---|---|---|
| マシンタイプ | オーケストレーター | ||
| 小規模から中規模のモデルの ML |
|
なし | G2 インスタンスまたは G4 インスタンスを作成する |
HPC の推奨事項
HPC ワークロードでは、アクセラレータ最適化マシンシリーズまたはコンピューティング最適化マシンシリーズが適しています。アクセラレータ最適化マシンシリーズを使用する場合、最適なものは GPU にオフロードする必要がある計算量によって異なります。HPC ワークロードの推奨事項の詳細なリストについては、HPC ワークロードの実行に関するベスト プラクティスをご覧ください。
推奨事項の概要
次の表に、さまざまなワークロードに推奨されるアクセラレータ、消費タイプ、ストレージ サービスの推奨事項の概要を示します。
リソース |
推奨事項 |
|---|---|
| モデルの事前トレーニング | |
| マシン ファミリー | 次のいずれかのアクセラレータ最適化マシンタイプを使用します。A4、A3 Ultra、A3 Mega、A3 High |
| 使用量タイプ | 予約を使用する |
| ストレージ | Google Cloud Managed Lustre や Cloud Storage FUSE などの Google Cloud マネージド サービスを使用する |
| モデルの微調整 | |
| マシン ファミリー | A4X、A4、A3 のアクセラレータ最適化マシンタイプを使用する |
| 使用量タイプ | 予約を使用する |
| ストレージ | Google Cloud Managed Lustre や Cloud Storage FUSE などの Google Cloud マネージド サービスを使用する |
| 推論 | |
| マシン ファミリー | 次のいずれかのアクセラレータ最適化マシンタイプを使用します。A4、A3 Ultra、A3 Mega、A3 High |
| 使用量タイプ | 予約を使用する |
| ストレージ | Google Cloud Managed Lustre や Cloud Storage FUSE などの Google Cloud マネージド サービスを使用する |
| HPC | |
| HPC ワークロードの実行に関するベスト プラクティスの概要セクションをご覧ください。 | |