Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

推奨構成

このドキュメントでは、さまざまな AI、ML、ハイパフォーマンスコンピューティング（HPC）ワークロードに最適なアクセラレータ、使用量タイプ、デプロイツールに関する推奨事項について説明します。このドキュメントは、ワークロードに最適なデプロイを特定する際に役立ちます。

AI、ML、HPC ワークロードのインフラストラクチャの柱に関する情報と推奨事項については、次のドキュメントをご覧ください。

ワークロードの概要

AI Hypercomputer アーキテクチャは、次のユースケースをサポートしています。

ワークロード	説明	推奨事項
基盤モデルの事前トレーニング	これには、大規模なデータセットを使用して言語モデルを構築することが含まれます。基盤モデルの事前トレーニングの結果、一般的なタスクの実行に適した新しいモデルが作成されます。モデルは、サイズに基づいて次のように分類されます。 *フロンティアモデル*: 数千億から数兆以上のパラメータに及ぶ ML モデルです。これには、Gemini などの大規模言語モデル（LLM）が含まれます。大規模モデル: 数十億から数千億以上のパラメータに及ぶモデルです。	事前トレーニングモデルに関する推奨事項をご覧ください。
ファインチューニング	これには、トレーニング済みのモデルを取得し、専門的なデータセットやその他の手法を使用して、特定のタスクを実行できるように適応させることが含まれます。ファインチューニングは通常、大規模モデルに対して行われます。	モデルのファインチューニングに関する推奨事項をご覧ください。
推論（サービング）	これには、トレーニング済みまたはファインチューニング済みのモデルを取得し、ユーザーまたはアプリケーションが使用できるようにすることが含まれます。推論ワークロードは、モデルのサイズに基づいて次のように分類されます。 *マルチホスト基盤モデルの推論: 数千億から数兆以上のパラメータに及ぶトレーニング済みの ML モデルを使用して推論を実行します。これらの推論ワークロードでは、計算負荷が複数のホストマシン間で共有されます。単一ホスト基盤モデルの推論: 数十億から数千億のパラメータに及ぶトレーニング済みの ML モデルを使用して推論を実行します。これらの推論ワークロードでは、計算負荷は単一のホストマシンに限定されます。大規模モデルの推論*: 数十億から数千億のパラメータに及ぶトレーニング済みまたはファインチューニング済みの ML モデルを使用して推論を実行します。	推論に関する推奨事項をご覧ください。
中小規模モデルの ML	これには、サイズと複雑さが小さい ML モデルのトレーニングとサービングが含まれます。通常、より専門的なタスクに使用されます。	中小規模モデルの ML に関する推奨事項をご覧ください。
HPC	これは、コンピューティングリソースを集約することで、単一のワークステーション、サーバー、コンピュータで行うよりも高いパフォーマンスを実現する手法です。HPC は、学術研究、科学、設計、シミュレーション、ビジネスインテリジェンスの問題を解決するために使用されます。	HPC に関する推奨事項をご覧ください。

事前トレーニングモデルに関する推奨事項

基盤モデルの事前トレーニングでは、アクセラレータの大規模なクラスタを使用し、大量のデータを継続的に読み取り、順方向パスと逆方向パスで重みを調整してデータから学習します。これらのトレーニングジョブは、一度に数週間、あるいは数か月間実行されます。

以降のセクションでは、モデルの事前トレーニング時に使用するアクセラレータと推奨される使用量タイプについて説明します。

推奨されるアクセラレータ

で基盤モデルを事前トレーニングするには Google Cloud、 A4X Max、A4、A3 のアクセラレータ最適化マシンタイプを使用し、オーケストレーターを使用してクラスタをデプロイすることをおすすめします。アクセラレータのこれらの大規模クラスタをデプロイするには、 Cluster Director または Cluster Toolkitを使用することをおすすめします。詳細については、次の表で選択したクラスタのそれぞれのデプロイガイドをご覧ください。

ワークロード	推奨事項		クラスタデプロイガイド
	マシンタイプ	オーケストレーター
フロンティアモデルのトレーニング大規模モデルのトレーニング	A4X Max A4X A4 A3 Ultra	GKE	デフォルト構成で AI によって最適化された GKE クラスタを作成する
フロンティアモデルのトレーニング大規模モデルのトレーニング	A4X Max A4X A4 A3 Ultra	Slurm	AI ワークロード用のフルマネージド Slurm クラスタを作成する AI ワークロード用の自己管理型 Slurm クラスタを作成する
フロンティアモデルのトレーニング大規模モデルのトレーニング	A3 Mega	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
フロンティアモデルのトレーニング大規模モデルのトレーニング	A3 Mega	Slurm	テンプレートに基づいて AI に最適化されたクラスタを作成する ML トレーニング用に A3 Mega Slurm クラスタをデプロイする
大規模モデルのトレーニング	A3 High	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
大規模モデルのトレーニング	A3 High	Slurm	A3 High Slurm クラスタをデプロイする

推奨される使用量タイプ

最小限の費用でアクセラレータの大規模なクラスタを確実に取得するには、予約を使用し、これらの予約を長期間リクエストすることをおすすめします。使用量タイプの詳細については、使用オプションを選択するをご覧ください。

モデルのファインチューニングに関する推奨事項

大規模な基盤モデルのファインチューニングでは、アクセラレータの小規模なクラスタを使用し、適度な量のデータを読み取り、特定のタスクを実行するようにモデルを調整します。これらのファインチューニングジョブは、数日、あるいは数週間実行されます。

以降のセクションでは、モデルのファインチューニング時に使用する推奨アクセラレータと使用量タイプについて説明します。

推奨されるアクセラレータ

でモデルをファインチューニングするには、A4X Max、 A4X、A4、A3 のアクセラレータ最適化マシンタイプを使用し、オーケストレーターを使用してクラスタをデプロイすることをおすすめします。 Google Cloud

アクセラレータのこれらのクラスタをデプロイするには、 Cluster Director または Cluster Toolkit を使用することをおすすめします。詳細については、次の表で選択したマシンタイプのそれぞれのクラスタデプロイガイドをご覧ください。

ワークロード	推奨事項		クラスタデプロイガイド
	マシンタイプ	オーケストレーター
大規模モデルのファインチューニング	A4X Max A4X A4	GKE	デフォルト構成で AI によって最適化された GKE クラスタを作成する
大規模モデルのファインチューニング	A4X Max A4X A4	Slurm	AI ワークロード用のフルマネージド Slurm クラスタを作成する AI ワークロード用の自己管理型 Slurm クラスタを作成する
大規模モデルのファインチューニング	A3 Mega	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
大規模モデルのファインチューニング	A3 Mega	Slurm	テンプレートに基づいて AI に最適化されたクラスタを作成する ML トレーニング用に A3 Mega Slurm クラスタをデプロイする
大規模モデルのファインチューニング	A3 High	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
大規模モデルのファインチューニング	A3 High	Slurm	A3 High Slurm クラスタをデプロイする

推奨される使用量タイプ

ファインチューニングワークロードの場合は、カレンダーモードで将来の予約を使用してリソースをプロビジョニングすることをおすすめします。使用オプションの詳細については、使用オプションを選択するをご覧ください。

推論に関する推奨事項

以降のセクションでは、推論の実行時に使用する推奨アクセラレータと使用量タイプについて説明します。

推奨されるアクセラレータ

推論に推奨されるアクセラレータは、マルチホストフロンティアまたは大規模モデルの推論を実行しているか、単一ホストフロンティアの推論を実行しているかによって異なります。

推奨されるアクセラレータ（マルチホスト）

Google Cloudでマルチホストフロンティアまたは大規模モデルの推論を実行するには、 A4X Max、A4X、A4、またはA3 のアクセラレータ最適化マシンタイプを使用し、オーケストレーターを使用してマシンをデプロイすることをおすすめします。アクセラレータのこれらのクラスタをデプロイするには、 Cluster Director または Cluster Toolkitを使用することをおすすめします。これらのクラスタを使い始めるには、推奨されるマシンタイプごとにクラスタデプロイガイドへのリンクが用意されています。

ワークロード	推奨事項		クラスタデプロイガイド
	マシンタイプ	オーケストレーター
マルチホストフロンティアの推論	A4X Max A4X A4 A3 Ultra	GKE	デフォルト構成で AI によって最適化された GKE クラスタを作成する
マルチホストフロンティアの推論	A4X Max A4X A4 A3 Ultra	Slurm	AI ワークロード用のフルマネージド Slurm クラスタを作成する AI ワークロード用の自己管理型 Slurm クラスタを作成する
マルチホストフロンティアの推論	A3 Mega	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
マルチホストフロンティアの推論	A3 Mega	Slurm	テンプレートに基づいて AI に最適化されたクラスタを作成する ML トレーニング用に A3 Mega Slurm クラスタをデプロイする
大規模モデルの推論	A3 High	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
大規模モデルの推論	A3 High	Slurm	A3 High Slurm クラスタをデプロイする

推奨されるアクセラレータ（単一ホスト）

次の表に、単一ホストフロンティアの推論を実行する際に使用する推奨アクセラレータを示します。これらの VM を使い始めるには、推奨されるマシンタイプごとに VM デプロイガイドへのリンクが用意されています。

ワークロード	推奨事項		VM デプロイガイド
	マシンタイプ	オーケストレーター
単一ホストフロンティアの推論	A4 A3 Ultra	なし	AI に最適化されたインスタンスを作成する
単一ホストフロンティアの推論	A3 High	なし	GPUDirect-TCPX を有効にして A3 VM を作成する

推奨される使用量タイプ

推論には、長時間実行される予約またはカレンダーモードでの将来の予約を使用することをおすすめします。使用オプションの詳細については、使用オプションを選択するをご覧ください。

中小規模モデルの ML に関する推奨事項

中小規模のモデルを使用する ML ワークロードでは、費用とパフォーマンスの最適なバランスを実現することが主な考慮事項となります。

推奨されるアクセラレータ

次の表に、中小規模モデルの ML ワークロードに使用する推奨アクセラレータを示します。

ワークロード	推奨事項		VM デプロイガイド
	マシンタイプ	オーケストレーター
中小規模モデルの ML	G4 G2	なし	G2 インスタンスまたは G4 インスタンスを作成する

HPC に関する推奨事項

HPC ワークロードでは、アクセラレータ最適化マシンシリーズまたはコンピューティング最適化マシンシリーズが適しています。アクセラレータ最適化マシンシリーズを使用する場合、最適なものは、GPU にオフロードする必要がある計算量によって異なります。HPC ワークロードに関する推奨事項の詳細なリストについては、 HPC ワークロードの実行に関するベストプラクティスをご覧ください。

推奨事項の概要

以下に、さまざまなワークロードに推奨されるアクセラレータと使用量タイプの推奨事項の概要を示します。

リソース	推奨事項
モデルの事前トレーニング
マシンファミリー	A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High のいずれかのアクセラレータ最適化マシンタイプを使用する
使用量タイプ	予約を使用する
モデルのファインチューニング
マシンファミリー	A4X Max、A4X、A4、A3 のアクセラレータ最適化マシンタイプを使用する
使用量タイプ	予約を使用する
推論
マシンファミリー	A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High のいずれかのアクセラレータ最適化マシンタイプを使用する
使用量タイプ	予約を使用する
HPC
HPC ワークロードの実行に関するベストプラクティスの概要セクションをご覧ください。

推奨構成 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ワークロードの概要

事前トレーニング モデルに関する推奨事項

推奨されるアクセラレータ

推奨される使用量タイプ

モデルのファインチューニングに関する推奨事項

推奨されるアクセラレータ

推奨される使用量タイプ

推論に関する推奨事項

推奨されるアクセラレータ

推奨されるアクセラレータ（マルチホスト）

推奨されるアクセラレータ（単一ホスト）

推奨される使用量タイプ

中小規模モデルの ML に関する推奨事項

推奨されるアクセラレータ

HPC に関する推奨事項

推奨事項の概要

推奨構成

事前トレーニングモデルに関する推奨事項