Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

推奨構成

このドキュメントでは、さまざまな AI、ML、ハイパフォーマンスコンピューティング（HPC）ワークロードに最適なアクセラレータ、消費タイプ、デプロイツールに関する推奨事項について説明します。このドキュメントは、ワークロードに最適なデプロイを特定する際に役立ちます。

AI、ML、HPC ワークロードのインフラストラクチャピラーに関する情報と推奨事項については、次のドキュメントをご覧ください。

ワークロードの概要

AI ハイパーコンピュータアーキテクチャは、次のユースケースをサポートしています。

ワークロード	説明	推奨事項
基盤モデルの事前トレーニング	これには、大規模なデータセットを使用して言語モデルを構築することが含まれます。基盤モデルの事前トレーニングの結果は、一般的なタスクの実行に優れた新しいモデルになります。モデルは、サイズに基づいて次のように分類されます。 *フロンティアモデル: 数千億から数兆以上のパラメータを持つ ML モデル。これには、Gemini などの大規模言語モデル（LLM）が含まれます。大規模モデル*: パラメータ数が数十億から数百億以上のモデルです。	事前トレーニングモデルに関する推奨事項をご覧ください。
ファインチューニング	これには、トレーニング済みモデルを取得し、特殊なデータセットやその他の手法を使用して、特定のタスクを実行するように適応させることが含まれます。ファインチューニングは通常、大規模なモデルに対して行われます。	モデルのファインチューニングに関する推奨事項をご覧ください。
推論またはサービング	これには、トレーニング済みモデルまたはファインチューニング済みモデルを取得して、ユーザーまたはアプリケーションが使用できるようにすることが含まれます。推論ワークロードは、モデルのサイズに基づいて次のように分類されます。 *マルチホスト基盤モデル推論: 数千億から数兆以上のパラメータに及ぶトレーニング済みの ML モデルで推論を実行します。これらの推論ワークロードでは、計算負荷が複数のホストマシン間で共有されます。単一ホストの基盤モデル推論: 数十億から数百億のパラメータに及ぶトレーニング済みの ML モデルを使用して推論を実行します。これらの推論ワークロードでは、計算負荷は単一のホストマシンに限定されます。大規模モデル推論*: 数十億から数百億のパラメータに及ぶ、トレーニング済みまたはファインチューニング済みの ML モデルで推論を実行します。	推論に関する推奨事項をご覧ください。
小規模から中規模のモデルの ML	これには、サイズと複雑さが小さい ML モデルのトレーニングとサービングが含まれます。通常、より専門的なタスクに使用されます。	小規模から中規模のモデルの ML に関する推奨事項をご覧ください。
HPC	これは、コンピューティングリソースを集約することで、単一のワークステーション、サーバー、コンピュータよりも高いパフォーマンスを実現する手法です。HPC は、学術研究、科学、設計、シミュレーション、ビジネスインテリジェンスの問題を解決するために使用されます。	HPC の推奨事項をご覧ください。

事前トレーニングモデルに関する推奨事項

基盤モデルの事前トレーニングでは、大規模なアクセラレータクラスタを使用して、大量のデータを継続的に読み取り、フォワードパスとバックワードパスで重みを調整してデータから学習します。これらのトレーニングジョブは、数週間から数か月間実行されます。

以降のセクションでは、モデルの事前トレーニング時に使用するアクセラレータと推奨される使用量タイプについて説明します。

推奨されるアクセラレータ

Google Cloudで基盤モデルを事前トレーニングするには、A4X Max、A4、または A3 アクセラレータ最適化マシンタイプを使用し、オーケストレーターを使用してクラスタをデプロイすることをおすすめします。これらの大規模なアクセラレータクラスタをデプロイするには、Cluster Director または Cluster Toolkit を使用することをおすすめします。詳細については、次の表で選択したクラスタのそれぞれのデプロイガイドをご覧ください。

ワークロード	推奨事項		クラスタデプロイガイド
	マシンタイプ	オーケストレーター
フロンティアモデルのトレーニング大規模モデルのトレーニング	A4X Max A4X A4 A3 Ultra	GKE	デフォルト構成で AI によって最適化された GKE クラスタを作成する
フロンティアモデルのトレーニング大規模モデルのトレーニング	A4X Max A4X A4 A3 Ultra	Slurm	AI ワークロード用のフルマネージド Slurm クラスタを作成する AI ワークロード用のセルフマネージド Slurm クラスタを作成する
フロンティアモデルのトレーニング大規模モデルのトレーニング	A3 Mega	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
フロンティアモデルのトレーニング大規模モデルのトレーニング	A3 Mega	Slurm	テンプレートに基づいて AI 最適化クラスタを作成する ML トレーニング用に A3 Mega Slurm クラスタをデプロイする
大規模モデルのトレーニング	A3 High	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
大規模モデルのトレーニング	A3 High	Slurm	A3 High Slurm クラスタをデプロイする

推奨される使用タイプ

大規模なアクセラレータクラスタを確実に取得するには、予約を使用することをおすすめします。具体的には、予約済みリソースの費用を最小限に抑えるため、確約利用割引を受けられるだけの十分な期間でこの予約をリクエストすることをおすすめします。消費タイプの詳細については、消費オプションを選択するをご覧ください。

モデルのファインチューニングに関する推奨事項

大規模な基盤モデルのファインチューニングでは、アクセラレータの小規模なクラスタを使用し、中程度の量のデータを読み取って、特定のタスクを実行するようにモデルを調整します。これらのファインチューニングジョブは数日、または数週間実行されます。

以降のセクションでは、モデルのファインチューニング時に使用する推奨アクセラレータと使用量タイプについて説明します。

推奨されるアクセラレータ

Google Cloudでモデルをファインチューニングするには、A4X Max、A4X、A4、または A3 のアクセラレータ最適化マシンタイプを使用し、オーケストレーターを使用してクラスタをデプロイすることをおすすめします。

これらのアクセラレータクラスタをデプロイするには、Cluster Director または Cluster Toolkit を使用することをおすすめします。詳細については、次の表で選択したマシンタイプのクラスタデプロイガイドをご覧ください。

ワークロード	推奨事項		クラスタデプロイガイド
	マシンタイプ	オーケストレーター
大規模モデルのファインチューニング	A4X Max A4X A4	GKE	デフォルト構成で AI によって最適化された GKE クラスタを作成する
大規模モデルのファインチューニング	A4X Max A4X A4	Slurm	AI ワークロード用のフルマネージド Slurm クラスタを作成する AI ワークロード用のセルフマネージド Slurm クラスタを作成する
大規模モデルのファインチューニング	A3 Mega	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
大規模モデルのファインチューニング	A3 Mega	Slurm	テンプレートに基づいて AI 最適化クラスタを作成する ML トレーニング用に A3 Mega Slurm クラスタをデプロイする
大規模モデルのファインチューニング	A3 High	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
大規模モデルのファインチューニング	A3 High	Slurm	A3 High Slurm クラスタをデプロイする

推奨される使用タイプ

ワークロードをファインチューニングする場合は、カレンダーモードで将来の予約を使用してリソースをプロビジョニングすることをおすすめします。使用オプションの詳細については、使用オプションを選択するをご覧ください。

推論に関する推奨事項

以降のセクションでは、推論を実行する際に使用する推奨アクセラレータと消費タイプについて説明します。

推奨されるアクセラレータ

推論に推奨されるアクセラレータは、マルチホストのフロンティアモデルまたは大規模モデルの推論を実行するか、単一ホストのフロンティアモデルの推論を実行するかによって異なります。

推奨されるアクセラレータ（マルチホスト）

Google Cloudでマルチホストフロンティアまたは大規模モデルの推論を実行するには、A4X Max、A4X、A4、または A3 アクセラレータ最適化マシンタイプを使用し、オーケストレーターを使用してマシンをデプロイすることをおすすめします。これらのアクセラレータクラスタをデプロイするには、Cluster Director または Cluster Toolkit を使用することをおすすめします。これらのクラスタを使い始めるには、推奨される各マシンタイプのクラスタデプロイガイドへのリンクをご覧ください。

ワークロード	推奨事項		クラスタデプロイガイド
	マシンタイプ	オーケストレーター
マルチホストフロンティア推論	A4X Max A4X A4 A3 Ultra	GKE	デフォルト構成で AI によって最適化された GKE クラスタを作成する
マルチホストフロンティア推論	A4X Max A4X A4 A3 Ultra	Slurm	AI ワークロード用のフルマネージド Slurm クラスタを作成する AI ワークロード用のセルフマネージド Slurm クラスタを作成する
マルチホストフロンティア推論	A3 Mega	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
マルチホストフロンティア推論	A3 Mega	Slurm	テンプレートに基づいて AI 最適化クラスタを作成する ML トレーニング用に A3 Mega Slurm クラスタをデプロイする
大規模モデルの推論	A3 High	GKE	標準モードのクラスタで GPU ネットワーク帯域幅を最大化する
大規模モデルの推論	A3 High	Slurm	A3 High Slurm クラスタをデプロイする

推奨されるアクセラレータ（単一ホスト）

次の表に、単一ホストのフロンティア推論を実行する際に使用する推奨アクセラレータの概要を示します。これらの VM を使い始めるために、推奨マシンタイプごとに VM デプロイガイドへのリンクが用意されています。

ワークロード	推奨事項		VM デプロイガイド
	マシンタイプ	オーケストレーター
単一ホストのフロンティア推論	A4 A3 Ultra	なし	AI 最適化インスタンスを作成する
単一ホストのフロンティア推論	A3 High	なし	GPUDirect-TCPX を有効にして A3 VM を作成する

推奨される使用タイプ

推論には、長期実行予約またはカレンダーモードの将来の予約を使用することをおすすめします。使用オプションの詳細については、使用オプションを選択するをご覧ください。

小規模から中規模のモデルの ML に関する推奨事項

小規模から中規模のモデルを含む ML ワークロードでは、価格とパフォーマンスの最適なバランスを実現することが主な考慮事項となります。

推奨されるアクセラレータ

次の表に、小規模から中規模のモデルの ML ワークロードで使用する推奨アクセラレータの概要を示します。

ワークロード	推奨事項		VM デプロイガイド
	マシンタイプ	オーケストレーター
小規模から中規模のモデルの ML	G4 G2	なし	G2 インスタンスまたは G4 インスタンスを作成する

HPC の推奨事項

HPC ワークロードには、アクセラレータ最適化マシンシリーズまたはコンピューティング最適化マシンシリーズが適しています。アクセラレータ最適化マシンシリーズを使用する場合、最適なシリーズは GPU にオフロードする必要がある計算量によって異なります。HPC ワークロードの推奨事項の詳細なリストについては、HPC ワークロードを実行するためのベストプラクティスをご覧ください。

推奨事項の概要

次の表に、さまざまなワークロードに推奨されるアクセラレータと消費タイプの推奨事項の概要を示します。

リソース	推奨事項
モデルの事前トレーニング
マシンファミリー	次のいずれかのアクセラレータ最適化マシンタイプを使用します。A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High
使用タイプ	予約を使用する
モデルの微調整
マシンファミリー	A4X Max、A4X、A4、A3 のアクセラレータ最適化マシンタイプを使用する
使用タイプ	予約を使用する
推論
マシンファミリー	次のいずれかのアクセラレータ最適化マシンタイプを使用します。A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High
使用タイプ	予約を使用する
HPC
HPC ワークロードの実行に関するベストプラクティスの概要セクションをご覧ください。

推奨構成 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ワークロードの概要

事前トレーニング モデルに関する推奨事項

推奨されるアクセラレータ

推奨される使用タイプ

モデルのファインチューニングに関する推奨事項

推奨されるアクセラレータ

推奨される使用タイプ

推論に関する推奨事項

推奨されるアクセラレータ

推奨されるアクセラレータ（マルチホスト）

推奨されるアクセラレータ（単一ホスト）

推奨される使用タイプ

小規模から中規模のモデルの ML に関する推奨事項

推奨されるアクセラレータ

HPC の推奨事項

推奨事項の概要

推奨構成

事前トレーニングモデルに関する推奨事項