トレーニング方法を選択する

このドキュメントでは、 Google Cloudで使用できるトレーニング方法の主な違いについて説明します。どの方法を選択するかは、チームの専門知識、必要な制御レベル、インフラストラクチャの優先度によって異なります。

  • AutoML では、最小限の技術的な作業でモデルを作成してトレーニングできます。AutoML を使用すると、開発に投資する前にモデルのプロトタイプを迅速に作成し、新しいデータセットを調査できます。たとえば、特定のデータセットに最適な特徴を確認するために使用できます。

  • カスタム トレーニングでは、目標とする結果に合わせて最適化されたトレーニング アプリケーションを作成できます。単一ノードジョブから大規模なマルチノード分散トレーニングまで、トレーニング アプリケーションの機能を完全に制御できます。つまり、設定する目標や使用するアルゴリズムに制限はなく、独自の損失関数や指標の作成など、さまざまなカスタマイズが可能です。

    • Vertex AI サーバーレス トレーニング: トレーニング ジョブを送信すると、 Google Cloud がコンピューティング リソースをプロビジョニング、管理、リリースするサーバーレス アプローチです。これは、テストや、容量の確保が必要ないジョブに最適です。

    • Vertex AI トレーニング クラスタは、大規模で高性能なトレーニング ジョブ向けに設計されたカスタム トレーニング内の機能です。これにより、強力なコンピューティング リソース(A100 や H100 GPU など)の専用クラスタを予約して、ミッション クリティカルなトレーニング タスクや長時間実行されるトレーニング タスクの容量とパフォーマンスを保証できます。

  • Ray on Vertex AI では、 Google Cloud インフラストラクチャで Ray の分散コンピューティング フレームワークを使用できます。Ray on Vertex AI は、構成可能なコンピューティング リソース、Vertex AI Inference や BigQuery などのサービスとの統合、分散ワークロードの開発と実行のための柔軟なネットワーキング オプションを備えたマネージド環境を提供します。

  • BigQuery を使用すると、BigQuery で直接 BigQuery データを使用してモデルをトレーニングできます。SQL コマンドを使用すると、モデルをすばやく作成し、それを使用してバッチ推論を取得できます。

各サービスに必要な機能と専門知識を比較するには、次の表をご覧ください。

AutoML サーバーレスのトレーニング クラスタのトレーニング Ray on Vertex AI BigQuery ML
データ サイエンスに関する専門知識 不要 必要。トレーニング アプリケーションの開発とデータ準備を行います。 必要。トレーニング アプリケーションの開発とデータ準備を行います。 ML のコンセプトとデータ ワークフローに関する基本的な知識があると役立ちます。 不要
プログラミング能力 不要。AutoML は、プログラミングを必要としません。 必要。トレーニング アプリケーションを開発します。 必要。トレーニング アプリケーションを開発します。 必要。 必要。
モデルのトレーニング時間 比較的短い。データの準備作業は比較的少ない。開発作業は不要。 比較的長い。各ジョブのコード開発とオンデマンド リソース プロビジョニングの時間が含まれます。 比較的長い。コード開発が必要ですが、リソースがすでに予約されているため、ジョブの起動が速く、キューとプロビジョニング時間が不要になります。 トレーニング時間は、コードロジック(データ準備とトレーニング)とリソースのプロビジョニング時間によって異なります。 比較的短い。BigQuery ML はトレーニング、評価、推論に BigQuery 計算エンジンを利用するため、モデル開発を迅速に行うことができます。
ML の目標に関する制限 あり。AutoML で定義済みの目標のいずれかをターゲットにする必要があります。 なし なし なし あり
ハイパーパラメータ チューニングを使用してモデルのパフォーマンスを手動で最適化できる いいえ。AutoML では、一部自動でチューニングを行いますが、値を変更することはできません。 はい。各トレーニングの実行時に、テストおよび比較目的でモデルをチューニングできます。 はい。各トレーニングの実行時に、テストおよび比較目的でモデルをチューニングできます。 はい。カスタム トレーニング コードを指定することで、ハイパーパラメータ値を完全に制御できます。 はい。BigQuery ML は、モデルのトレーニング時にハイパーパラメータ チューニングをサポートしています。
トレーニング環境をコントロールできる 制限あり。トレーニング時間の予算を指定し、早期停止を有効にできます。 はい。各ジョブの Compute Engine マシンタイプ、ディスクサイズ、コンテナ イメージを指定します。 はい。特定のハイ パフォーマンス マシンタイプ(例:H100)、ディスク構成、ネットワーク設定を独占的に使用し、容量を保証します。 はい。カスタム Docker イメージ、ヘッドノードとワーカーノードのマシンタイプ、アクセラレータ(GPU)の数とタイプなど、大幅な制御が可能です。 いいえ
データサイズの制限 あり。データサイズの制限は、データセットのタイプによって異なります。 なし なし なし。ただし、BigQuery の読み取りには、クエリ レスポンスの最大サイズが 10 GB という上限があります。 なし。BigQuery ML ではプロジェクトごとに割り当てが適用されます。詳細については、割り当てと上限をご覧ください。

次のステップ