このドキュメントでは、 Google Cloudで使用できるトレーニング方法の主な違いについて説明します。どの方法を選択するかは、チームの専門知識、必要な制御レベル、インフラストラクチャの優先度によって異なります。
AutoML では、最小限の技術的な作業でモデルを作成してトレーニングできます。AutoML を使用すると、開発に投資する前にモデルのプロトタイプを迅速に作成し、新しいデータセットを調査できます。たとえば、特定のデータセットに最適な特徴を確認するために使用できます。
カスタム トレーニングでは、目標とする結果に合わせて最適化されたトレーニング アプリケーションを作成できます。単一ノードジョブから大規模なマルチノード分散トレーニングまで、トレーニング アプリケーションの機能を完全に制御できます。つまり、設定する目標や使用するアルゴリズムに制限はなく、独自の損失関数や指標の作成など、さまざまなカスタマイズが可能です。
Vertex AI サーバーレス トレーニング: トレーニング ジョブを送信すると、 Google Cloud がコンピューティング リソースをプロビジョニング、管理、リリースするサーバーレス アプローチです。これは、テストや、容量の確保が必要ないジョブに最適です。
Vertex AI トレーニング クラスタは、大規模で高性能なトレーニング ジョブ向けに設計されたカスタム トレーニング内の機能です。これにより、強力なコンピューティング リソース(A100 や H100 GPU など)の専用クラスタを予約して、ミッション クリティカルなトレーニング タスクや長時間実行されるトレーニング タスクの容量とパフォーマンスを保証できます。
Ray on Vertex AI では、 Google Cloud インフラストラクチャで Ray の分散コンピューティング フレームワークを使用できます。Ray on Vertex AI は、構成可能なコンピューティング リソース、Vertex AI Inference や BigQuery などのサービスとの統合、分散ワークロードの開発と実行のための柔軟なネットワーキング オプションを備えたマネージド環境を提供します。
BigQuery を使用すると、BigQuery で直接 BigQuery データを使用してモデルをトレーニングできます。SQL コマンドを使用すると、モデルをすばやく作成し、それを使用してバッチ推論を取得できます。
各サービスに必要な機能と専門知識を比較するには、次の表をご覧ください。
| AutoML | サーバーレスのトレーニング | クラスタのトレーニング | Ray on Vertex AI | BigQuery ML | |
|---|---|---|---|---|---|
| データ サイエンスに関する専門知識 | 不要 | 必要。トレーニング アプリケーションの開発とデータ準備を行います。 | 必要。トレーニング アプリケーションの開発とデータ準備を行います。 | ML のコンセプトとデータ ワークフローに関する基本的な知識があると役立ちます。 | 不要 |
| プログラミング能力 | 不要。AutoML は、プログラミングを必要としません。 | 必要。トレーニング アプリケーションを開発します。 | 必要。トレーニング アプリケーションを開発します。 | 必要。 | 必要。 |
| モデルのトレーニング時間 | 比較的短い。データの準備作業は比較的少ない。開発作業は不要。 | 比較的長い。各ジョブのコード開発とオンデマンド リソース プロビジョニングの時間が含まれます。 | 比較的長い。コード開発が必要ですが、リソースがすでに予約されているため、ジョブの起動が速く、キューとプロビジョニング時間が不要になります。 | トレーニング時間は、コードロジック(データ準備とトレーニング)とリソースのプロビジョニング時間によって異なります。 | 比較的短い。BigQuery ML はトレーニング、評価、推論に BigQuery 計算エンジンを利用するため、モデル開発を迅速に行うことができます。 |
| ML の目標に関する制限 | あり。AutoML で定義済みの目標のいずれかをターゲットにする必要があります。 | なし | なし | なし | あり |
| ハイパーパラメータ チューニングを使用してモデルのパフォーマンスを手動で最適化できる | いいえ。AutoML では、一部自動でチューニングを行いますが、値を変更することはできません。 | はい。各トレーニングの実行時に、テストおよび比較目的でモデルをチューニングできます。 | はい。各トレーニングの実行時に、テストおよび比較目的でモデルをチューニングできます。 | はい。カスタム トレーニング コードを指定することで、ハイパーパラメータ値を完全に制御できます。 | はい。BigQuery ML は、モデルのトレーニング時にハイパーパラメータ チューニングをサポートしています。 |
| トレーニング環境をコントロールできる | 制限あり。トレーニング時間の予算を指定し、早期停止を有効にできます。 | はい。各ジョブの Compute Engine マシンタイプ、ディスクサイズ、コンテナ イメージを指定します。 | はい。特定のハイ パフォーマンス マシンタイプ(例:H100)、ディスク構成、ネットワーク設定を独占的に使用し、容量を保証します。 | はい。カスタム Docker イメージ、ヘッドノードとワーカーノードのマシンタイプ、アクセラレータ(GPU)の数とタイプなど、大幅な制御が可能です。 | いいえ |
| データサイズの制限 | あり。データサイズの制限は、データセットのタイプによって異なります。 | なし | なし | なし。ただし、BigQuery の読み取りには、クエリ レスポンスの最大サイズが 10 GB という上限があります。 | なし。BigQuery ML ではプロジェクトごとに割り当てが適用されます。詳細については、割り当てと上限をご覧ください。 |
次のステップ
- 入門チュートリアルを選択して、Vertex AI Training を使ってみる。
- AutoML モデルのトレーニングで詳細を確認する。
- Vertex AI サーバーレス トレーニングについて確認する。
- Vertex AI トレーニング クラスタについて確認する。
- Ray on Vertex AI について確認する。