このドキュメントでは、AutoML、カスタム トレーニング、Vertex AI の Ray を使用して Vertex AI でモデルをトレーニングすることと、BigQuery ML を使用してモデルをトレーニングすることの主な違いについて説明します。
AutoML を使用すると、最小限の技術的な作業でモデルを作成してトレーニングできます。AutoML を使用すると、開発に投資する前にモデルのプロトタイプを迅速に作成し、新しいデータセットを調査できます。たとえば、特定のデータセットに最適な特徴を確認するために使用できます。
カスタム トレーニングを使用すると、目標とする結果に合わせて最適化されたトレーニング アプリケーションを作成できます。トレーニング アプリケーションの機能を完全に制御できます。つまり、設定する目標や使用するアルゴリズムに制限はなく、独自の損失関数や指標の作成など、さまざまなカスタマイズが可能です。
Ray on Vertex AI を使用すると、 Google Cloud インフラストラクチャで Ray の分散コンピューティング フレームワークを使用できます。Ray on Vertex AI は、構成可能なコンピューティング リソース、Vertex AI Inference や BigQuery などのサービスとの統合、分散ワークロードの開発と実行のための柔軟なネットワーキング オプションを備えたマネージド環境を提供します。
BigQuery を使用すると、BigQuery で直接 BigQuery データを使用してモデルをトレーニングできます。SQL コマンドを使用すると、モデルをすばやく作成し、それを使用してバッチ推論を取得できます。
各サービスに必要な機能と専門知識を比較するには、次の表をご覧ください。
AutoML | カスタム トレーニング | Vertex AI での Ray | BigQuery ML | |
---|---|---|---|---|
データ サイエンスに関する専門知識 | 不要。 | 必要。トレーニング アプリケーションの開発に加え、特徴量エンジニアリングなどデータの準備も行います。 | ML のコンセプトとデータ サイエンスのワークフローに関する基本的な知識があると役立ちます。 | いいえ |
プログラミング能力 | 不要。AutoML は、プログラミングを必要としません。 | 必要。トレーニング アプリケーションを開発します。 | はい。 | はい。 |
モデルのトレーニング時間 | 比較的短い。必要とされるデータの準備は比較的少なく、開発の必要はありません。 | 比較的長い。データの準備作業は比較的多い。トレーニング アプリケーションを開発する必要がある。分散トレーニングを使用すると、モデルのトレーニングにかかる時間を短縮できます。 | トレーニング時間は、コードロジック(データ準備とトレーニング)とリソースのプロビジョニング時間によって異なります。 | 比較的短い。BigQuery ML が BigQuery の計算エンジンを利用することから、バッチ推論やモデルのトレーニングに必要なインフラストラクチャを構築する必要がないため、モデルの開発速度が上がります。これにより、トレーニング、評価、推論を迅速化できます。 |
機械学習の目標に関する制限 | はい。AutoML で定義済みの目標のいずれかをターゲットにする必要があります。 | いいえ | いいえ | ○ |
ハイパーパラメータ調整を使用してモデルのパフォーマンスを手動で最適化できる | できない。AutoML では、一部自動でハイパーパラメータ調整を行いますが、使用する値は変更できません。 | できる。各トレーニングの実行時に、実験および比較目的でモデルを調整できます。 | はい。カスタム トレーニング コードを指定するため、Vertex AI で Ray ジョブを起動する前に、ハイパーパラメータの値を手動で設定または調整できます。 | はい。BigQuery ML では、CREATE MODEL ステートメントを使用して ML モデルをトレーニングする際に、ハイパーパラメータ調整がサポートされます。 |
トレーニング環境をコントロールできる | 制限あり。画像と表形式のデータセットの場合、トレーニングするノード時間数と、トレーニングの早期停止を許可するかどうかを指定できる。 | はい。Compute Engine のマシンタイプ、ディスクサイズ、ML フレームワーク、ノード数など、環境の各要素を指定できます。また、トレーニングに使用する Docker イメージも指定できます。 | はい。トレーニング環境のさまざまな側面を大幅に制御できます。たとえば、独自のカスタム Docker コンテナ イメージを Vertex AI の Ray クラスタに持ち込むことができます。Ray クラスタを作成するときに、使用するアクセラレータ(GPU)の数とタイプなど、ヘッドノードとワーカーノードの両方のマシンタイプを指定できます。 | いいえ |
データサイズの制限 |
あり。AutoML ではマネージド データセットを使用します。データサイズの制限は、データセットの種類によって異なります。詳細については、次のトピックのいずれかをご覧ください。 |
非マネージド データセットの場合、制限はありません。マネージド データセットには、BigQuery で作成およびホストされ、AutoML モデルのトレーニングに使用されるマネージド データセット オブジェクトと同じ制限があります。 | いいえ。ただし、BigQuery の読み取りにはクエリ レスポンスの最大サイズが 10 GB に設定されています。これは、BigQuery API のレスポンス サイズの制限であり、Ray on Vertex AI が反復クエリまたは並列クエリで BigQuery から処理できるデータの合計量の制限ではありません。 | はい。BigQuery ML ではプロジェクトごとに割り当てが適用されます。詳細については、割り当てと上限をご覧ください。 |
次のステップ
- 入門チュートリアルを選択して、Vertex AI Training を使ってみる。
- AutoML モデルのトレーニングで詳細を確認する。
- Python を使用したカスタム トレーニング ジョブの作成について確認する。
- Ray on Vertex AI の詳細を確認する。