トレーニング方法を選択する

このドキュメントでは、AutoML、カスタム トレーニング、Vertex AI の Ray を使用して Vertex AI でモデルをトレーニングすることと、BigQuery ML を使用してモデルをトレーニングすることの主な違いについて説明します。

  • AutoML を使用すると、最小限の技術的な作業でモデルを作成してトレーニングできます。AutoML を使用すると、開発に投資する前にモデルのプロトタイプを迅速に作成し、新しいデータセットを調査できます。たとえば、特定のデータセットに最適な特徴を確認するために使用できます。

  • カスタム トレーニングを使用すると、目標とする結果に合わせて最適化されたトレーニング アプリケーションを作成できます。トレーニング アプリケーションの機能を完全に制御できます。つまり、設定する目標や使用するアルゴリズムに制限はなく、独自の損失関数や指標の作成など、さまざまなカスタマイズが可能です。

  • Ray on Vertex AI を使用すると、 Google Cloud インフラストラクチャで Ray の分散コンピューティング フレームワークを使用できます。Ray on Vertex AI は、構成可能なコンピューティング リソース、Vertex AI Inference や BigQuery などのサービスとの統合、分散ワークロードの開発と実行のための柔軟なネットワーキング オプションを備えたマネージド環境を提供します。

  • BigQuery を使用すると、BigQuery で直接 BigQuery データを使用してモデルをトレーニングできます。SQL コマンドを使用すると、モデルをすばやく作成し、それを使用してバッチ推論を取得できます。

各サービスに必要な機能と専門知識を比較するには、次の表をご覧ください。

AutoML カスタム トレーニング Vertex AI での Ray BigQuery ML
データ サイエンスに関する専門知識 不要。 必要。トレーニング アプリケーションの開発に加え、特徴量エンジニアリングなどデータの準備も行います。 ML のコンセプトとデータ サイエンスのワークフローに関する基本的な知識があると役立ちます。 いいえ
プログラミング能力 不要。AutoML は、プログラミングを必要としません。 必要。トレーニング アプリケーションを開発します。 はい。 はい。
モデルのトレーニング時間 比較的短い。必要とされるデータの準備は比較的少なく、開発の必要はありません。 比較的長い。データの準備作業は比較的多い。トレーニング アプリケーションを開発する必要がある。分散トレーニングを使用すると、モデルのトレーニングにかかる時間を短縮できます。 トレーニング時間は、コードロジック(データ準備とトレーニング)とリソースのプロビジョニング時間によって異なります。 比較的短い。BigQuery ML が BigQuery の計算エンジンを利用することから、バッチ推論やモデルのトレーニングに必要なインフラストラクチャを構築する必要がないため、モデルの開発速度が上がります。これにより、トレーニング、評価、推論を迅速化できます。
機械学習の目標に関する制限 はい。AutoML で定義済みの目標のいずれかをターゲットにする必要があります。 いいえ いいえ
ハイパーパラメータ調整を使用してモデルのパフォーマンスを手動で最適化できる できない。AutoML では、一部自動でハイパーパラメータ調整を行いますが、使用する値は変更できません。 できる。各トレーニングの実行時に、実験および比較目的でモデルを調整できます。 はい。カスタム トレーニング コードを指定するため、Vertex AI で Ray ジョブを起動する前に、ハイパーパラメータの値を手動で設定または調整できます。 はい。BigQuery ML では、CREATE MODEL ステートメントを使用して ML モデルをトレーニングする際に、ハイパーパラメータ調整がサポートされます。
トレーニング環境をコントロールできる 制限あり。画像と表形式のデータセットの場合、トレーニングするノード時間数と、トレーニングの早期停止を許可するかどうかを指定できる。 はい。Compute Engine のマシンタイプ、ディスクサイズ、ML フレームワーク、ノード数など、環境の各要素を指定できます。また、トレーニングに使用する Docker イメージも指定できます。 はい。トレーニング環境のさまざまな側面を大幅に制御できます。たとえば、独自のカスタム Docker コンテナ イメージを Vertex AI の Ray クラスタに持ち込むことができます。Ray クラスタを作成するときに、使用するアクセラレータ(GPU)の数とタイプなど、ヘッドノードとワーカーノードの両方のマシンタイプを指定できます。 いいえ
データサイズの制限

あり。AutoML ではマネージド データセットを使用します。データサイズの制限は、データセットの種類によって異なります。詳細については、次のトピックのいずれかをご覧ください。

非マネージド データセットの場合、制限はありません。マネージド データセットには、BigQuery で作成およびホストされ、AutoML モデルのトレーニングに使用されるマネージド データセット オブジェクトと同じ制限があります。 いいえ。ただし、BigQuery の読み取りにはクエリ レスポンスの最大サイズが 10 GB に設定されています。これは、BigQuery API のレスポンス サイズの制限であり、Ray on Vertex AI が反復クエリまたは並列クエリで BigQuery から処理できるデータの合計量の制限ではありません。 はい。BigQuery ML ではプロジェクトごとに割り当てが適用されます。詳細については、割り当てと上限をご覧ください。

次のステップ