トレーニング方法を選択する

このドキュメントでは、AutoML を使用した Vertex AI でのモデルのトレーニング、カスタム トレーニング、Vertex AI での Ray、BigQuery ML を使用したモデルのトレーニングの主な違いについて説明します。

  • AutoML では、最小限の技術的な作業でモデルを作成してトレーニングできます。AutoML を使用すると、開発に投資する前にモデルのプロトタイプを迅速に作成し、新しいデータセットを調査できます。たとえば、特定のデータセットに最適な特徴を確認するために使用できます。

  • カスタム トレーニングでは、目標とする結果に合わせて最適化されたトレーニング アプリケーションを作成できます。トレーニング アプリケーションの機能を完全に制御できます。つまり、設定する目標や使用するアルゴリズムに制限はなく、独自の損失関数や指標の作成など、さまざまなカスタマイズが可能です。

  • Vertex AI での Ray では、 Google Cloud インフラストラクチャで Ray の分散コンピューティング フレームワークを使用できます。Vertex AI での Ray は、構成可能なコンピューティング リソース、Vertex AI Inference や BigQuery などのサービスとの統合、分散ワークロードの開発と実行のための柔軟なネットワーキング オプションを備えたマネージド環境を提供します。

  • BigQuery を使用すると、BigQuery で直接 BigQuery データを使用してモデルをトレーニングできます。SQL コマンドを使用すると、モデルをすばやく作成し、それを使用してバッチ推論を取得できます。

各サービスに必要な機能と専門知識を比較するには、次の表をご覧ください。

AutoML カスタム トレーニング Vertex AI での Ray BigQuery ML
データ サイエンスに関する専門知識 不要。 必要。トレーニング アプリケーションの開発に加え、特徴量エンジニアリングなどデータの準備も行います。 ML のコンセプトとデータ サイエンスのワークフローに関する基本的な知識があると役立ちます。 不要。
プログラミング能力 不要。AutoML は、プログラミングを必要としません。 必要。トレーニング アプリケーションを開発します。 必要。 必要。
モデルのトレーニング時間 少ない。必要とされるデータの準備は比較的少なく、開発の必要はありません。 多い。比較的多くのデータ準備が必要であり、トレーニング アプリケーションを開発する必要があります。分散トレーニングを使用すると、モデルのトレーニングにかかる時間を短縮できます。 トレーニング時間は、コードロジック(データ準備とトレーニング)とリソースのプロビジョニング時間によって異なります。 少ない。BigQuery ML が BigQuery の計算エンジンを利用することから、バッチ推論やモデルのトレーニングに必要なインフラストラクチャを構築する必要がないため、モデルの開発速度が上がります。これにより、トレーニング、評価、推論を迅速化できます。
ML の目標に関する制限 あり。AutoML で定義済みの目標のいずれかをターゲットにする必要があります。 なし。 いいえ あり。
ハイパーパラメータ調整を使用してモデルのパフォーマンスを手動で最適化できるか できない。AutoML では、一部自動でハイパーパラメータ調整を行いますが、使用する値は変更できません。 できる。各トレーニングの実行時に、実験および比較目的でモデルを調整できます。 できる。カスタム トレーニング コードを指定するため、Vertex AI で Ray ジョブを起動する前に、ハイパーパラメータの値を手動で設定または調整できます。 できる。BigQuery ML では、「CREATE MODEL」ステートメントを使用して ML モデルをトレーニングする際に、ハイパーパラメータ調整がサポートされます。
トレーニング環境をコントロールできるか 制限がある。画像と表形式のデータセットに対しては、トレーニングするノード時間の数と、トレーニングの早期停止を許可するかどうかを指定できます。 できる。Compute Engine のマシンタイプ、ディスクサイズ、ML フレームワーク、ノード数など、環境の各要素を指定できます。また、トレーニングに使用する Docker イメージも指定できます。 できる。トレーニング環境のさまざまな側面を大幅に制御できます。たとえば、独自のカスタム Docker コンテナ イメージを Vertex AI の Ray クラスタに持ち込むことができます。Ray クラスタを作成するときに、使用するアクセラレータ(GPU)の数とタイプなど、ヘッドノードとワーカーノードの両方のマシンタイプを指定できます。 できない。
データサイズの制限

あり。AutoML ではマネージド データセットを使用します。データサイズの制限は、データセットの種類によって異なります。詳細については、次のトピックのいずれかをご覧ください。

非マネージド データセットの場合、制限はありません。マネージド データセットには、BigQuery で作成およびホストされ、AutoML モデルのトレーニングに使用されるマネージド データセット オブジェクトと同じ制限があります。 なし。ただし、BigQuery の読み取りには、クエリ レスポンスの最大サイズが 10 GB という上限があります。これは、BigQuery API のレスポンス サイズの上限であり、Ray on Vertex AI が反復クエリまたは並列クエリで BigQuery から処理できるデータの合計量の上限ではありません。 あり。BigQuery ML ではプロジェクトごとに割り当てが適用されます。詳細については、割り当てと上限をご覧ください。

次のステップ