選擇訓練方法

本文說明 Google Cloud提供的訓練方法之間的主要差異。您可以根據團隊的專業知識、所需的控管程度和基礎架構偏好設定,選擇合適做法。

  • 使用 AutoML,您只需要在技術方面投入少量資源即可建立及訓練模型。您可以使用 AutoML 快速製作模型原型,並在投入開發作業前探索新資料集。舉例來說,您可以藉此瞭解哪些特徵最適合特定資料集。

  • 透過自訂訓練,您可以建立經過最佳化的訓練應用程式,以達成目標成果。您可以完全掌控訓練應用程式功能,從單一節點工作到大規模多節點分散式訓練,都能輕鬆完成。也就是說,您可以指定任何目標、使用任何演算法、開發自己的損失函數或指標,或是進行任何其他自訂作業。

    • Vertex AI 無伺服器訓練:這是無伺服器方法,您只要提交訓練工作, Google Cloud 就會為您佈建、管理及釋出運算資源。非常適合實驗和不需要保證容量的工作。

    • Vertex AI 訓練叢集是自訂訓練功能,專為大規模高效能訓練工作而設計。您可以預留專屬的強大運算資源叢集 (例如 A100 或 H100 GPU),確保容量和效能,專門用於執行重要且耗時的訓練工作。

  • 透過 Vertex AI 上的 Ray,您可以在 Google Cloud 基礎架構上使用 Ray 的分散式運算架構。Vertex AI 上的 Ray 提供代管環境,可設定運算資源、與 Vertex AI Inference 和 BigQuery 等服務整合,以及彈性的網路選項,用於開發及執行分散式工作負載。

  • 您可以使用 BigQuery,直接在 BigQuery 中使用 BigQuery 資料訓練模型。您可以使用 SQL 指令快速建立模型,並用來取得批次推論結果。

如要比較各項服務所需的功能和專業知識,請參閱下表。

AutoML 無伺服器訓練 訓練叢集 Vertex AI 上的 Ray BigQuery ML
需要資料科學專業知識 是,開發訓練應用程式並處理資料準備作業。 是,開發訓練應用程式並處理資料準備作業。 瞭解機器學習概念和資料工作流程的基本知識,會很有幫助。
需要程式設計能力 否,AutoML 無須編寫程式碼。 是,用於開發訓練應用程式。 是,用於開發訓練應用程式。 是。 是。
訓練模型 降低。不需要準備大量資料,也不必自行開發。 較高。包括每個工作的程式碼開發和隨選資源佈建時間。 較高。需要開發程式碼,但由於資源已預留,因此工作啟動速度較快,可省去佇列和佈建時間。 訓練時間取決於程式碼邏輯 (資料準備和訓練) 和資源佈建時間。 降低。BigQuery ML 會運用 BigQuery 計算引擎進行訓練、評估及推論,因此模型開發速度很快。
機器學習目標的限制 可以。您必須指定 AutoML 預先定義的目標。
可透過超參數調整手動提升模型效能 否。AutoML 會執行部分自動調整作業,但您無法修改值。 可以。您可以在每次訓練執行期間調整模型,進行實驗和比較。 可以。您可以在每次訓練執行期間調整模型,進行實驗和比較。 可以。您提供自訂訓練程式碼,完全掌控超參數值。 可以。訓練模型時,BigQuery ML 支援超參數調整。
可控制訓練環境的各個層面 有限。您可以指定訓練時數預算,並啟用提早停止功能。 可以。您可以為每個工作指定 Compute Engine 機器類型、磁碟大小和容器映像檔。 可以。您可以完全掌控,預留特定高效能機器類型 (例如 H100),以及專用的磁碟和網路設定,保證容量。 可以。您可以大幅控管叢集,包括自訂 Docker 映像檔、頭部和工作站節點的機器類型,以及加速器 (GPU) 的數量和類型。
資料大小限制 可以。資料大小限制會因資料集類型而異。 否。不過,BigQuery 讀取作業的回應大小上限為 10 GB。 可以。BigQuery ML 會根據每個專案的狀況限定適當的配額。詳情請參閱「配額與限制」。

後續步驟