本文說明 Google Cloud提供的訓練方法之間的主要差異。您可以根據團隊的專業知識、所需的控管程度和基礎架構偏好設定,選擇合適做法。
使用 AutoML,您只需要在技術方面投入少量資源即可建立及訓練模型。您可以使用 AutoML 快速製作模型原型,並在投入開發作業前探索新資料集。舉例來說,您可以藉此瞭解哪些特徵最適合特定資料集。
透過自訂訓練,您可以建立經過最佳化的訓練應用程式,以達成目標成果。您可以完全掌控訓練應用程式功能,從單一節點工作到大規模多節點分散式訓練,都能輕鬆完成。也就是說,您可以指定任何目標、使用任何演算法、開發自己的損失函數或指標,或是進行任何其他自訂作業。
Vertex AI 無伺服器訓練:這是無伺服器方法,您只要提交訓練工作, Google Cloud 就會為您佈建、管理及釋出運算資源。非常適合實驗和不需要保證容量的工作。
Vertex AI 訓練叢集是自訂訓練功能,專為大規模高效能訓練工作而設計。您可以預留專屬的強大運算資源叢集 (例如 A100 或 H100 GPU),確保容量和效能,專門用於執行重要且耗時的訓練工作。
透過 Vertex AI 上的 Ray,您可以在 Google Cloud 基礎架構上使用 Ray 的分散式運算架構。Vertex AI 上的 Ray 提供代管環境,可設定運算資源、與 Vertex AI Inference 和 BigQuery 等服務整合,以及彈性的網路選項,用於開發及執行分散式工作負載。
您可以使用 BigQuery,直接在 BigQuery 中使用 BigQuery 資料訓練模型。您可以使用 SQL 指令快速建立模型,並用來取得批次推論結果。
如要比較各項服務所需的功能和專業知識,請參閱下表。
| AutoML | 無伺服器訓練 | 訓練叢集 | Vertex AI 上的 Ray | BigQuery ML | |
|---|---|---|---|---|---|
| 需要資料科學專業知識 | 否 | 是,開發訓練應用程式並處理資料準備作業。 | 是,開發訓練應用程式並處理資料準備作業。 | 瞭解機器學習概念和資料工作流程的基本知識,會很有幫助。 | 否 |
| 需要程式設計能力 | 否,AutoML 無須編寫程式碼。 | 是,用於開發訓練應用程式。 | 是,用於開發訓練應用程式。 | 是。 | 是。 |
| 訓練模型 | 降低。不需要準備大量資料,也不必自行開發。 | 較高。包括每個工作的程式碼開發和隨選資源佈建時間。 | 較高。需要開發程式碼,但由於資源已預留,因此工作啟動速度較快,可省去佇列和佈建時間。 | 訓練時間取決於程式碼邏輯 (資料準備和訓練) 和資源佈建時間。 | 降低。BigQuery ML 會運用 BigQuery 計算引擎進行訓練、評估及推論,因此模型開發速度很快。 |
| 機器學習目標的限制 | 可以。您必須指定 AutoML 預先定義的目標。 | 否 | 否 | 否 | 是 |
| 可透過超參數調整手動提升模型效能 | 否。AutoML 會執行部分自動調整作業,但您無法修改值。 | 可以。您可以在每次訓練執行期間調整模型,進行實驗和比較。 | 可以。您可以在每次訓練執行期間調整模型,進行實驗和比較。 | 可以。您提供自訂訓練程式碼,完全掌控超參數值。 | 可以。訓練模型時,BigQuery ML 支援超參數調整。 |
| 可控制訓練環境的各個層面 | 有限。您可以指定訓練時數預算,並啟用提早停止功能。 | 可以。您可以為每個工作指定 Compute Engine 機器類型、磁碟大小和容器映像檔。 | 可以。您可以完全掌控,預留特定高效能機器類型 (例如 H100),以及專用的磁碟和網路設定,保證容量。 | 可以。您可以大幅控管叢集,包括自訂 Docker 映像檔、頭部和工作站節點的機器類型,以及加速器 (GPU) 的數量和類型。 | 否 |
| 資料大小限制 | 可以。資料大小限制會因資料集類型而異。 | 否 | 否 | 否。不過,BigQuery 讀取作業的回應大小上限為 10 GB。 | 可以。BigQuery ML 會根據每個專案的狀況限定適當的配額。詳情請參閱「配額與限制」。 |
後續步驟
- 選擇入門教學課程,開始使用 Vertex AI Training。
- 進一步瞭解如何訓練 AutoML 模型。
- 瞭解 Vertex AI 無伺服器訓練。
- 瞭解 Vertex AI 訓練叢集。
- 進一步瞭解 Vertex AI 上的 Ray。