Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

資料準備總覽

您可以透過多種方式開發訓練資料。

Cloud Storage
網路檔案系統
代管資料集
BigQuery

選擇取決於多項因素。

將 Cloud Storage 掛接為檔案系統 (Cloud Storage FUSE)

請考慮使用 Cloud Storage 做為掛接的檔案系統 (Cloud Storage FUSE)，原因如下：

如果訓練資料為非結構化資料，例如圖片、文字或影片： Cloud Storage 非常適合儲存這類大型檔案，通常是個別檔案。
如果訓練資料採用 TFRecord 等格式，通常會使用 Cloud Storage 儲存這些機器學習專用格式。
處理大型檔案時：Cloud Storage FUSE 會將資料串流至訓練工作，而不是要求將整個檔案下載至副本。這樣一來，大型資料集的資料載入速度和工作啟動時間都會更快。
執行分散式訓練時：Cloud Storage FUSE 可為大型檔案循序讀取作業提供高處理量，這在分散式訓練情境中相當實用，因為多個工作站需要平行存取資料。
您偏好存取 Cloud Storage 資料的便利性，就像存取本機檔案系統一樣，不需要在訓練程式碼中明確呼叫 API。
主要需求是可擴充的儲存空間，且您不太在意隨機存取大量小型檔案時的最低延遲時間。

Ray on Agent Platform 專屬功能

您可以將資料儲存在 Cloud Storage bucket 中，供 Ray on Agent Platform 存取。
Ray 可以直接從 Cloud Storage 讀取資料。舉例來說，執行 Spark on Ray 時，您可以從 Cloud Storage 讀取檔案。
Agent Platform 會使用 Cloud Storage FUSE，在 Ray 上執行的訓練工作中，將 Cloud Storage 值區掛接為本機檔案系統。這樣一來，Ray 應用程式就能使用標準檔案 I/O 作業存取資料，就像存取本機磁碟上的資料一樣。
為獲得最佳效能，建議您在執行 Ray 叢集的相同區域中使用 Cloud Storage bucket。

瞭解詳情

使用 Cloud Storage FUSE

網路檔案系統 (NFS) 共用區

需要以極高處理量和低延遲存取遠端檔案，就像檔案儲存在本機一樣。這對於訓練期間的特定類型資料或複雜檔案互動可能很重要。
需要讓運算叢集 (例如 Agent Platform 上的 Ray 叢集) 中的所有節點都能存取遠端檔案時。
當應用程式需要更標準的檔案系統介面，且 POSIX 相容性可能比 Cloud Storage FUSE 更強時。
您在虛擬私有雲中已有 NFS 基礎架構，並想加以使用。
您需要在多個作業或叢集之間共用檔案或目錄，並以一致的低延遲存取權管理檔案系統層級的權限。

Ray on Agent Platform 專屬功能

您可以在 Agent Platform 上將 NFS 共用區掛接到 Ray 叢集，讓遠端檔案可供存取，如同本機檔案一般。
這有助於以高處理量和低延遲存取共用檔案系統。
使用 Python 適用的 Agent Platform SDK 建立 Ray 叢集時，您可以設定 NFS 掛接，並指定伺服器、路徑和掛接點。掛接完成後，您的 Ray 程式碼就能使用標準檔案作業，讀取及寫入這些 NFS 磁碟區。

瞭解詳情

使用 NFS 共用區

代管資料集

集中管理及控管資料：透過受管理資料集，您可以在 Agent Platform 中集中整理及管理資料集，有助於追蹤及控管不同專案和實驗的資料資產。
資料標註：您可以在代管資料集中直接建立標註工作，並管理註解集。
追蹤資料歷程：代管資料集會自動追蹤資料歷程，瞭解資料與訓練模型的關係。這對於瞭解特定模型使用的資料來源，以及確保可重現性和治理至關重要。
比較自訂模型和 AutoML 模型：您可以使用受管理資料集，以相同資料訓練自訂模型和 AutoML 模型。這樣就能直接比較模型在相同資料集上的效能，協助您為問題選擇最佳方法。
產生資料統計資料和視覺化內容：Agent Platform 可自動產生受管理資料集內資料的統計資料和視覺化內容。這有助於探索性資料分析，並協助您瞭解資料的特性。
自動分割資料：在訓練管道中使用受管理資料集時，Agent Platform 可根據指定的分數、篩選器、預先定義的分割或時間戳記，自動將資料分割為訓練集、驗證集和測試集，簡化資料準備程序。
使用資料集版本：代管資料集支援版本管理，可讓您追蹤資料的變更記錄，並在必要時還原至先前的版本。

Ray on Vertex AI 專屬功能

如果您在 Agent Platform 訓練管道中使用受管理資料集，並利用 Ray 進行分散式訓練，受管理資料集的資料會提供給訓練容器，Ray 應用程式隨後即可存取這些資料 (如果資料集已連結至 Cloud Storage 或 BigQuery，則可透過已掛接的 Cloud Storage 或 BigQuery 存取)。環境變數 AIP_TRAINING_DATA_URI、AIP_VALIDATION_DATA_URI 和 AIP_TEST_DATA_URI 會指向資料。

瞭解詳情

使用代管資料集

BigQuery

連結至 Agent Platform 元件中的資料：許多 Agent Platform 工具和服務直接整合了 BigQuery。您可以在 JupyterLab 中查詢 BigQuery 資料，直接與 BigQuery 資料互動，進行探索、視覺化和模型開發，不必將資料移至其他儲存系統。
建構訓練管道：在 Agent Platform 中建構訓練管道時，您可以直接使用 BigQuery 中的資料。舉例來說，管道可以從 BigQuery 擷取資料、預先處理資料，然後訓練模型。
持續模型訓練管道：如要設定持續模型訓練，您可以根據 BigQuery 資料表中的新資料，觸發管道執行作業。這項功能可自動重新訓練模型。您可以設定 Eventarc 觸發條件，在新的工作插入特定 BigQuery 資料表時啟動管道。
模型監控：BigQuery 可做為監控來源，用於監控已部署模型的特徵偏斜和漂移。如要偵測偏斜，您可以指定訓練資料集的 BigQuery URI。此外，BigQuery 可以儲存線上推論端點的記錄，這些記錄隨後可用於持續監控的資料來源。為此，BigQuery 表格最好要有時間戳記欄。
BigQuery ML 整合：使用 BigQuery ML 透過 SQL 建構機器學習模型時，可以運用 BigQuery 資料集。Vertex AI Workbench 可在筆記本環境中，對 BigQuery 資料進行互動式探索分析，並使用 BigQuery ML。
資料探索與準備：訓練前，您可以使用 BigQuery 探索及視覺化資料。您也可以先在 BigQuery 中使用 SQL 查詢轉換資料，再將資料用於訓練。
存取公開資料集：BigQuery 託管許多公開資料集，例如「芝加哥計程車車程」資料集，您可以在 Vertex AI Workbench 中輕鬆使用這些資料集進行實驗和訓練。

Ray on Vertex AI 專屬功能

Vertex AI 上的 Ray 可直接從 BigQuery 讀取資料。您可以在 Ray 工作中使用 Agent Platform SDK for Python 執行 BigQuery 查詢，並將結果具體化，以供 Ray 應用程式使用。
從 BigQuery 讀取資料時，請注意查詢回應大小上限為 10 GB。
您也可以使用 Agent Platform SDK for Python，將 Ray 應用程式的資料寫回 BigQuery。

資料準備總覽 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

將 Cloud Storage 掛接為檔案系統 (Cloud Storage FUSE)

Ray on Agent Platform 專屬功能

瞭解詳情

網路檔案系統 (NFS) 共用區

Ray on Agent Platform 專屬功能

瞭解詳情

代管資料集

Ray on Vertex AI 專屬功能

瞭解詳情

BigQuery

Ray on Vertex AI 專屬功能

瞭解詳情

資料準備總覽