選擇取決於多項因素。
將 Cloud Storage 掛接為檔案系統 (Cloud Storage FUSE)
請考慮使用 Cloud Storage 做為掛接的檔案系統 (Cloud Storage FUSE),原因如下:
- 如果訓練資料為非結構化資料,例如圖片、文字或影片: Cloud Storage 非常適合儲存這類大型檔案,通常是個別檔案。
- 如果訓練資料採用 TFRecord 等格式,通常會使用 Cloud Storage 儲存這些機器學習專用格式。
- 處理大型檔案時:Cloud Storage FUSE 會將資料串流至訓練工作,而不是要求將整個檔案下載至副本。這樣一來,大型資料集的資料載入速度和工作啟動時間都會更快。
- 執行分散式訓練時:Cloud Storage FUSE 可為大型檔案循序讀取作業提供高處理量,這在分散式訓練情境中相當實用,因為多個工作站需要平行存取資料。
- 您偏好存取 Cloud Storage 資料的便利性,就像存取本機檔案系統一樣,不需要在訓練程式碼中明確呼叫 API。
- 主要需求是可擴充的儲存空間,且您不太在意隨機存取大量小型檔案時的最低延遲時間。
Ray on Agent Platform 專屬功能
- 您可以將資料儲存在 Cloud Storage bucket 中,供 Ray on Agent Platform 存取。
- Ray 可以直接從 Cloud Storage 讀取資料。舉例來說,執行 Spark on Ray 時,您可以從 Cloud Storage 讀取檔案。
- Agent Platform 會使用 Cloud Storage FUSE,在 Ray 上執行的訓練工作中,將 Cloud Storage 值區掛接為本機檔案系統。這樣一來,Ray 應用程式就能使用標準檔案 I/O 作業存取資料,就像存取本機磁碟上的資料一樣。
- 為獲得最佳效能,建議您在執行 Ray 叢集的相同區域中使用 Cloud Storage bucket。
瞭解詳情
網路檔案系統 (NFS) 共用區
- 需要以極高處理量和低延遲存取遠端檔案,就像檔案儲存在本機一樣。這對於訓練期間的特定類型資料或複雜檔案互動可能很重要。
- 需要讓運算叢集 (例如 Agent Platform 上的 Ray 叢集) 中的所有節點都能存取遠端檔案時。
- 當應用程式需要更標準的檔案系統介面,且 POSIX 相容性可能比 Cloud Storage FUSE 更強時。
- 您在虛擬私有雲中已有 NFS 基礎架構,並想加以使用。
- 您需要在多個作業或叢集之間共用檔案或目錄,並以一致的低延遲存取權管理檔案系統層級的權限。
Ray on Agent Platform 專屬功能
- 您可以在 Agent Platform 上將 NFS 共用區掛接到 Ray 叢集,讓遠端檔案可供存取,如同本機檔案一般。
- 這有助於以高處理量和低延遲存取共用檔案系統。
- 使用 Python 適用的 Agent Platform SDK 建立 Ray 叢集時,您可以設定 NFS 掛接,並指定伺服器、路徑和掛接點。掛接完成後,您的 Ray 程式碼就能使用標準檔案作業,讀取及寫入這些 NFS 磁碟區。
瞭解詳情
代管資料集
- 集中管理及控管資料:透過受管理資料集,您可以在 Agent Platform 中集中整理及管理資料集,有助於追蹤及控管不同專案和實驗的資料資產。
- 資料標註:您可以在代管資料集中直接建立標註工作,並管理註解集。
- 追蹤資料歷程:代管資料集會自動追蹤資料歷程,瞭解資料與訓練模型的關係。這對於瞭解特定模型使用的資料來源,以及確保可重現性和治理至關重要。
- 比較自訂模型和 AutoML 模型:您可以使用受管理資料集,以相同資料訓練自訂模型和 AutoML 模型。這樣就能直接比較模型在相同資料集上的效能,協助您為問題選擇最佳方法。
- 產生資料統計資料和視覺化內容:Agent Platform 可自動產生受管理資料集內資料的統計資料和視覺化內容。這有助於探索性資料分析,並協助您瞭解資料的特性。
- 自動分割資料:在訓練管道中使用受管理資料集時,Agent Platform 可根據指定的分數、篩選器、預先定義的分割或時間戳記,自動將資料分割為訓練集、驗證集和測試集,簡化資料準備程序。
- 使用資料集版本:代管資料集支援版本管理,可讓您追蹤資料的變更記錄,並在必要時還原至先前的版本。
Ray on Vertex AI 專屬功能
- 如果您在 Agent Platform 訓練管道中使用受管理資料集,並利用 Ray 進行分散式訓練,受管理資料集的資料會提供給訓練容器,Ray 應用程式隨後即可存取這些資料 (如果資料集已連結至 Cloud Storage 或 BigQuery,則可透過已掛接的 Cloud Storage 或 BigQuery 存取)。環境變數
AIP_TRAINING_DATA_URI、AIP_VALIDATION_DATA_URI和AIP_TEST_DATA_URI會指向資料。
瞭解詳情
BigQuery
- 連結至 Agent Platform 元件中的資料:許多 Agent Platform 工具和服務直接整合了 BigQuery。您可以在 JupyterLab 中查詢 BigQuery 資料,直接與 BigQuery 資料互動,進行探索、視覺化和模型開發,不必將資料移至其他儲存系統。
- 建構訓練管道:在 Agent Platform 中建構訓練管道時,您可以直接使用 BigQuery 中的資料。舉例來說,管道可以從 BigQuery 擷取資料、預先處理資料,然後訓練模型。
- 持續模型訓練管道:如要設定持續模型訓練,您可以根據 BigQuery 資料表中的新資料,觸發管道執行作業。這項功能可自動重新訓練模型。 您可以設定 Eventarc 觸發條件,在新的工作插入特定 BigQuery 資料表時啟動管道。
- 模型監控:BigQuery 可做為監控來源,用於監控已部署模型的特徵偏斜和漂移。如要偵測偏斜,您可以指定訓練資料集的 BigQuery URI。此外,BigQuery 可以儲存線上推論端點的記錄,這些記錄隨後可用於持續監控的資料來源。為此,BigQuery 表格最好要有時間戳記欄。
- BigQuery ML 整合:使用 BigQuery ML 透過 SQL 建構機器學習模型時,可以運用 BigQuery 資料集。Vertex AI Workbench 可在筆記本環境中,對 BigQuery 資料進行互動式探索分析,並使用 BigQuery ML。
- 資料探索與準備:訓練前,您可以使用 BigQuery 探索及視覺化資料。您也可以先在 BigQuery 中使用 SQL 查詢轉換資料,再將資料用於訓練。
- 存取公開資料集:BigQuery 託管許多公開資料集,例如「芝加哥計程車車程」資料集,您可以在 Vertex AI Workbench 中輕鬆使用這些資料集進行實驗和訓練。
Ray on Vertex AI 專屬功能
- Vertex AI 上的 Ray 可直接從 BigQuery 讀取資料。您可以在 Ray 工作中使用 Agent Platform SDK for Python 執行 BigQuery 查詢,並將結果具體化,以供 Ray 應用程式使用。
- 從 BigQuery 讀取資料時,請注意查詢回應大小上限為 10 GB。
- 您也可以使用 Agent Platform SDK for Python,將 Ray 應用程式的資料寫回 BigQuery。