本頁面涵蓋下列主題:
根據預設,Vertex AI 會使用時間順序分割演算法,將預測資料分成三種資料分割。您也可以使用手動分割,但這需要您準備資料分割資料欄。進一步瞭解資料分割。
資料結構規定
如為預測模型,訓練資料必須符合下列基本規定:
| 規定類型 | 條件 |
|---|---|
| 大小 | 資料集大小不得超過 100 GB。 |
| 欄數 | 資料集必須至少有 3 欄,最多 100 欄。資料集中的每項觀察結果都必須有目標和時間,兩者皆為特徵。此外,每項觀測資料都必須有時間序列 ID,用來識別觀測資料所屬的時間序列。在理想情況下,您的訓練資料應具備 3 個以上的資料欄。欄數上限包含特徵和非特徵欄。 |
| 目標欄 | 指定目標資料欄。目標資料欄可讓 Vertex AI 將訓練資料與所需結果建立關聯。不得包含空值,且必須是數值。 |
| 時間欄 | 您必須指定時間欄,且每列都必須有值。「時間」欄會指出進行特定觀察的時間。 |
| 時間序列 ID 欄 | 您必須指定時間序列 ID 欄,且每個資料列都必須有值。預測訓練資料通常包含多個時間序列,而 ID 會告知 Vertex AI 訓練資料中的特定觀察結果屬於哪個時間序列。特定時間序列中的所有資料列,在時間序列 ID 欄中都有相同的值。常見的時間序列 ID 可能包括產品 ID、商店 ID 或區域。您可以針對單一時間序列訓練預測模型,時間序列 ID 欄中所有資料列的值都相同。不過,如果訓練資料包含兩個以上的時間序列,則更適合使用 Vertex AI。為獲得最佳結果,請為用於訓練模型的每個資料欄至少提供 10 個時間序列。 |
| 資料欄名稱格式 | 資料欄名稱可以使用英數字元或底線 (_),但不得以底線為開頭。 |
| 列數 | 資料集必須至少有 1,000 列,最多 100,000,000 列。如果資料列超過 1 億筆,請考慮進行向下取樣。詳情請參閱「滾動週期策略」。這個最低需求可能不足以訓練高效能模型,具體需視資料集提供的特徵數量而定。瞭解詳情。 |
| 資料格式 | 使用窄版 (有時稱為長版) 資料格式。在窄格式中,每個資料列代表特定時間點的時間序列 ID 所指定的項目,以及該時間點的項目所有資料。瞭解如何選擇資料格式。 |
| 資料列間隔 | 訓練資料列之間的時間間隔必須一致,這就是資料的精細度,會影響模型的訓練方式和推論結果的頻率。瞭解如何選擇資料精細度。 |
| 時間序列長度 | 時間序列的長度不得超過 3,000 個時間步長。 |
準備匯入來源
您可以透過以下兩種格式將模型訓練資料提供給 Vertex AI:
- BigQuery 資料表
- 逗號分隔值 (CSV)
您使用的來源應取決於資料的儲存方式、大小和複雜程度。在資料集規模不大,且您不需使用較複雜資料類型的情況下,選擇 CSV 是比較簡單的做法。若是包含陣列和結構的大型資料集,請使用 BigQuery。
BigQuery
您的 BigQuery 資料表或檢視表必須符合 BigQuery 位置規定。
如果 BigQuery 資料表或檢視區塊所在的專案,與您建立 Vertex AI 資料集的專案不同,或是 BigQuery 資料表或檢視區塊是由外部資料來源支援,請為 Vertex AI 服務代理程式新增一或多個角色。請參閱「新增 BigQuery 角色時的必要條件」。
您不必為 BigQuery 資料表指定結構定義,Vertex AI 會在您匯入資料時,自動推測該資料表的結構定義。
BigQuery URI (指定訓練資料位置) 必須符合下列格式:
bq://<project_id>.<dataset_id>.<table_id>
URI 不得包含任何其他特殊字元。
如要瞭解 BigQuery 資料類型,以及這些類型對應至 Vertex AI 的方式,請參閱「BigQuery 資料表」。如要進一步瞭解如何使用 BigQuery 外部資料來源,請參閱「外部資料來源簡介」。
CSV
CSV 檔案可位於 Cloud Storage 或本機電腦,但必須符合下列規定:
- 第一個檔案的第一列須為標頭,內含資料欄名稱。如果後續檔案的第一列與標頭相同,同樣會視為標頭。如果不同,則會視為資料。
- 資料欄名稱可以使用英數字元或底線 (_),但不得以底線為開頭。
每個檔案皆不得超過 10 GB。
您可以加入多個檔案,容量上限為 100 GB。
分隔符號必須是半形逗號 (「,」)。
您不需要為 CSV 資料指定結構定義,匯入資料時,Vertex AI 會自動推斷資料表的結構定義,並使用標題列做為資料欄名稱。
如要進一步瞭解 CSV 檔案格式和資料類型,請參閱 CSV 檔案一節。
如要從 Cloud Storage 匯入資料,資料必須位於符合下列條件的值區:
- 符合 Vertex AI 儲存空間的規定。
- 如果值區與 Vertex AI 不在同一個專案中,請為 Vertex AI 服務代理新增一或多個角色。詳情請參閱「Cloud Storage 的角色新增規定」。
如要從本機電腦匯入資料,您必須擁有符合下列規定的 Cloud Storage 值區:
- 符合 Vertex AI 值區規定。
如果值區與 Vertex AI 不在同一個專案中,請為 Vertex AI 服務代理新增一或多個角色。詳情請參閱「Cloud Storage 的角色新增規定」。
Vertex AI 會先將資料暫存到這個 bucket,再匯入資料。
為訓練資料新增權重
根據預設,Vertex AI 會為訓練資料中的每個資料列設定相同的權重。進行訓練時,每個資料列都一樣重要。
有時候,您可能希望系統在訓練模型時能更頻繁地使用部分資料列。舉例來說,如果您使用支出資料,可能會希望與支出較高者相關聯的資料對模型產生較大影響。如果您特別想避免缺少特定結果的情況,則可針對包含這個結果的資料列增加其權重。
在資料集中新增權重欄,即可提供資料列的相對權重。權重欄必須是數字欄類型,權重值可介於 0 到 10,000 之間。 值越高,表示訓練模型時,該資料列越重要。權重為 0 的資料列會遭到忽略。如果加入權重資料欄,則每列都必須包含值。
稍後訓練模型時,請將這個資料欄指定為 Weight 資料欄。
系統唯有在訓練模型時會使用自訂權重配置,因此這些配置不會影響模型評估作業所用的測試集。
後續步驟
- 建立資料集。
- 進一步瞭解建立表格型訓練資料的最佳做法。
- 瞭解 Vertex AI 如何處理不同類型的表格資料。