避免過度配適
訓練 BigQuery ML 模型時,常見的陷阱是過度擬合。如果模型過度符合訓練資料,就會發生過度配適情形,導致模型無法準確預測新資料。BigQuery ML 支援兩種避免過度訓練的方法:提早中止訓練和正規化。
如要瞭解如何修改下列選項,請參閱CREATE MODEL陳述式。
提早中止訓練
在 BigQuery ML 中,防止過度訓練的預設選項是提早中止訓練。啟用提早中止訓練功能後,系統會在訓練期間監控保留資料的損失,一旦最新疊代的損失改善幅度低於門檻,就會停止訓練。由於訓練期間不會使用保留資料,因此這類資料可做為模型在新資料上的損失估計值。early_stop、min_rel_progress、data_split_method 和 data_split_eval_fraction 選項可控制提早中止訓練的行為。
正則化
正則化可避免模型權重過大,防止模型過度配適訓練資料。BigQuery ML 支援兩種方法來控制模型權重的大小:L1 正規化和 L2 正規化。
根據預設,l1_reg 和 l2_reg 的值為零,這會停用正規化。在某些資料集中,為 l1_reg 和 l2_reg 設定正值,可提升訓練模型在新資料上的成效。通常需要透過試誤法,才能找出最佳的正規化參數值,而且一般會實驗幾個數量級的值 (例如 0.01、0.1、1、10 和 100)。
以下提供使用正規化的通用建議:
如果您正在實驗正規化參數,請嘗試停用提早中止訓練功能,清楚瞭解正規化的效果。
如果特徵數量相較於訓練集大小較多,請嘗試使用較大的正規化參數值。如果每個特徵的觀察結果很少,過度擬合的風險就會更高。
如果您擔心許多特徵可能與預測標籤無關,請嘗試將
l1_reg設為大於l2_reg的值,反之亦然。有理論證據顯示,當許多特徵不相關時,L1 正則化效果較佳。
L1 正則化的另一項優點是,它會將許多模型權重設為零,有助於找出最相關的特徵,並訓練精簡模型。
後續步驟
- 如需 BigQuery ML 的總覽,請參閱 BigQuery ML 簡介。
- 如要開始使用 BigQuery ML,請參閱在 BigQuery ML 中建立機器學習模型。
- 如要進一步瞭解模型的使用方式,請參閱以下說明: