避免過度配適
訓練 BigQuery ML 模型時,常見的陷阱是過度擬合。當模型過度貼近訓練資料,導致在處理新資料時成效不佳,即會發生過度配適的情形。BigQuery ML 支援兩種避免過度擬合的方法:提早停止和正規化。
如要瞭解如何修改下文所述的選項,請參閱 CREATE MODEL
陳述式。
提早中止訓練
在 BigQuery ML 中,提早停止是預設的過度擬合預防選項。啟用提早中止訓練功能後,系統會在訓練期間監控保留資料的損失,並在最新疊代中的損失改善率低於閾值時停止訓練。由於訓練期間不會使用保留資料,因此這項資料可用於估算模型在新資料上的損失。early_stop
、min_rel_progress
、data_split_method
和 data_split_eval_fraction
選項會控制提早停止的行為。
正則化
規則化可避免模型權重過大,防止模型過度貼近訓練資料。BigQuery ML 支援兩種方法來控制模型權重大小:L1 正則化和 L2 正則化。
根據預設,l1_reg
和 l2_reg
的值為零,這會停用規則化。在某些資料集中,為 l1_reg
和 l2_reg
設定正值,可改善訓練模型在新資料上的效能。一般來說,我們會透過反覆嘗試來找出最佳規則化參數值,而實驗時通常會嘗試不同數量級的值 (例如 0.01、0.1、1、10 和 100)。
以下提供一些使用正規化的一般建議:
如果您正在嘗試使用正則化參數,請嘗試停用提早停止功能,以便清楚顯示正則化的效果。
如果特徵數量相較於訓練集大小偏多,請嘗試使用較大的正規化參數值。如果每個特徵只有少數觀察值,過度擬合風險就會提高。
如果您擔心許多特徵可能與預測標籤無關,請嘗試將
l1_reg
設為大於l2_reg
,反之亦然。有理論證據顯示,在許多特徵不相關的情況下,L1 正規化效果會更好。
L1 正則化的另一個好處是,它傾向將許多模型權重設為零,這有助於識別最相關的特徵,並訓練精簡模型。
後續步驟
- 如需 BigQuery ML 的總覽,請參閱 BigQuery ML 簡介。
- 如要開始使用 BigQuery ML,請參閱「在 BigQuery ML 中建立機器學習模型」一文。
- 如要進一步瞭解如何使用模型,請參閱: