手動預先處理特徵
您可以搭配使用 CREATE MODEL 陳述式的 TRANSFORM 子句和手動前處理函式,定義自訂資料前處理作業。您也可以在 TRANSFORM 子句以外的地方使用這些手動前處理函式。
如要將資料預先處理作業與模型訓練作業分離,可以使用 TRANSFORM 子句建立僅轉換模型,只執行資料轉換作業。
您可以使用 ML.TRANSFORM 函式,提高特徵前處理的透明度。這個函式可讓您從模型的 TRANSFORM 子句傳回預先處理的資料,以便查看模型訓練的實際訓練資料,以及提供模型的實際預測資料。
如要瞭解 BigQuery ML 的特徵預先處理支援,請參閱特徵預先處理總覽。
預先處理函式類型
手動預先處理函式分為幾種類型:
- 純量函式會對單一資料列執行運算。例如:
ML.BUCKETIZE。 - 資料表值函式會處理所有資料列,並輸出資料表。例如:
ML.FEATURES_AT_TIME。 分析函式會對所有資料列執行運算,並根據所有資料列收集的統計資料,輸出每個資料列的結果。例如:
ML.QUANTILE_BUCKETIZE。使用 ML 分析函式時,一律須搭配空白的
OVER()子句。在訓練期間,如果您在
TRANSFORM子句中使用 ML 分析函式,系統會自動將相同的統計資料套用至預測中的輸入內容。
以下各節說明可用的前處理函式。
一般函式
在字串或數值運算式上使用下列函式,即可清除資料:
數值函式
您可以在數值運算式中使用下列函式,將資料正規化:
ML.BUCKETIZEML.MAX_ABS_SCALERML.MIN_MAX_SCALERML.NORMALIZERML.POLYNOMIAL_EXPANDML.QUANTILE_BUCKETIZEML.ROBUST_SCALERML.STANDARD_SCALER
類別函式
您可以在類別型資料上使用下列函式:
文字函式
您可以在文字字串運算式中使用下列函式:
圖片功能
在圖片資料上使用下列函式:
已知限制
- BigQuery ML 支援模型匯出中的自動前處理和手動前處理。如要匯出使用 BigQuery ML
TRANSFORM子句訓練的模型,請參閱支援的資料類型和函式。
後續步驟
如要進一步瞭解支援手動特徵前處理的模型適用的 SQL 陳述式和函式,請參閱下列文件: