手動預先處理特徵

您可以搭配使用 CREATE MODEL 陳述式的 TRANSFORM 子句和手動前處理函式,定義自訂資料前處理作業。您也可以在 TRANSFORM 子句以外的地方使用這些手動前處理函式。

如要將資料預先處理作業與模型訓練作業分離,可以使用 TRANSFORM 子句建立僅轉換模型,只執行資料轉換作業。

您可以使用 ML.TRANSFORM 函式,提高特徵前處理的透明度。這個函式可讓您從模型的 TRANSFORM 子句傳回預先處理的資料,以便查看模型訓練的實際訓練資料,以及提供模型的實際預測資料。

如要瞭解 BigQuery ML 的特徵預先處理支援,請參閱特徵預先處理總覽

預先處理函式類型

手動預先處理函式分為幾種類型:

  • 純量函式會對單一資料列執行運算。例如:ML.BUCKETIZE
  • 資料表值函式會處理所有資料列,並輸出資料表。例如:ML.FEATURES_AT_TIME
  • 分析函式會對所有資料列執行運算,並根據所有資料列收集的統計資料,輸出每個資料列的結果。例如:ML.QUANTILE_BUCKETIZE

    使用 ML 分析函式時,一律須搭配空白的 OVER() 子句。

    在訓練期間,如果您在 TRANSFORM 子句中使用 ML 分析函式,系統會自動將相同的統計資料套用至預測中的輸入內容。

以下各節說明可用的前處理函式。

一般函式

在字串或數值運算式上使用下列函式,即可清除資料:

數值函式

您可以在數值運算式中使用下列函式,將資料正規化:

類別函式

您可以在類別型資料上使用下列函式:

文字函式

您可以在文字字串運算式中使用下列函式:

圖片功能

在圖片資料上使用下列函式:

已知限制

後續步驟

如要進一步瞭解支援手動特徵前處理的模型適用的 SQL 陳述式和函式,請參閱下列文件: