維度縮減總覽

降低維度是數學技術的常用術語,這類技術可用於擷取高維度空間中資料的形狀和關係,並將這項資訊轉換為低維度空間。

處理可能包含數千個特徵的大型資料集時,降低維度非常重要。在如此龐大的資料空間中,資料點之間距離範圍越廣,模型輸出結果就越難解讀。舉例來說,這會導致您難以瞭解哪些資料點的位置較近,因此代表的資料也較為相似。降低維度技術可協助您減少特徵數量,同時保留資料集最重要的特徵。減少特徵數量也有助於縮短使用資料做為輸入內容的任何模型訓練時間。

BigQuery ML 提供下列降維模型:

您可以使用 PCA 和自動編碼器模型,搭配 ML.PREDICTAI.GENERATE_EMBEDDING 函式,將資料嵌入維度較低的空間,並搭配 ML.DETECT_ANOMALIES 函式執行異常情況偵測

您可以將降維模型輸出內容用於下列工作:

  • 相似性搜尋:根據嵌入內容找出彼此相似的資料點。這項功能非常適合尋找相關產品、推薦類似內容,或是找出重複或異常的項目。
  • 分群:將嵌入做為 k-means 模型中的輸入特徵,根據資料點的相似性將其分組。這有助於發掘資料中隱藏的模式和深入分析資訊。
  • 機器學習:將嵌入做為分類或迴歸模型的輸入特徵。

即使沒有太多機器學習知識,您也可以使用 CREATE MODEL 陳述式和推論函式中的預設設定,建立及使用降維模型。不過,具備機器學習開發的基本知識,有助於您最佳化資料和模型,進而獲得更出色的結果。建議您使用下列資源,熟悉機器學習技術和程序: