貢獻分析總覽
請參閱本文,瞭解貢獻度分析的用途,以及在 BigQuery ML 中執行貢獻度分析的選項。
什麼是貢獻分析?
貢獻度分析 (又稱主要驅動因素分析) 是一種方法,可產生多維度資料中主要指標變更的洞察資料。舉例來說,您可以透過貢獻度分析,瞭解哪些資料導致兩個季度的收益數字出現變化,或是比較兩組訓練資料,瞭解機器學習模型效能的變化。
貢獻度分析是擴增分析的一種形式,也就是運用人工智慧 (AI) 強化及自動化資料分析和解讀作業。貢獻分析可達成擴增分析的主要目標之一,也就是協助使用者找出資料中的模式。
使用 BigQuery ML 進行貢獻度分析
貢獻度分析會比較測試資料集和控制資料集,偵測特定指標出現變化的資料區隔。舉例來說,您可以使用 2023 年底的銷售資料表快照做為測試資料,並使用 2022 年底的資料表快照做為控制資料,然後比較兩者,瞭解銷售額隨時間的變化。資料表快照貢獻度分析可顯示哪些資料區隔 (例如特定區域的線上顧客) 帶動銷售額在一年內出現最大變化。
指標是貢獻度分析模型用來評估及比較測試和控制資料之間變化的數值。您可以使用貢獻度分析模型指定下列類型的指標:
- 可加總: 加總您指定的指標資料欄值,然後為每個資料區隔計算總計。
- 可加總比率: 加總您指定的兩個數值資料欄的值,並判斷每個資料區段之間的比率。
- 可依類別加總: 加總數值資料欄的值,然後除以類別資料欄中的不重複值數量。
區隔是資料的切片,由特定維度值組合所識別。舉例來說,如果貢獻度分析模型是以 store_number、customer_id 和 day 維度為依據,則這些維度值的每個不重複組合都代表一個區隔。下表中的每一列代表不同區隔:
store_number |
customer_id |
day |
| 商店 1 | ||
| 商店 1 | 顧客 1 | |
| 商店 1 | 顧客 1 | 星期一 |
| 商店 1 | 顧客 1 | 星期二 |
| 商店 1 | 顧客 2 | |
| 商店 2 |
不使用模型分析資料
如果您使用的維度少於 12 個,且使用可加總的指標,則可使用 AI.KEY_DRIVERS TVF 執行貢獻度分析。對於大多數應用程式,我們建議使用 AI.KEY_DRIVERS 函式,而非建立模型,因為函式提供簡化的語法、更快的結果,以及自動修剪功能。函式輸出內容包含多個洞察資料列,每個洞察資料列對應一個區隔,並提供該區隔的相應指標。
使用貢獻度分析模型
如要重複進行分析,或需要超過 12 個維度或其他類型的指標,可以使用 CREATE MODEL 陳述式建立貢獻度分析模型。
如要縮短模型建立時間,請指定先驗支援度門檻。先驗支援度門檻可讓您修剪較小且較不相關的區隔,模型只會使用最大且最相關的區隔。
建立貢獻度分析模型後,您可以使用 ML.GET_INSIGHTS 函式,擷取模型計算的指標資訊。函式輸出內容包含多個洞察資料列,每個洞察資料列對應一個區隔,並提供該區隔的相應指標。
貢獻分析使用者歷程
下表說明可與貢獻度分析搭配使用的陳述式和函式:
| 陳述式或函式 | 預先處理特徵 | 分析結果生成功能 | 教學課程 |
|---|---|---|---|
AI.KEY_DRIVERS |
手動預先處理 | 不適用 | 愛荷華州酒類銷售資料的貢獻度分析示例 |
CREATE MODEL |
手動預先處理 | ML.GET_INSIGHTS |