正確的資料歸因、一致的使用者識別和準確的事件追蹤,可確保結果可靠,並獲得最佳模型成效。問題可能會導致指標偏誤、比較結果有失公允,以及訓練資料損毀。這類結果會妨礙您做出明智決策,以及改善搜尋體驗。
事前準備
請參閱進行 A/B 實驗的一般指南。
測試元件
入門 A/B 檢查會納入下列測試元件:
訪客 ID:無論登入狀態為何,追蹤裝置上的訪客時都必須提供訪客 ID。無論訪客登入或登出,都不應變更。如果使用者在歷程中登入,訪客 ID 仍會保持不變。
工作階段 ID:用於追蹤訪客的互動工作階段。定義為一段時間內的使用者行為匯總,通常會在閒置 30 分鐘後結束。
使用者 ID:強烈建議使用,這是登入使用者的永久 ID (例如客戶 ID),可用於跨裝置的個人化設定。一律應為雜湊值。
歸因符記:每個搜尋回應都會傳回的雜湊符記。無論搜尋查詢參數是否完全相符,歸因符記都是不重複的。
說明
這項檢查會驗證 A/B 實驗中,控制組和實驗組之間的不重複訪客 ID 數量是否隨機分配。
訪客 ID 是指單一裝置上使用者的專屬 ID。
影響
如果訪客 ID 分配不公,可能會導致 A/B 測試的評估結果有誤。
如果某個實驗組含有不成比例的特定類型訪客 (例如傳送大量探測流量的機器人訪客),可能會對該組的指標造成負面影響。這會導致關鍵績效指標比較結果失真,並大幅影響評估結果,但不會直接影響模型訓練。
說明
這項檢查可確保代表已登入使用者的不重複使用者 ID 數量,在控制組和實驗組之間平均分配。使用者 ID 在不同裝置上應保持一致。
影響
影響與訪客 ID 類似。如果系統未隨機將已登入的使用者分配到實驗組和控制組,可能會導致人口統計資料分配不均。
舉例來說,如果實驗組主要包含新使用者,而高消費使用者仍留在控制組,指標就會顯示其中一組的成效較好,但這並非實際情況。
這會影響評估和主要成效指標 (KPI) 比較。
說明
這項檢查會特別查看實驗組中,交易次數高或重複購買的使用者分布情形 (通常是依據訪客 ID 和購買記錄判斷)。
目標是確保這些高消費使用者平均分配。
影響
- 如果高用量使用者 (這類使用者對收益有顯著貢獻) 分布不均,實驗組之間的 KPI 比較結果可能會嚴重失真。
- 根據支出習慣等受眾特徵資訊偵錯偏誤可能相當複雜。
- 這會對以收益為準的指標 (例如每位訪客收益 (RPV) 或每工作階段收益) 造成不成比例的影響。
- 強調 A/B 測試期間對評估準確度的影響。
說明
這項檢查會驗證搜尋回應中傳回的歸因權杖,是否正確納入該搜尋產生的搜尋事件。
Vertex AI Search for commerce 必須使用歸因權杖,才能將事件連結回產生事件的搜尋:
- 這通常與 Vertex AI Search 放送的流量有關。
- 這個問題也表示搜尋回應可能已快取,導致庫存過時和排名過舊,進而降低搜尋成效和使用者體驗。
影響
使用權杖進行適當的歸因,對於將使用者行為 (包括點擊和購買) 連結至特定搜尋 API 呼叫至關重要。如果沒有權杖,系統可能會誤用搜尋事件,將其視為來自其他搜尋服務供應商,後續事件也無法正確連結至搜尋。
歸因權杖不準確或缺漏會中斷模型訓練,因為系統會使用歸因權杖連結事件資料 (例如搜尋後購買),產生正向和負向範例來訓練排名模型。此外,這也會導致系統無法準確計算每次搜尋的指標 (例如每次搜尋收益),而這些指標對於評估 A/B 實驗期間的成效至關重要。
這會影響模型訓練、評估和成效分析。
說明
這項檢查可確保在對 Search API 的搜尋要求呼叫中使用的訪客 ID 和使用者 ID,與後續搜尋使用者事件中包含的訪客 ID 和使用者 ID 相同 (如果可以詳細查看網頁、加入購物車和完成購買事件,這些事件與該搜尋互動相關)。
visitorId和userId欄位分別是單一裝置上使用者的專屬 ID。- 搜尋要求和使用者事件中的訪客和使用 ID 格式必須一致,搜尋才能正確識別使用者活動。
- 偵錯方法可能包括使用訪客 ID 和使用者 ID 追蹤互動。
影響
如果兩者不一致,可能表示有事件遺失或資料毀損等問題。
訪客 ID 和使用者 ID 對於 Retail Search 模型訓練至關重要,尤其是個人化功能。如要準確歸因購買交易,必須持續使用訪客 ID 和使用者 ID。
Vertex AI Search for commerce 會使用訪客 ID,將使用者看到的搜尋結果與該訪客 ID 後續是否購買顯示的產品建立連結。這項資料可用於連結搜尋到點擊、加入購物車或購買資料,產生正反兩面的範例,以訓練排名模型。
如果訪客 ID 不相符,就會導致購買事件無法歸因於先前的搜尋或詳細資料頁面瀏覽,因此看起來就像沒有任何搜尋帶來後續購買。這不僅會中斷模型訓練,也會導致難以計算每次搜尋的收益等指標。另一個挑戰是準確計算主要成效指標 (KPI),例如每位訪客的收益、轉換率和平均訂單價值,這類指標需要將使用者事件與搜尋內容準確連結。因此這項檢查會影響模型訓練和評估。
說明
這項檢查會比較針對特定實驗通道 (尤其是 Google 通道) 向 Search API 發出的搜尋要求量,以及針對該通道記錄的搜尋使用者事件量。
收集到的搜尋事件數量應與發出的搜尋 API 呼叫次數相符。
影響
- 如果差異很大,表示系統未正確收集使用者事件,或未將事件傳送給 Google。
- 這可能是因為事件擷取問題 (缺少或不完整的事件),或是使用者事件的標記含有錯誤的實驗 ID。
- 妥善收集使用者事件至關重要,因為事件中擷取的使用者互動會為模型提供必要的回饋,進而改善結果。
- 如果缺少事件,模型可用的訓練資料就會減少,進而影響成效。
- 用於評估 A/B 測試的指標 (例如點擊率、轉換率、收益指標) 是否準確可靠,完全取決於使用者事件資料是否完整正確。
- 如果缺少事件,這些指標就無法準確計算,導致成效分析結果有偏差,A/B 測試結果也不可靠。
- API 呼叫和事件之間的查詢次數不符,會影響模型訓練和評估。
說明
這項檢查會驗證使用者對搜尋結果套用篩選器時 (反映在搜尋要求中),歸因權杖連結的對應搜尋使用者事件是否也包含正確的篩選器資訊。
這項檢查包括驗證特定權杖連結配對的一致性,以及驗證事件中篩選器資料的整體一致性 (與 API 呼叫相比)。
影響
- 如要使用動態層面,請務必在搜尋事件中加入篩選陳述式。
- Retail Search 模型會根據搜尋要求中的篩選器推斷分面熱門程度,這對最佳化動態分面成效至關重要。
- 如果使用者事件中缺少或包含錯誤的篩選器資料,模型就無法從涉及篩選器的使用者互動中學習。
- 這會直接影響動態商情項目等功能的訓練和成效。
- 這項檢查也有助於偵錯搜尋結果、對話式搜尋和動態商情項目相關問題。
- 這項異動主要會影響動態構面和相關功能的模型訓練,但也會影響準確偵錯及評估這些特定功能成效的能力。
- 影響與動態層面相關的模型訓練,對於偵錯和分析依賴篩選器資料的功能成效 (評估) 相當重要。
說明
- 這項檢查會驗證傳送至 Search API 的搜尋要求中包含的分頁參數 (位移) 和排序條件 (排序依據),是否正確顯示在相應的搜尋使用者事件中。
- 這些事件通常會使用歸因權杖連結至原始要求。
- 這項檢查可確保特定權杖連結的互動和事件中傳送的整體資料一致。
- 維持事件資料的一致性,對於偵錯涉及分頁或排序的使用者歷程,以及對話式搜尋和動態層面等功能來說相當重要。
影響
- 如果兩者不一致,您就無法準確分析使用者在特定分頁或排序條件下與搜尋結果的互動情形。
- 這會影響這些功能的偵錯工作,且難以準確評估成效 (影響對話式搜尋或動態切面等功能的成效評估)。
- 一致的事件資料是模型訓練的基礎,不一致的資料可能會間接影響在不同顯示條件下,從使用者行為分析得出的洞察資料。
- 要求參數和事件值的一致性對點擊式重新排序模型的效能至關重要。
- 這項異動主要會影響特定功能的偵錯和評估,以及與瞭解使用者與分頁或排序結果互動相關的模型訓練成效。
說明
- 這項檢查可確保在整個 A/B 測試期間,系統會將不重複訪客 ID (適用於未登入的使用者) 指派給單一實驗組或通道 (即控制組或測試組)。
- 除非有流量升級或明確重新分配等計畫變更,否則系統應會指派一致的訪客。
- 偵測到切換表示單一使用者 (以訪客 ID 識別) 意外在實驗群組之間移動。
- 這可能是因為事件傳送不當、事件中的實驗 ID 代碼不正確、前端導入問題,或是搜尋流量路徑設定錯誤。
影響
- 如要進行公平的 A/B 測試,就必須持續指派網站訪客。
- 如果網站訪客切換車道,系統可能會在不同的實驗 ID 下記錄他們的使用者事件 (點擊、加入購物車、購買),因此無法將他們的整體行為準確歸因於單一體驗。這會導致系統無法正確計算各車道的 KPI,進而產生有偏差且不可靠的評估結果。
- Retail Search 模型訓練 (尤其是個人化) 很大程度取決於一致的
visitorId和userId欄位,以便連結一段時間內的使用者互動,並將購買歸因於先前的搜尋事件。 - 訪客 ID 切換會中斷這個連結,導致模型無法從使用者在一致搜尋體驗中的歷程有效學習。這會對評估和模型訓練造成重大影響。
說明
- 這項檢查會特別查看標記有控制組或保留流量實驗 ID 的搜尋使用者事件,但這些事件卻意外含有 Google 產生的歸因權杖。
- 歸因權杖由 Retail Search API 傳回,並應納入後續使用者事件,以利 Google 放送流量。
- 控制組流量會使用現有的搜尋引擎,且不應接收或傳送 Google 出處資訊符記。
- 這項問題與實驗 ID 切換檢查有關,因為這表示系統錯誤地標記或傳送事件。
- 這個問題可能表示搜尋回應已快取,導致庫存過時和排名過舊,進而影響搜尋成效和使用者體驗。
影響
- 如果控制組事件中含有 Google 歸因權杖,系統就會誤標歸因。
- 也就是說,體驗控制組 (非 Google) 搜尋的使用者事件,會錯誤地與 Google 實驗通道建立關聯。
- 這樣會納入控制組的資料,直接影響 Google 管道的指標計算結果,導致成效評估失真,並使評估結果失效。
- 從模型訓練的角度來看,模型會使用已歸因的使用者事件,從與搜尋結果的互動中學習。
- 如果將控制組中錯誤歸因的事件納入訓練集,可能會導致模型效能下降。
- 這項檢查會影響評估和模型訓練。
說明
- 這項檢查的重點是傳送至 Retail Search API 本身的搜尋要求呼叫。
- 系統會尋找來自訪客 ID 或實驗 ID 的要求,這些 ID 指定用於控制組或保留流量。
- 這表示要傳送至控制組或排除組的流量,錯誤地導向了 Google 實驗通道的 API 端點。
- 這個問題與訪客 ID 切換檢查非常相似,但觀察角度是 API 要求端,而非僅限於使用者事件端。
影響
- 這項發現指出 A/B 測試的流量分配和路徑機制存在基本設定錯誤。
- 如果控制組流量傳送至 Google API,實驗組就無法適當隔離。
- 這會導致 A/B 版本測試設定失效,並影響比較結果的公正性。
- 這會直接影響評估結果,因為 Google 管道中的流量和組成會因納入非預期使用者而膨脹,導致指標計算和分析不準確。
- 就模型訓練而言,雖然 API 記錄本身並非主要訓練資料,但如果也錯誤歸因,這類錯誤路徑流量產生的後續使用者事件,會將干擾和可能不正確的信號帶入訓練資料。
- 這項問題會影響評估和模型訓練。
說明
- 這項檢查會驗證為使用者 (以訪客 ID 或使用者 ID 識別) 記錄的購買完成使用者事件,是否已標記與所屬 A/B 測試通道 (例如控制組或實驗組) 相應的正確
experimentIds。 - 系統會偵測使用者購買事件是否與實驗通道相關聯,而非使用者執行相關搜尋動作時所在的通道,而這些動作促成了購買。
- 這個問題與確保訪客持續分配到實驗群組密切相關,且取決於購買完成事件是否包含實驗 ID。
影響
- 將訪客穩定指派至實驗通道,是確保 A/B 測試準確度的關鍵。
- 如果購買完成事件標記的實驗 ID 有誤,系統就會將這些事件錯誤歸因於該車道。
- 這會直接影響依據各通路購買資料計算的指標,例如收益率、訂單率、平均訂單價值和轉換率。
- 如果歸因有誤,就無法準確比較不同實驗群組的成效,導致 A/B 測試評估結果無效且不可靠。
- 從模型訓練的角度來看,零售搜尋模型 (尤其是以收益或轉換率為目標進行最佳化的模型) 會將使用者互動 (例如搜尋) 連結至後續購買行為,藉此瞭解哪些結果會促成轉換。
- 適當的歸因 (通常會使用訪客、使用者和實驗 ID,將購買事件連結回搜尋) 對於建立這些正向訓練範例至關重要。
- 如果 ID 不一致或實驗通道切換,導致購買事件遭到錯誤歸因,訓練資料就會因信號有誤而損毀。
- 如果購買事件中傳送了實驗 ID,則為有效:如前所述,只有正確導入
experimentIds並在購買完成的使用者事件中傳送,這項檢查才有效且有影響力。
說明
- 與檢查購買事件類似,這項檢查會使用實驗 ID 欄位,驗證特定訪客 ID 的加入購物車使用者事件是否已正確與使用者指派的實驗通道建立關聯。
- 如果購物車加購事件標記的實驗 ID,與使用者未獲指派的通道相符,系統就會識別出這類情況。
- 如果不同事件類型使用的訪客 ID 不一致,或是
experimentIds代碼設定有誤,就可能發生這個問題。
影響
- 如果標記購物車事件時發生錯誤,系統就會將這類使用者行為錯誤歸因至實驗通道。
- 這會直接影響「加入購物車率」和「轉換率」等指標,如果「加入購物車率」是轉換漏斗中的重要步驟,影響就更大了。
- 不準確的指標會影響 A/B 測試結果的可靠性,以及正確評估實驗影響的能力。
- 從模型訓練的角度來看,加入購物車事件是重要的正面信號,模型 (尤其是以收益為目標進行最佳化的模型) 會從中學習。
- 如果 ID 或
experimentIds標記不一致,導致這些事件錯誤歸因至錯誤的實驗通道,模型就會收到有雜訊或不正確的訓練信號。 - 如果購物車加購事件中傳送了實驗 ID,則為有效:如前所述,只有正確導入
experimentIds並在購物車加購使用者事件中傳送,這項檢查才有效且有影響力。
說明
- 這項檢查會評估各類型使用者事件 (搜尋、詳細資料頁面瀏覽、加入購物車、購買) 的使用者活動分布,是否在控制組和實驗組之間達到平衡 (依裝置類型分類,例如行動裝置、電腦、應用程式)。
- 這項功能可確保控制組和實驗組中,透過行動裝置與網站互動的使用者比例大致相同,其他裝置類型也是如此。
- 如果偵測到明顯的偏差,表示用來根據裝置類型分割流量或傳送事件的機制可能存在問題。
影響
裝置分配不均表示控制組和實驗組在使用的裝置方面,人口統計資料不平衡,與人口統計資料分配不均的問題類似。
使用者行為、瀏覽模式和轉換率可能會因使用的裝置而有顯著差異。因此,實驗組別間的裝置分配不均會導致 A/B 測試比較產生偏差,進而無法準確評估各組別的主要業務指標。此外,如果特定裝置類型的使用者比例偏高或偏低,可能會對某個群組的結果造成不成比例的影響,導致難以判斷實驗的實際影響。
雖然裝置類型不一定是所有模型中的直接特徵,但確保流量平衡有助於確保訓練資料 (衍生自各管道中的使用者事件) 能準確反映使用者行為在各裝置上的實際分布情形。不平衡的資料可能會間接導致訓練資料過度或不足地呈現特定裝置的使用者行為,進而導致模型無法針對整體使用者族群進行最佳化調整。
事件是追蹤 KPI 和一般疑難排解的基礎。
說明
- 這項檢查會比較類似搜尋查詢的控制組和實驗組,兩者搜尋使用者事件中包含的篩選器資料。
- 確認系統是否正確且一致地擷取篩選器資訊,以及車道間的同位檢查。
- 包括檢查向使用者顯示的可用篩選選項 (構面) 是否相同或等效、事件中傳送的篩選值是否符合預期格式或目錄資料,以及篩選的 UI/UX 是否可比較。
- 如果篩選器未擷取、擷取錯誤,或篩選器 UI/選項不同,就可能出現差異,這通常可追溯至目錄或搜尋 API 中的設定問題。
影響
- 實驗組別之間的篩選體驗或篩選資料擷取方式如有差異,可能會直接影響使用者與搜尋結果的互動方式。
- 如果某個管道提供更優質或不同的篩選選項,該管道的使用者可能會以不同方式調整搜尋內容,進而導致使用者行為出現差異,並可能影響篩選搜尋的轉換率等指標。
- 這會導致 A/B 測試出現變數偏差,因此很難將觀察到的指標差異完全歸因於核心搜尋排名差異。
- 如果事件中沒有擷取的篩選器資料,您就無法依篩選器使用情況分析成效指標,進而影響評估洞察。
- 在模型訓練期間,搜尋事件中的篩選資訊對於訓練動態側欄模型至關重要,因為模型會從使用者篩選器使用信號中瞭解側欄熱門程度。
- 事件中準確的篩選器使用資訊,對以點擊為準的重新排序模型也很重要;如果事件中的篩選器值與搜尋要求中的篩選器值不符,模型在含有篩選器的查詢中,成效就會受到負面影響。
- 如果事件中的篩選器資料不一致或缺漏,動態層面和篩選查詢的重新排序功能相關模型品質就會下降。
說明
- 這項檢查會使用
attributionToken將搜尋事件連結至對應的 Search API 要求,藉此檢查特定搜尋使用者歷程。 - 歸因權杖是由 Vertex AI Search 電子商務套件產生,並隨附於每項搜尋要求。
- 這項檢查會比較搜尋事件中的
searchQuery欄位,以及傳送至初始 Search API 要求 (傳回歸因權杖) 的實際查詢字串。 - 如果存在連結歸因權杖,但這些查詢字串不相符,表示使用者事件中傳送的 searchQuery 未準確反映使用者的原始搜尋查詢。
影響
- 這個問題會嚴重影響模型訓練。
- Vertex AI Search for commerce 會使用事件資料訓練模型。
- 模型 (尤其是以點擊為基礎的重新排序模型) 會將使用者互動 (例如點擊、加入購物車和購買) 連結回產生結果的搜尋要求,藉此學習。
- 這項連結作業取決於事件中的準確資訊,包括
searchQuery和attributionToken欄位。 - 如果事件中的
searchQuery與 Search API 要求的實際查詢不符,模型就會以錯誤的資料進行訓練,將使用者行為與錯誤的查詢建立關聯。 - 這可能會導致模型根據有瑕疵的查詢資料,學習次佳的排名策略,嚴重影響搜尋結果品質。
- 這項異動主要會影響模型訓練品質,但也會間接影響評估結果,因為以不良資料訓練的模型成效不佳,即使事件已順利擷取,A/B 測試結果仍可能出現偏差。
說明
- 這項檢查是手動驗證程序,測試人員會模擬一般使用者的操作過程,包括搜尋、點選產品 (
detail-page-view事件)、加入購物車,以及可能完成購買等一連串動作。 - 測試人員記下這些動作的訪客 ID 和時間戳記後,會從記錄或資料平台擷取該特定訪客 ID 的記錄使用者事件。
- 目標是驗證使用者觀察到的動作與系統記錄的事件是否完全一致 (例如搜尋動作應產生搜尋事件、點擊或
detail-page-view事件)。 - 如果缺少事件、事件的訪客 ID 有誤,或事件中的資料損毀 (例如缺少產品 ID 或實驗 ID),表示事件管道有問題。
影響
- 這項檢查發現的問題會嚴重影響評估和模型訓練。
評估
- 準確且完整的使用者事件是計算 A/B 測試中重要業務指標的基礎,例如搜尋點擊率、搜尋轉換率、搜尋加入購物車率和每位訪客收益。
- 這些指標會將使用者行為 (點擊、加入購物車、購買) 歸因於特定搜尋結果和實驗通道。
- 如果使用者的事件遺失或損毀,系統就無法完整擷取他們的動作,導致實驗組的這些指標計算結果不正確。
- 這會導致偏誤和干擾,使 A/B 測試結果不準確,無法做為決策依據。舉例來說,如果缺少購買事件,轉換率和收益升幅指標就會直接受到影響。
模型訓練
- Vertex AI Search for Commerce 模型會根據使用者事件資料進行大量訓練,瞭解使用者行為模式並最佳化排名。
- 訪客和使用者 ID 對於個人化功能至關重要,而且可連結事件來建立訓練範例。
- 如果事件遺失或損毀,模型就會失去該使用者互動序列中的寶貴訓練信號。舉例來說,如果缺少購買或加入購物車事件,模型就無法瞭解哪些產品互動促成了轉換。
- 同樣地,如果缺少詳細資料頁面瀏覽事件,模型就無法取得點擊信號。訓練資料的數量和品質降低,會導致模型無法有效學習,進而降低搜尋結果品質,甚至可能抵銷使用機器學習搜尋引擎的好處。
- 如果訪客 ID 對應或格式不一致,也可能導致程序中斷。
- 缺少購買事件會影響模型訓練,因為模型從未看過購買事件。