進行 A/B 實驗的一般指南

本頁面說明如何使用 A/B 實驗,瞭解 AI 購物搜尋對業務的影響。

總覽

A/B 實驗是一種隨機實驗,分為實驗群組和控制組。實驗群組會接受某種不同的處理方式 (在本例中,即 AI Commerce Search 的預測或搜尋結果),控制組則不會。

執行 A/B 實驗時,請在記錄使用者事件時,一併提供使用者所屬群組的資訊。這項資訊可用來改善模型並提供指標。

兩個版本的應用程式必須相同,但實驗群組使用者會看到 AI Commerce Search 產生的結果,控制組則不會。您會記錄這兩組的使用者事件。

如要進一步瞭解流量分配,請參閱 App Engine 說明文件中的「分配流量」一文。

實驗平台

使用 VWOAB Tasty 等第三方實驗平台設定實驗。控制組和實驗組都會從平台取得專屬的實驗 ID。記錄使用者事件時,請在 experimentIds 欄位中加入實驗 ID,指定使用者所屬的群組。提供實驗 ID 後,您就能比較控制組和實驗組看到的應用程式版本指標。

A/B 實驗最佳做法

A/B 實驗的目標是準確判斷更新網站 (在本例中為採用 AI 商業搜尋) 的影響。如要準確評估影響,您必須正確設計及執行實驗,避免其他差異影響實驗結果。

實驗 ID 用於 A/B 測試,可比較 AI Commerce Search 與現有的搜尋解決方案。此外,如果已全面採用 AI Commerce Search 網站,且需要針對控制組測試新的設定、控制項或提升規格 (僅舉幾例),也可以使用這些設定執行實驗。

使用者事件中的實驗 ID 欄位是陣列,可進行更精細的評估。

請見下列用途。

  • AI Commerce Search 的成效必須與控制組比較。
  • 需要評估整體成效。
  • 需要評估行動裝置專用廣告的成效。
  • 需要評估電腦專用廣告活動的成效。
  • 搜尋和建議的成效也需要分開評估。

如要取得如此精細的區隔評估結果,您可能需要 10 個實驗 ID,且每個事件的事件實驗 ID 陣列中都必須傳送四個 ID。

事件控制組的實驗 ID 測試 (搜尋商務) 事件群組的實驗 ID 使用者事件範圍
控管 AI Commerce Search 所有活動
Control_mobile Google_mobile 所有行動裝置事件
Control_desktop Google_desktop 所有電腦事件
Control_search Google_search 所有搜尋和相關事件
Control_recommendations Google_recommendations 所有建議和相關賽事

如要評估整體效能,請比較從實驗 ID 為「Control」和「AI Commerce Search」的事件中取得的指標。如要評估行動搜尋成效,請比較從事件衍生的指標,實驗 ID 分別為 Control_mobile + Control_searchGoogle_mobile + Google_search

類別階層

請確認控制組和測試組的相同產品具有相同的類別階層。舉例來說,在控制組網站中,T 恤產品的類別階層為 clothing > mens > tops > tee-shirts,而測試組網站中,同一產品的類別階層為 mens > popular > tops。這項設定會導致控制組和測試網站的搜尋結果和類別商情項目不同。由於 page_category 是瀏覽呼叫的輸入內容,因此這個問題會影響瀏覽器體驗。

進行 A/B 測試前,確保使用者體驗一致

準備網站進行 A/B 測試時,請務必注意電子商務網站的使用者介面和體驗是否一致,並以舊版搜尋後端做為控制組,以 AI Commerce Search 後端做為實驗組,然後再將實際使用者搜尋或建議流量提供給 AI Commerce Search,並正確對應實驗 ID。

假設您提供搜尋查詢,在控制項搜尋後端和 AI Commerce Search 後端的搜尋結果頁面之間,可測試的項目包括:

顯示的構面數量是否相同?如果沒有,請查看 AI Commerce Search 中的分面規格和屬性設定。這項功能非常重要,因為側欄可協助使用者從初始搜尋結果中篩選及瀏覽偏好的產品。更優質且更有意義的商情項目表示使用者能更快找到偏好的產品。否則會導致更多點擊和捲動,可能影響搜尋體驗,最終影響轉換率和點閱率。這也可能導致使用者放棄搜尋。因此,如果控制組和測試組網站的切面相似,使用者在其中一個網站搜尋產品時,就不會比在另一個網站搜尋產品時享有不公平的優勢。

許多電子商務網站通常會提供這項功能,讓贊助商的產品出現在搜尋結果中,但贊助商的產品大多不屬於自然搜尋結果。請務必確保控制組網站和測試組網站的搜尋結果網頁中,顯示的產品和位置幾乎相同 (如果不是完全相同的話)。否則,收益成效指標的評估結果會加入雜訊,且視對照組和測試網站之間贊助產品的獨特性而定,雜訊可能偏高。

其他需要考量的使用者介面方面:

  • 控制組和測試網站的價格和折扣資訊是否相同?
  • 自動完成功能是否會針對搜尋查詢建議相同的完成內容?
  • 各個層面值是否依相同順序排列?
  • 產品是否以相同樣式列出,例如清單或格線?

最後的提示和注意事項

如要設計有意義的 A/B 實驗,請注意下列事項:

  • 設定 A/B 實驗前,請先使用預測或搜尋預覽功能,確保模型運作正常。

  • 請確保實驗組和控制組的網站行為完全相同。

    網站行為包括延遲時間、顯示格式、文字格式、網頁版面配置、圖片品質和圖片大小。控制組和實驗組的體驗在這些屬性方面應沒有明顯差異。

  • 接受並顯示 AI Commerce Search 傳回的結果,且顯示順序與傳回順序相同。

    篩選缺貨商品是可以接受的做法。不過,請避免根據業務規則篩選或排序結果。

  • 如果您使用搜尋使用者事件,並在其中加入必要的歸因權杖,請確認設定正確無誤。請參閱「歸因權杖」說明文件。

  • 請確保您在要求建議或搜尋結果時提供的供應設定,符合您對該建議或搜尋結果的意圖,以及顯示結果的位置。

    使用建議時,服務設定會影響模型的訓練方式,進而影響建議的產品。瞭解詳情

  • 如果比較現有解決方案與 AI Commerce Search,請確保控制組和實驗群組的體驗完全分開。

    如果控制解決方案未提供建議或搜尋結果,請勿在控制頁面中提供 AI Commerce Search 的建議或搜尋結果。否則測試結果會出現偏差。

    請確保使用者不會在控制組和實驗組之間切換。這在同一個工作階段內特別重要,但建議跨工作階段也這麼做。這樣可提升實驗成效,並協助您更快取得具統計顯著性的 A/B 測試結果。