本页面介绍了如何使用 A/B 实验来了解 Vertex AI Search 商务解决方案对您的业务有何影响。
概览
A/B 实验是针对两个组(实验组和对照组)的随机实验。实验组会接收一些不同的处理结果(在这种情况下,来自 Vertex AI Search 商务解决方案的预测或搜索结果),而对照组则不接收。
当您运行 A/B 实验时,您需要包括当您记录用户事件时用户所在群组的相关信息。该信息用于优化模型和提供指标。
应用的两个版本必须相同,但实验组中的用户会看到 Vertex AI Search for commerce 生成的结果,而对照组无法看到。您可以记录两个组的用户事件。
如需详细了解流量拆分,请参阅 App Engine 文档中的拆分流量。
实验平台
使用第三方实验平台(如 VWO、AB Tasty)来设置实验。对照组和实验组均会从平台获得一个唯一的实验 ID。记录用户事件时,请在 experimentIds 字段中添加实验 ID,以指定用户属于哪个组。通过提供实验 ID,您可以比较对照组和实验组中各个应用版本的指标。
A/B 实验最佳做法
A/B 实验的目标是准确地确定更新网站(在本例中是使用 Vertex AI Search for commerce)的影响。如需准确衡量影响,您必须正确设计并实施实验,这样其他差异就不会混入并影响实验结果。
建议的实验 ID 映射
实验 ID 用于 A/B 测试,您可以在其中将 Vertex AI Search for Commerce 与现有搜索解决方案进行比较。它们还可用于在完全采用 Vertex AI Search 的商业网站上运行实验,其中需要针对对照组测试新的配置、控制或提升规范(仅举几例)。
用户事件中的实验 ID 字段是一个数组,可实现更精细的衡量。
请参考以下用例:
- 需要将 Vertex AI Search for Commerce 的效果与对照组进行比较。
- 需要衡量整体效果。
- 需要衡量仅限移动设备的广告的效果。
- 需要衡量仅限桌面设备的广告系列的效果。
- 搜索和推荐效果也需要单独衡量。
为了实现如此精细且细分的衡量,您可能需要总共 10 个实验 ID,其中 4 个必须在每个事件的事件实验 ID 数组中发送。
| 事件对照组的实验 ID | 测试(搜索商业)事件组的实验 ID | 用户事件的范围 |
|---|---|---|
| 控制 | Vertex AI Search 商务解决方案 | 所有活动 |
Control_mobile |
Google_mobile |
所有移动活动 |
Control_desktop |
Google_desktop |
所有桌面事件 |
Control_search |
Google_search |
所有搜索和相关事件 |
Control_recommendations |
Google_recommendations |
所有推荐和相关活动 |
如需衡量总体效果,请比较从具有实验 ID Control 和 Vertex AI Search for Commerce 的事件中得出的指标。如需衡量移动搜索效果,请比较从具有实验 ID Control_mobile + Control_search 的事件与具有实验 ID Google_mobile + Google_search 的事件中派生的指标。
类别层次结构
确保对照组和测试组中的相同产品具有相同的类别层次结构。举例来说,在对照组网站中,某款 T 恤产品的类别层次结构为 clothing > mens > tops > tee-shirts,而在测试组网站中,同一产品位于不同的类别层次结构下,即 mens > popular > tops。这种设置会导致对照组网站和实验组网站的搜索结果和类别属性有所不同。此问题会影响浏览器体验,因为 page_category 是浏览调用的输入,与过滤条件一起使用。
A/B 测试之前的用户体验对等性
在准备网站以进行 A/B 测试时,在将真实用户搜索或推荐流量提供给 Vertex AI Search 商务解决方案并正确映射实验 ID 之前,请务必注意商务网站(以旧版搜索后端作为对照组)与使用 Vertex AI Search 商务解决方案后端的网站之间的界面和体验对等性。
给定一个搜索查询,在控制搜索后端和 Vertex AI Search for commerce 后端的搜索结果页面之间,需要测试的一些方面包括:
显示的分面数量是否相同?如果不是,请查看 Vertex AI Search 商务解决方案中的分面规范和属性设置。这一点非常重要,因为分面有助于用户从初始搜索结果中过滤并找到所需产品。更好、更有意义的商品详情意味着用户可以更快地找到心仪的商品。否则,用户需要点击和滚动更多内容,这可能会影响搜索体验,最终影响转化率和点击率。这还可能会导致用户放弃搜索。因此,如果对照网站和测试网站具有相似的方面,则意味着用户在其中一个网站上搜索商品时,不会比在另一个网站上搜索商品时获得不公平的优势。
赞助商在搜索结果中植入产品是许多电子商务网站的常见做法,而且赞助商的产品大多不属于自然搜索结果。应注意确保对照组网站和测试组网站的搜索结果页中展示的位置和产品几乎相同(如果不是完全相同)。否则,收入效果指标的衡量结果中会添加噪声,并且根据对照组网站和测试组网站之间赞助商品的唯一性,噪声可能会偏高。
其他需要考虑的界面方面:
- 控制网站和测试网站的价格和折扣信息是否相同?
- 自动补全功能是否针对搜索查询建议相同的补全内容?
- 各个分面值是否按相同的顺序排列?
- 所列商品是否采用相同的样式,例如列表或网格?
最终提示和注意事项
如需设计有意义的 A/B 实验,请牢记以下提示:
在设置 A/B 实验之前,请使用预测或搜索预览来确保模型的行为符合预期。
请确保实验组网站和对照组网站的行为相同。
网站行为包括延迟时间、显示格式、文本格式、页面布局、图片质量、图片大小。在对照组和实验组的实验之间,上述任何特性应该没有明显的差异。
接受并显示从 Vertex AI Search for Commerce 返回的结果,并按照返回结果的顺序显示。
您可以过滤掉缺货的商品。但是,您应该避免根据业务规则过滤结果或对建议结果进行排序。
如果您使用的是搜索用户事件,并且在其中添加了必需的归因令牌,请确保这些事件设置正确。请参阅有关归因令牌的文档。
您在请求推荐或搜索结果时提供的投放配置应与此建议或搜索结果的意图以及显示结果的位置相匹配。
当您使用建议时,投放配置会影响模型的训练方式,从而推荐哪些产品。了解详情。
如果要将现有解决方案与 Vertex AI Search for Commerce 进行比较,请将对照组的体验与实验组的体验严格隔离。
如果控制解决方案未提供建议或搜索结果,请不要在控制页面中提供 Vertex AI Search for Commerce 中的建议或搜索结果。这样做会导致测试结果出现偏差。
确保用户不会在对照组和实验组之间切换。这在同一会话中尤为重要,但也建议在不同会话中保持一致。这有助于提高实验效果,并帮助您更快地获得具有统计显著性的 A/B 测试结果。