适当的数据归因、一致的用户身份识别和准确的事件跟踪可实现可靠的结果和最佳模型效果。问题可能会导致指标出现偏差、比较结果有偏见,以及训练数据损坏。此类结果会妨碍用户做出明智的决策,也不利于改进搜索。
准备工作
请参阅有关开展 A/B 实验的一般指南。
测试组件
初始 A/B 检查包含以下测试组件:
访问者 ID:无论登录状态如何,都必须提供此 ID 才能跟踪设备上的访问者。无论访问者登录还是退出,此标识符都不应发生变化。如果用户在用户历程之间登录,则访问者 ID 保持不变。
会话 ID:用于跟踪访问者的互动会话。指一段时间内的用户行为汇总,通常在用户处于不活动状态 30 分钟后结束。
用户 ID:强烈建议使用,已登录用户的持久性标识符(例如客户 ID),可在不同设备上用于个性化。它应始终是哈希值。
提供方信息令牌:在每次搜索响应中返回的哈希令牌。无论搜索查询参数是否完全匹配,归因令牌都是唯一的。
说明
此检查涉及验证 A/B 实验中对照组和测试组之间的唯一身份访问者 ID 数量是否随机分配。
访问者 ID 是指用户在单个设备上的唯一标识符。
影响
从历史上看,访问者 ID 的不公平拆分可能会导致 A/B 测试中的衡量误差。
如果某个实验组包含的某些类型的访问者(例如发送大量探测流量的机器人访问者)数量过多,则可能会对该组的指标产生负面影响。这会使关键绩效指标比较出现偏差,并严重影响衡量结果,但不会直接影响模型训练。
说明
此检查可确保唯一身份用户 ID(代表已登录的用户)的数量在对照组和测试组之间均匀分布。用户 ID 应在不同设备上保持一致。
影响
影响与访问者 ID 类似。如果未在测试轨道和对照轨道之间随机分配已登录的用户,可能会导致人口统计信息分布出现偏差。
例如,如果实验组主要包含新用户,而高支出用户仍留在对照组中,那么指标会人为地偏向一方。
这会影响衡量和关键绩效指标 (KPI) 比较。
说明
此检查专门针对交易次数较多或重复购买的用户(通常通过其访问者 ID 和购买记录来识别)在各个实验组中的分布情况。
目的是确保这些高支出用户均匀分布。
影响
- 如果对收入贡献巨大的超级用户分布不均,可能会严重扭曲实验组之间的 KPI 比较结果。
- 根据支出习惯等人口统计信息调试偏差可能很复杂。
- 这会严重影响基于收入的指标,例如每次访问收入 (RPV) 或每次会话收入。
- 强调在 A/B 测试期间对衡量准确性的影响。
说明
此检查用于验证搜索响应中返回的归因令牌是否正确包含在相应搜索产生的搜索事件中。
Vertex AI Search for commerce 需要使用归因令牌将事件关联回生成这些事件的搜索:
- 这通常与 Vertex AI Search 投放的流量相关。
- 此问题还表明可能存在搜索响应缓存,这会导致库存过时和排名过时,从而降低搜索性能和用户体验。
影响
使用令牌进行适当的归因对于将用户行为(包括点击和购买)与特定的搜索 API 调用相关联至关重要。如果没有令牌,搜索事件可能会被错误地用作来自其他搜索提供商的事件,并且后续事件无法准确地与搜索相关联。
不准确或缺失的归因令牌会扰乱模型训练,因为该令牌用于关联事件数据(例如搜索后发生的购买),以生成正例和反例来训练排名模型。它还会妨碍准确计算每次搜索的收入等每次搜索指标,而这些指标对于在 A/B 实验期间评估效果至关重要。
这会影响模型训练、衡量和性能分析。
说明
此检查可确保在对 Search API 的搜索请求调用中使用的访问者 ID 和用户 ID 与后续搜索用户事件(如果可能,还包括与该搜索互动相关的详情页浏览、添加到购物车和购买完成事件)中包含的访问者 ID 和用户 ID 相同。
visitorId和userId字段分别是单个设备上用户的唯一标识符。- 为了让搜索功能正确识别用户活动,您必须确保搜索请求和用户事件中的访问者 ID 和用户 ID 格式一致。
- 调试方法可能包括使用访问者 ID 和用户 ID 来跟踪互动。
影响
不一致表示可能存在问题,例如缺少事件或数据损坏。
访问者 ID 和用户 ID 对于 Retail Search 模型训练至关重要,尤其是对于个性化功能。准确的购买交易归因依赖于访问者 ID 和用户 ID 的一致使用。
Vertex AI Search for Commerce 使用访问者 ID 将用户看到的搜索结果与同一访问者 ID 稍后是否购买了显示的商品相关联。它用于关联搜索到点击、添加到购物车或购买数据,以生成正例和负例来训练排名模型。
如果访问者 ID 不匹配,则会导致中断,购买事件无法归因于之前的搜索或详情页面浏览,从而导致看起来好像没有搜索后续的购买。这不仅会中断模型训练,还会导致难以计算每次搜索收入等每次搜索指标。另一个挑战在于准确计算关键绩效指标 (KPI),例如每位访问者的收入、转化率和平均订单价值,这些指标依赖于将用户事件与搜索准确关联。因此,此检查会同时影响模型训练和效果衡量。
说明
此检查会将针对特定实验渠道(尤其是 Google 渠道)向 Search API 发出的搜索请求量与针对同一渠道记录的搜索用户事件量进行比较。
预期收集的搜索事件数量应与发出的搜索 API 调用次数大致相当。
影响
- 如果存在显著的不一致,则表明用户事件未被正确收集或发送到 Google。
- 这可能是由事件提取问题(事件缺失或不完整)或用户事件的实验 ID 代码植入不正确所致。
- 正确收集用户事件至关重要,因为事件中捕获的用户互动可为模型提供必要的反馈,以优化结果。
- 如果缺少事件,模型可用于训练的数据就会减少,这可能会对模型性能产生负面影响。
- 用于评估 A/B 测试的指标(例如点击率、转化率、收入指标)的准确性和可靠性完全取决于用户事件数据的完整性和正确性。
- 缺少事件意味着无法准确计算这些指标,从而导致效果分析出现偏差,A/B 测试结果不可靠。
- API 调用和事件之间的查询次数不一致会影响模型训练和效果衡量。
说明
此检查会验证,当用户对搜索结果应用过滤条件(反映在搜索请求中)时,通过归因令牌关联的相应搜索用户事件是否也包含正确的过滤条件信息。
此检查包括验证特定令牌关联对的一致性,以及验证事件中存在的过滤数据与 API 调用相比的总体一致性。
影响
- 必须在搜索事件中添加过滤条件语句,才能使用动态分面。
- Retail Search 模型会根据搜索请求中存在的过滤条件推断出分面的热门程度,这对于实现最佳动态分面效果至关重要。
- 如果用户事件中缺少或包含不正确的过滤条件数据,模型从涉及过滤条件的用户互动中学习的能力就会受到影响。
- 这会直接影响动态分面等功能的训练和效果。
- 此检查还有助于调试与搜索结果、对话式搜索和动态商品详情相关的问题。
- 虽然主要影响是针对动态多面搜索和相关功能的模型训练,但也会影响准确调试和衡量这些特定功能性能的能力。
- 影响与动态方面相关的模型训练,对于调试和分析(衡量)依赖于过滤数据的功能的性能非常重要。
说明
- 此检查用于验证向 Search API 发出的搜索请求中包含的分页参数(偏移量)和排序条件(排序依据)是否在相应的搜索用户事件中正确表示。
- 这些事件通常使用归因令牌与原始请求相关联。
- 此检查可确保特定令牌关联的互动和事件中发送的总体数据保持一致。
- 保持事件数据的一致性对于调试涉及分页或排序的用户历程以及对话式搜索和动态构面等功能非常重要。
影响
- 不一致会妨碍您准确分析用户在特定分页或排序条件下与搜索结果的互动情况。
- 这会影响这些功能的调试工作,并难以准确评估其性能(影响对话式搜索或动态分面等功能的性能衡量)。
- 一致的事件数据是模型训练的基础,不一致可能会间接影响在不同展示条件下从用户行为分析中获得的洞见。
- 请求参数和事件值的一致性对于基于点击的重新排名模型的性能至关重要。
- 这主要会影响特定功能的调试和衡量,在一定程度上还会影响与了解用户与分页或排序结果的互动相关的模型训练效果。
说明
- 此检查可确保在整个 A/B 测试期间,分配给单个实验组或通道(即对照组或测试组)的唯一访问者 ID(用于未登录的用户)保持不变。
- 除非有流量升温或明确的重新分配等计划变更,否则预计访问者分配会保持一致。
- 检测到切换意味着,由其访问者 ID 标识的单个用户意外地在实验组之间移动。
- 这可能是由多种问题造成的,例如事件发送不当、事件中的实验 ID 代码植入不正确、前端实现问题或搜索流量路由配置错误。
影响
- 为了确保 A/B 测试的公平性,必须确保网站访问者分配的一致性。
- 如果网站访问者切换了轨道,系统可能会在不同的实验 ID 下记录其用户事件(点击、添加到购物车、购买),从而无法准确地将他们的总体行为归因于单一体验。这会损坏用于计算每个泳道的关键绩效指标 (KPI) 的数据,导致衡量结果出现偏差且不可靠。
- 零售搜索模型训练(尤其是个性化)在很大程度上依赖于一致的
visitorId和userId字段,以便关联用户随时间推移发生的互动,并将购买归因于之前的搜索事件。 - 访问者 ID 切换会中断此关联,导致模型无法在一致的搜索体验中有效地从用户历程中学习。这会严重影响衡量和模型训练。
说明
- 此检查专门针对以下情况:搜索用户事件带有属于对照组或留出流量的实验 ID,但意外包含 Google 生成的归因令牌。
- 归因令牌由 Retail Search API 返回,旨在包含在后续用户事件中,以用于 Google 投放的流量。
- 控制流量使用现有的搜索引擎,不应接收或发送 Google 提供方信息令牌。
- 此问题与实验 ID 切换检查有关,因为它意味着事件被错误地标记或路由。
- 此问题可能表明存在搜索响应缓存,这会导致库存过时和排名过时,从而降低搜索性能和用户体验。
影响
- 控制组事件中存在 Google 归因令牌会导致归因被错误标记。
- 这意味着,体验了对照组(非 Google)搜索的用户所产生的事件会被错误地与 Google 实验组相关联。
- 这会直接导致 Google 组的指标计算出现偏差,因为其中包含对照组的数据,从而扭曲感知到的效果并使衡量结果无效。
- 从模型训练的角度来看,模型会使用已归因的用户事件来了解用户与搜索结果的互动情况。
- 如果将对照组中错误归因的事件纳入训练集,就会在其中引入无关或冲突的数据,从而可能导致模型性能下降。
- 此检查会影响衡量和模型训练。
说明
- 此检查侧重于对 Retail Search API 本身的传入搜索请求调用。
- 它会查找源自指定为对照组或留出流量的访问者 ID 或实验 ID 的请求。
- 这表示,本应流向对照组或留出组的流量被错误地定向到了 Google 实验通道的 API 端点。
- 此问题与访问者 ID 切换检查非常相似,但从 API 请求端(而不仅仅是用户事件端)观察到。
影响
- 此发现表明 A/B 测试的流量拆分和路由机制存在根本性配置错误。
- 如果控制流量发送到 Google API,实验组将无法正确隔离。
- 这会使 A/B 测试设置失效,并影响比较的公平性。
- 这会直接影响衡量效果,因为 Google 泳道中的流量量和构成因包含非预期用户而虚增,导致指标计算和分析不准确。
- 对于模型训练,虽然 API 日志本身不是主要的训练数据,但如果此错误路由的流量生成的后续用户事件也被错误地归因,则会在训练数据中引入噪声和可能不正确的信号。
- 此问题会影响衡量和模型训练。
说明
- 此检查会验证为用户(通过其访问者 ID 或用户 ID 识别)记录的购买完成用户事件是否已标记正确的
experimentIds,该experimentIds与用户分配到的 A/B 测试通道(例如对照组或实验组)相对应。 - 它会检测以下情况:用户的购买事件与实验通道相关联,但该通道并非用户在执行相关搜索操作(最终促成购买)时所处的通道。
- 此问题与保持将访问者一致地分配到实验组密切相关,并且依赖于在 purchase-complete 事件中包含 experimentId。
影响
- 将访问者始终如一地分配到实验组对于进行准确的 A/B 测试至关重要。
- 如果购买完成事件被错误地标记为错误的实验 ID,则会错误地归因于该轨道。
- 这会直接影响依赖于各渠道购买数据的指标,例如收入率、采购订单率、平均订单价值和转化率。
- 错误的归因会导致无法准确比较不同实验组的效果,从而导致 A/B 测试衡量结果无效且不可靠。
- 从模型训练的角度来看,零售搜索模型(尤其是那些旨在优化收入或转化率的模型)通过将用户互动(例如搜索)与后续购买行为相关联来进行训练,以了解哪些搜索结果会促成转化。
- 适当的归因(通常使用访问者 ID、用户 ID 和实验 ID 将购买事件与搜索关联起来)对于创建这些正向训练示例至关重要。
- 如果由于 ID 不一致或实验轨道切换而错误地归因购买事件,则训练数据会因信号不正确而损坏。
- 如果购买事件中发送了实验 ID,则有效:如上所述,只有在正确实现
experimentIds并在购买完成的用户事件中发送这些 ID 时,此检查才有效且有意义。
说明
- 与购买事件检查类似,此检查会验证指定访问者的“添加到购物车”用户事件是否使用实验 ID 字段正确关联到用户分配的实验轨道。
- 用于识别以下情况:用户未分配到某个渠道,但添加到购物车事件却标记了该渠道的实验 ID。
- 此问题可能是由于不同事件类型中使用的访问者 ID 不一致或
experimentIds代码植入不正确所致。
影响
- 如果将“添加到购物车”事件错误地标记为实验通道,会导致此用户行为的归因不正确。
- 这会直接影响“添加到购物车”率和转化率等指标,尤其是在“添加到购物车”被视为转化漏斗中的重要一步时。
- 不准确的指标会影响 A/B 测试结果的可靠性,并导致无法正确衡量实验的影响。
- 从模型训练的角度来看,“添加到购物车”事件是重要的正信号,模型(尤其是以收入为优化目标的模型)会从中学习。
- 如果由于 ID 或
experimentIds标记不一致,导致这些事件被错误地归因于错误的实验轨道,模型就会收到嘈杂或不正确的训练信号。 - 如果购物车中添加了实验 ID,则有效:如上所述,只有在正确实现
experimentIds并将其发送到“添加到购物车”用户事件中时,此检查才有效且有意义。
说明
- 此检查会评估按设备类型(例如移动设备、桌面设备、应用)分类的用户活动分布在每个用户事件类型(搜索、详情页面浏览、加入购物车、购买)的控制组和实验组之间是否均衡。
- 其目的是确保对照组和实验组中通过移动设备与网站互动的用户比例大致相同,其他设备类型也是如此。
- 检测到明显偏差表明,用于根据设备类型拆分流量或路由事件的机制可能存在问题。
影响
设备分布不均衡是指对照组和测试组在所用设备方面的人口统计学平衡性不佳,类似于人口统计学分组问题。
用户行为、浏览模式和转化率可能会因所用设备而异。因此,如果实验组之间的设备分配不平衡,就会在 A/B 测试比较中引入偏差,导致无法准确衡量每个组的关键业务指标。这也是因为,一个组的结果可能会受到特定设备类型用户比例过高或过低的影响,从而难以确定实验的真实影响。
虽然设备类型并不总是所有模型中的直接特征,但确保流量均衡有助于确保训练数据(源自每个渠道中的用户事件)准确反映用户行为在不同设备上的真实分布情况。不平衡可能会间接导致训练数据过度或不足地表示来自某些设备的用户行为,从而可能导致模型无法针对整个用户群进行最佳调整。
事件是跟踪 KPI 和进行常规问题排查的基础。
说明
- 此检查会比较控制组和实验组中类似搜索查询的搜索用户事件中包含的过滤条件数据。
- 它会验证过滤信息是否被正确、一致地捕获,以及各通道之间是否具有对等性。
- 这包括检查向用户显示的可用过滤选项(分面)是否相同或等效,事件中发送的过滤值是否与预期格式或目录数据匹配,以及过滤的界面/用户体验是否相当。
- 如果未捕获过滤条件、捕获的过滤条件不正确,或者过滤界面/选项不同,则可能会出现差异,而这通常可以追溯到目录或搜索 API 中的配置问题。
影响
- 实验轨道之间过滤体验或过滤数据捕获方式的差异会直接影响用户与搜索结果的互动方式。
- 如果某个轨道提供更好或不同的过滤选项,该轨道中的用户可能会以不同的方式优化搜索,从而导致用户行为发生变化,并可能影响过滤后搜索的转化率等指标。
- 这会给 A/B 测试带来变量偏差,使得仅将观察到的指标差异归因于核心搜索排名差异变得困难。
- 事件中缺少捕获的过滤条件数据也会限制按过滤条件使用情况细分来分析效果指标的能力,从而影响衡量分析洞见。
- 对于模型训练,搜索事件中的过滤条件信息对于训练动态分面模型至关重要,因为模型会从用户过滤条件使用情况信号中了解分面热门程度。
- 事件中准确的过滤条件使用情况信息对于基于点击的重新排名模型也很重要;如果事件中的过滤条件值与搜索请求中的过滤条件值不匹配,则模型在处理带有过滤条件的查询时的性能会受到负面影响。
- 事件中过滤条件数据不一致或缺失会降低与动态方面和重新排名(针对过滤后的查询)相关的模型质量。
说明
- 此检查涉及使用
attributionToken将搜索事件与其对应的 Search API 请求相关联,从而检查特定的搜索用户操作流程。 - 归因令牌由 Vertex AI Search for Commerce 生成,并随每次搜索请求返回。
- 此检查会专门将搜索事件中的
searchQuery字段与返回归因令牌的初始 Search API 请求中发送的实际查询字符串进行比较。 - 如果存在关联归因令牌,但这些查询字符串不匹配,则表明用户事件中发送的 searchQuery 未能准确反映用户的原始搜索查询。
影响
- 此问题严重影响模型训练。
- Vertex AI Search 商务解决方案使用事件数据来训练模型。
- 模型(尤其是基于点击的重新排名模型)通过将用户互动(例如点击、添加到购物车和购买)与生成结果的搜索请求相关联来进行学习。
- 这种关联依赖于事件中的准确信息,包括
searchQuery和attributionToken字段。 - 如果事件中的
searchQuery与 Search API 请求中的实际查询不匹配,模型就会基于错误的数据进行训练,将用户行为与错误的查询相关联。 - 这可能会对搜索结果质量产生严重的负面影响,因为模型会根据有缺陷的搜索查询数据学习次优的排名策略。
- 虽然主要影响是模型训练质量,但这也可能会间接影响衡量,因为使用不良数据训练的模型性能可能较差,即使事件被正常捕获,也可能会导致 A/B 测试结果出现偏差。
说明
- 此检查是一个手动验证流程,测试人员会模拟典型的用户历程,其中涉及一系列操作,例如搜索、点击商品(
detail-page-view事件)、添加到购物车,以及可能进行的购买。 - 通过记录这些操作的访问者 ID 和时间戳,测试人员随后会从日志或数据平台检索该特定访问者 ID 的已记录用户事件。
- 目标是验证用户观察到的操作与系统中记录的事件之间是否一一对应(例如,搜索操作应生成搜索事件、点击事件或
detail-page-view事件)。 - 如果出现以下情况,则表明事件管道存在问题:事件缺失、事件的访问者 ID 不正确,或者事件内的数据损坏(例如缺少商品 ID 或实验 ID)。
影响
- 此检查发现的问题会严重影响衡量和模型训练。
衡量
- 准确且完整的用户事件对于计算 A/B 测试中的关键业务指标(例如搜索点击率、搜索转化率、搜索添加购物车率和每位访问者的收入)至关重要。
- 这些指标依赖于将用户行为(点击、添加到购物车、购买)归因于特定搜索结果和实验通道。
- 如果用户的事件缺失或损坏,则系统无法完全捕获其操作,从而导致其所在实验组的这些指标计算不正确。
- 这会引入偏差和噪声,导致 A/B 测试结果不准确且不可靠,无法用于制定决策。例如,缺少购买事件会直接影响转化率和收入升幅指标。
模型训练
- Vertex AI Search for Commerce 模型会根据用户事件数据进行广泛的训练,以了解用户行为模式并优化排名。
- 访问者 ID 和用户 ID 对于个性化功能以及关联事件以创建训练示例至关重要。
- 如果事件缺失或损坏,意味着模型会丢失相应用户互动序列中的宝贵训练信号。例如,如果缺少购买或添加到购物车事件,模型就无法了解哪些产品互动促成了转化。
- 同样,如果缺少详情页面浏览事件,意味着模型无法获得有关点击的信号。训练数据的数量和质量下降会降低模型有效学习的能力,从而导致搜索结果质量不佳,并可能抵消使用基于机器学习的搜索引擎的优势。
- 不一致的访问者 ID 映射或格式也可能会中断此过程。
- 缺少购买事件会影响模型训练,因为模型从未见过购买事件。