其他注意事项和测试

为了获得最佳实践并测试对话式商务代理界面,您必须考虑其他事项。

实施最佳实践

在实现对话式商务代理界面时,请考虑以下最佳实践:

  • 访问者 ID 一致性:有助于确保为给定最终用户的每个请求始终发送唯一的 visitor_id。这对于准确的个性化和模型训练至关重要。理想情况下,此标识符应在最终用户的不同会话以及登录或退出状态下保持一致。
  • 分支管理:虽然 default_branch 很常见,但如果您的产品目录包含多个分支,请确保您使用的是正确的分支 ID。
  • 搜索 API 互动:对于 SIMPLE_PRODUCT_SEARCH 和提供 refined_search 的任何情况,请务必使用 refined_search 字段中的 query 或原始查询单独调用核心搜索 API (SearchService.Search),以获取实际的产品详情。对话型 API 主要侧重于对话体验和用户意图理解,而不是直接返回商品结果。
  • 界面设计:设计您的网页界面,以直观的方式清晰呈现 conversational_text_responsefollowup_questionrefined_search 选项,引导用户操作。

规划 A/B 测试

虽然相关性是一项重要的输入指标,但 Vertex AI Search for Commerce 还会考虑其他变量,以实现业务成效优化:

指标
每次访问带来的收入 (RPV) 每次访问带来的收入是衡量搜索效果最有效的指标,因为它会同时考虑转化率、平均订单价值和相关性。
转化 - 平均订单价值 (AOV) 转化率和 AOV 都会影响 RPV。
相关性 - 可购买性 - 价格 相关性是用于生成效果出色的搜索结果的输入之一。

A/B 测试准备情况核对清单

以下是所用的成效指标:

定义 阶段
活动归因方案 与 Google 合作,正确细分用户事件以进行衡量。 实验前
监控数据输入 能够快速了解训练数据何时包含可能会影响性能的异常情况。 实验前
活动覆盖面 我们是否在检测与搜索或 Recommendations AI 会话相关的所有可能结果? 实验前
可衡量的成功标准 以可衡量的术语记录完成标准的定义。 实验前
能够衡量用户体验偏差 确保各实验组的用户体验保持一致。 实验期间
VAIS 数据与消费之间的一致性 验证是否正在从 API 向 UserEvents 传递提供方信息令牌、过滤器、排序依据、偏移量等。事件和 API 请求之间的访问者/用户 ID 匹配。 实验期间
在实验期间进行调整的审批 规划调整活动、记录更改,并相应地调整衡量指标和解读。 实验期间

实现概念验证或最简可行产品

数据注入 A/B 测试设计 性能指标 治理和流程

最新且完整的商品清单提取

遵循建议的事件提取方法,以确保 Google 与您之间的数据同步。
Google 建议进行实时事件跟踪,包括展示数据。

传递必要的属性,例如实验 ID、访问者 ID,并在适用情况下正确实现搜索令牌。

采用实验最佳实践,确保获得可靠的结果:
  • 验证集成。
  • 每次只能测试一项更改。
  • 避免激进的缓存。
  • 确保测试组和对照组之间的网页界面公平性。
  • 使用访问者 ID 进行流量拆分,确保流量公平性。
  • 确保商品数据一致。
  • 在测试组和对照组中应用相同的业务规则。
所有评估标准都应是实证性的、可客观衡量的,并且由指标驱动。

就所跟踪指标的确切定义达成一致意见,对于准确衡量效果至关重要。

跟踪的标准指标包括:
  • 搜索网络点击率(搜索结果相关性)
  • 零搜索率(意图理解)
  • 每位访问者带来的收入 / 每位用户带来的收入
  • 要转换的搜索次数
数据集成、测试、功能发布和优化将是一个迭代过程,需要资源。

实验节奏示例

满足最低可行性产品依赖项 校准衡量 部署生产深色模式 通过/不通过决定
  • 合同
  • 训练后的模型和服务配置
  • 商品和活动数据注入
  • 将(客户端)数据与 Commerce 搜索遥测数据进行比较,并进行相应调整
  • 统一衡量基准
  • 执行离线评估
  • 调整配置
  • 用于验证流量分配的 A/A 测试
  • 获得质量检查批准
  • 承诺在斜坡上前进

A/B 实验节奏示例

持续性测试 逐步增加到 X% 的流量 衡量、调整和重复 逐步增加到 X% 的实时流量
  • 继续调优/优化
  • 测试增量功能
  • 分析各个搜索细分的效果
  • 进行任何模型/规则调整
  • 交叉检查效果
  • 识别并说明异常情况
  • 启动实验
  • 每天分享效果指标
  • 执行调优

成功实验的组成部分

校准衡量结果并确定成功标准 保持实验的公平性 监控数据质量
  • 在正式发布之前,请安排时间验证目录、用户事件和 API 使用情况的一致性。
  • 预先确定可量化的成功标准(最好以 RPV 的变化来表示)。
  • 主动识别并说明回归或异常情况,然后进行修正。
  • 经常分享衡量结果,了解并记录各实验组的指标定义。
  • 尽量缩小各细分之间的用户体验差异(布局和视觉效果相同,只是数据不同)。
  • 请注意商品推介 / 业务规则(确保它们不会引入偏差)。
  • 衡量目录漂移。
  • 正确注释实验结果(通过用户事件)。

角色和实验所有权

Google
质量评估 Commerce Search 效果 用户体验影响
衡量结果 备份/验证 权威
遥测/数据 平台容量指标(验证效果)
事件和指数异常
归因令牌和重现步骤(验证问题)
搜索平台 商品级项目
  • 数据映射
  • 模型/训练调整
  • 质量/投放异常情况
  • 平台配额/限制
  • 产品/客户端库缺陷
查询/投放商品
  • 请求增强(包括上下文路由、缓存和意向处理)
  • 服务配置(调参)
  • 源数据丰富化
  • 客户端性能(例如,WC 线程)
  • 用户体验/API/平台/库缺陷
继续/不继续 推荐 批准

在控制台中开展实验

  1. 前往 Search for commerce 控制台中的实验页面。

    前往“实验”页面

  2. 使用控制台,通过应用 Google 的归因方法,针对 Vertex AI Search for Commerce 的初始配置和 A/B 测试进行高级自助分析:

  • 监控流量细分、业务指标以及搜索和浏览效果。

  • 在关键字搜索和浏览中应用每次搜索访问的指标。

  • 以时间序列形式查看实验效果,其中包含统计显著性指标。

  • 使用嵌入式 Looker 平台。