数据质量

本页面介绍了搜索用例、各自的性能层级,以及如何在 Gemini Enterprise for Customer Experience 控制台中查看 AI Commerce Search,以评估您的数据质量以及您已解锁的性能层级。 当您满足所有升级阻止性数据要求时,系统会自动激活每个效果层级。您还必须满足所有之前层级的要求,才能升级到下一层级。

搜索用例

搜索功能可提供以下两种使用情形的搜索结果:

  • 文本查询搜索:购物者通过输入文本查询在您的应用中查找商品,并获得一组相关结果。
  • 浏览搜索:当买家进入特定类别页面(例如家居装饰零售网站的“电器”类别网页)并浏览该类别中已排序的商品时,系统会使用此搜索类型。

如需详细了解这些应用场景之间的区别,请参阅关于文本搜索和浏览搜索

解锁搜索广告效果等级

文本查询搜索和浏览搜索具有不同的性能层级,可不断改进搜索结果。解锁效果层级取决于您上传到 AI Commerce Search 的用户事件和目录数据。

以下性能层级适用于文本查询搜索和浏览这两种使用情形:

一级

相关性

系统会根据结果与查询的相关程度返回结果,例如,在查询黑色连衣裙时,结果会显示连衣裙的黑色程度。

最低数据量要求

  • 目录
  • 文本查询

数据检查

  • 商品应有说明。
  • 至少 95% 的搜索请求应启用查询扩展。
  • detail-page-view 事件与搜索事件的比率应至少为 4%。
  • 商品应具有唯一的标题,以便在搜索查询中区分。
  • 商品标题应至少包含 2 个字词。
  • 至少 95% 的商品应有商品名。
  • 商品应具有有效且可访问的 URI。
  • 目录中应至少有 5 个可搜索的自定义属性。
  • 所有商品的完全匹配字段不应包含任何实词,并且应仅包含一个令牌。

第 2 级

相关性和热门程度

  • 针对查询搜索中最热门的商品优化了第 1 级。
  • 相关性相同的商品会按商品在您网站上的受欢迎程度进行排名。

数据检查

升级阻塞以解锁层级 2

  • 在过去 90 天内,必须已导入或记录至少 10 万个文本搜索和浏览事件。

性能关键型

  • 过去 90 天内,至少 95% 的事件应与商品相关联。
  • 过去 7 天内至少有 1.5% 的搜索事件包含后续网页,也就是说,它们包含所有相关的搜索结果网页及其商品展示。
  • 过去 7 天内,至少 95% 的搜索事件应与商品展示相关联。
  • 在过去 90 天内,detail-page-viewadd-to-cartpurchase 事件至少各有 1 万次。
  • 过去 90 天内至少有 70% 的搜索请求应具有关联的事件。
  • 过去 90 天内至少有 95% 的搜索事件具有归因令牌。
  • 过去 7 天内,与最热门的访问者 ID 关联的事件数量至少为 10 万个。

三级

以提高收入为目标进行优化

如需解锁收入优化功能,请对超过 25 万个搜索事件进行建模,这些事件至少包含一次用户互动。

数据检查

升级阻塞以解锁第 3 级

  • 95% 的商品必须有价格,收入优化功能才能正常运行。这要求主商品或其至少一个款式/规格有价格。当商品缺货时,请为商品添加 out-of-stock 属性,而不是清除价格。

  • 在过去 90 天内,必须有至少 25 万个搜索事件与用户互动相关联(即后面紧跟着一个 detail-page-viewadd-to-cartpurchase 事件,且该事件具有相同的访问者 ID 和搜索事件中包含的某项产品)。

  • 必须至少有 25 万个搜索用户事件包含紧随搜索事件发生的 detail-page-view 事件,才能达到阈值。如果您在过去 30 天内上传了超过 1 亿个事件,系统会计算此指标。否则,时间范围为 90 天。

  • 至少 100 件商品必须至少发生过一次可归因于搜索事件的detail-page-view事件。如果您在过去 30 天内上传了超过 1 亿个事件,系统会根据过去 30 天的数据计算此指标。否则,时间范围为 90 天。

性能关键型

  • 搜索事件应与查询(文本)或类别页面(浏览)相关联。不应存在这两个字段都为空的搜索事件。理想情况下,您应该有大量同时填充了这两个字段的搜索事件。

  • 搜索请求不应包含空查询。理想情况下,与搜索事件类似,搜索请求应同时填充查询(文本)和网页类别(浏览)。此指标的计算方式为:过去 60 天内所有搜索请求的百分比。

  • 每 1,000 个 detail-page-view 事件中,至少有 20 个应是过去 90 天内的 add-to-cart 事件,才能达到此阈值。

  • 每 1,000 个 add-to-cart 事件中,过去 90 天内至少应有 25 个 purchase 事件。

第 4 级

个性化收入

第 4 级在第 3 级的基础上增加了个性化功能。

数据检查

升级屏蔽功能以解锁第 4 级

  • 在过去 30 天内,必须通过 AI 商业搜索(而非旧版引擎)投放至少 10 万次 search 事件。

  • 绝不缓存个性化搜索结果。当具有不同访问者 ID 的多个搜索用户事件具有相同的归因令牌时,系统会检测到缓存。此指标是根据最近 10 万个包含 Vertex AI 令牌的搜索事件计算得出的。

  • 必须在各个事件和搜索请求中跟踪一致的 visitorId(对于已登录的用户,还必须跟踪一致的 userId)。在最近的 10 万个用户事件中,SearchRequests 与用户事件之间的访问者 ID 匹配率必须超过 10%。

性能关键型

  • 为了提高个性化质量,搜索 API 请求和搜索事件之间的匹配访问者 ID 应至少占 10%。

  • 至少 1% 的搜索事件应设置了用户 ID。

  • 至少 1% 的搜索请求应设置了用户 ID。

浏览

青铜级

随机结果的基本浏览

  • 符合过滤条件的任何搜索结果,按随机顺序显示。

最低数据量要求

  • 目录
  • 类别页面(浏览)查询

白银级

热门程度

  • 系统仅根据与类别的相关性返回结果。

数据检查

升级屏蔽以解锁白银级

  • 必须导入或记录过去 90 天内的至少 10 万个文本搜索或浏览事件。

性能关键型

  • 商品应具有有效且可访问的 URI。(建议:> 95.0%)

  • 至少 95% 的商品应有商品名。(建议:> 95.0%)

  • 商品标题应至少包含 2 个字词。(建议:> 80.0%)

  • 商品应有说明。(建议:> 90.0%)

  • 商品应具有唯一的标题,以便在搜索查询中区分。(建议:< 50.0%)

  • 至少 90% 的浏览请求应设置过滤条件和 page_category。此指标是根据过去 60 天的数据计算得出的。(建议:> 90.0%)

  • 导入或记录过去 90 天内的更多 detail-page-viewadd-to-cartpurchase 事件。(建议值:> 10000)

  • 浏览请求的结果很少可能是因为过滤条件过于严格。此指标是根据过去 60 天的数据计算得出的。(建议:< 10.0%)

  • 浏览请求中的商品数量过多可能表示您的请求过滤条件缺少类别限制。此指标是根据过去 60 天的数据计算得出的。(建议:< 10.0%)

  • 导入或记录过去 90 天内的更多 details-page-view 事件。(建议值:> 0.04)

GOLD

以优化收入为目标的排名

此层级会针对基于收入的目标优化浏览类别中的商品排名。

数据检查

升级屏蔽以解锁黄金计划

  • 搜索到的商品中至少有 95% 必须具有有效价格信息。需要为主要商品或其至少一个款式/规格设置价格。商品缺货时,请勿清除其价格。

  • 至少 25 万个浏览搜索用户事件,随后是 detail-page-viewadd-to-cartpurchase 事件,这些事件具有相同的访问者 ID,并且包含过去 90 天内搜索事件中包含的某项产品。

  • 在过去 90 天内,至少有 25 万个导入或记录的detail-page-view事件(发生在浏览事件之后)达到阈值。

  • 在过去 90 天内,至少有 100 个针对各种产品的已导入或已记录的 detail-page-view 事件。

性能关键型

  • 至少 95% 的浏览请求和事件应具有完全匹配的过滤条件值。此指标是根据过去 60 天的数据计算得出的。(建议:> 95.0%)

  • 至少 95% 的浏览请求和事件应具有完全匹配的 page_category 值。此指标是根据过去 60 天的数据计算得出的。(建议:> 95.0%)

  • 至少 95% 的浏览事件应具有归因令牌。此指标是根据过去 90 天的数据计算得出的。(建议:> 95.0%)

  • 至少 70% 的浏览请求应具有关联的用户事件。此指标是根据过去 60 天的数据计算得出的。(建议:> 70.0%)

  • 搜索事件的查询和网页类别不应同时为空。(建议:< 5.0%)

  • 搜索事件不应同时填充查询和网页类别。(建议:< 10.0%)

  • 浏览请求应填充页面类别。不含网页类别的浏览请求无法实现收入优化,因为我们不知道用户位于哪个网页上。此指标是根据过去 60 天的数据计算得出的。(建议:< 5.0%)

  • 搜索请求应填充查询或网页类别,但不能同时填充两者。此指标是根据过去 60 天的数据计算得出的。(建议:< 10.0%)

  • 每 1,000 个 add-to-cart 事件中,过去 90 天内至少应有 25 个 purchase 事件。(建议值:> 0.02)

  • 每 1,000 个 detail-page-view 事件中,过去 90 天内至少应有 20 个 add-to-cart 事件。(建议值:> 0.025)

白金

个性化收入优化型排名

此层级可在浏览的类别中提供个性化的商品排名,旨在根据各个用户的行为和偏好优化收入。

数据检查

升级屏蔽功能以解锁白金级

  • 在过去 90 天内,必须有至少 10 万个 AI 商业搜索浏览用户事件具有 Vertex AI 归因令牌。确保所有浏览展示都记录为事件,并包含归因令牌。

  • Vertex AI 提供的浏览结果中,至少有 99.0% 必须是非缓存结果。个性化结果不应缓存。当具有不同访问者 ID 的多个浏览用户事件具有相同的归因令牌时,系统会检测到缓存。此指标是根据最近 10 万个包含 Vertex AI 令牌的浏览事件计算得出的。

  • 浏览 API 请求与相应的浏览用户事件之间的访问者 ID 匹配率必须至少达到 10.0%。此指标是根据 Vertex AI 提供的 10 万个最新浏览事件计算得出的。

性能关键型

  • 导入或记录更多包含用户 ID 的用户事件,以提高个性化质量。此指标是根据过去 7 天的数据计算得出的。(建议:> 1.0%)

  • 为了提高个性化质量,搜索请求中的用户 ID 值应与相应搜索事件中的用户 ID 相匹配。此指标是根据过去 60 天的数据计算得出的。(建议:> 10.0%)

Gemini Enterprise for Customer Experience 控制台中的 AI Commerce Search 提供了一个页面,您可以在其中查看是否满足了每个层级的数据要求。

以下部分介绍了如何订阅数据质量提醒,以便在当前参数下,系统通知您数据属于哪个层级。这些提醒还可以作为指南,帮助您了解特定使用情形下的数据要求,以便最大限度地优化搜索结果。

检查数据质量

上传数据后,前往 Gemini Enterprise for Customer Experience 控制台中的 AI Commerce Search,查看您的应用场景中每个性能层级的数据检查指标。

  1. 前往 Gemini Enterprise for Customer Experience 控制台中的 AI Commerce Search 数据质量页面。

    前往“数据质量”页面

  2. 查看搜索用例的数据检查指标:

    • 对于文字搜索指标,请点击搜索标签页。
    • 如需查看浏览搜索指标,请点击浏览标签页。
  3. 查看页面顶部每个效果层级的得分卡,了解存在的问题。

    • 如果标签为“使用中”:您已解决相应等级的所有阻碍问题,并已解锁该等级。
    • 如果存在 0 个阻塞性问题:您已通过相应层级的数据检查。如果相应层级及其之前的所有层级都没有阻塞问题,则系统大约需要 24 小时来训练和准备模型,并激活新解锁的层级。
    • 如果存在任何阻碍性问题:请检查相应层级的指标,了解需要解决哪些数据问题才能解锁该层级。
  4. 查看每个性能层级的数据检查指标表格,了解可能会阻止层级升级或影响搜索效果的问题列表。

  5. 查看状态列,了解每个数据检查指标的优先级:

    • 阻碍升级:可识别出导致搜索功能无法将您的应用场景升级到下一性能层级的数据问题。如需解锁某个层级,需要通过相应性能层级(及其先前层级)的所有阻止升级的数据检查。
    • 性能严重:可识别出不会阻止升级但可能会对文本搜索或浏览搜索效果产生重大影响的数据问题。
    • 合规:表示已成功通过此数据检查。
    • 不可用:表示尚未完成不会阻碍升级的数据检查。这些指标的值显示为 N/A。导入数据后,最多可能需要 24 小时才能执行一些数据检查。
  6. 如需详细了解任何指标,请点击详情,以查看显示该指标的说明、数据检查时间戳和阈值的详细信息面板。

  7. 在指标的详细信息面板中查看阈值,了解满足该指标的数据检查要求并提升效果所需的值。并非所有阈值都适用于所有指标:

    • 阻塞阈值:必须满足的阈值,才能通过相应指标的数据检查。
    • 临界阈值:强烈建议达到的阈值。 未达到此阈值可能会对效果产生严重的负面影响。
    • 警告阈值:建议达到的阈值。未达到此阈值可能会对性能产生轻微影响。

如需导入更多数据以解决任何数据问题,请参阅公开文档中的导入历史用户事件导入目录信息

最佳做法

  • 在搜索请求和用户事件中,除了为已登录用户提供访问者 ID 之外,还应提供用户 ID。这样一来,Google 搜索便可根据用户在不同设备上的登录活动,为用户提供个性化的搜索结果。
  • 实时发送用户事件,而不是延迟批量上传。这有助于搜索功能根据用户在您网站上的近期活动提供个性化结果。
  • 上传所有用户事件。例如,不要仅提交可归因于搜索的事件。

针对收入优化程度较高的层级的特征选择

对于数据已达到较高效果层级的零售商,AI 商务搜索功能已升级,可解锁有助于优化收入的搜索功能。这些高级别零售商现在可以使用功能选择:

  • 浏览:白银级和黄金级
  • 对于搜索:层级 3 和 4

为何要升级排名?

大型 AI 商业搜索客户的商品清单中最多有 10,000 个自定义属性,而之前的排名模型只有 20 个静态商品特征(例如价格和平均评分),这些特征是所有客户共用的。这导致排名模型的产品数据非常不完整,并且无法针对不同的零售网域和使用情形(例如时尚、硬件或家居用品)自定义产品特征。

无法对自定义属性进行建模,导致一些用户将他们认为重要的属性放入静态(固定)产品特征中。不过,这需要手动操作,而且显然只适用于少量属性。

动态自定义功能选择

AI 商务搜索已升级其可优化收入的层级,以自动选择自定义属性。升级涉及将相关自定义属性纳入排名流程:

  • 遍历每个零售商的所有自定义属性,并选择最有用的属性添加到静态商品功能集中。
  • 显示每个零售商的所选属性。
  • 定期(每 30 天一次)重复执行特征选择流程。

总而言之,AI 商业搜索不仅让排名模型能够从多达 100 个或更多潜在的新功能中进行选择,还定期刷新每位客户的属性,以适应季节性促销活动和其他动态数据变化。

升级后的排名解决方案可提供更强大的搜索洞见,并利用定期更新的自定义属性来提高数据质量。

全面的产品知识

  • 特征选择:AI 商业搜索算法会为每个零售商选择最多 20 个最重要的自定义属性。
  • 优势:利用有关商品(例如促销代码和商品或款式规格)的更多信息,提高排名准确性。
  • 可见性:零售商可以查看所选的自定义属性,并确保这些属性得到维护且是最新的。
  • 自定义和学习:客户可以识别所选自定义属性中的模式,并添加其他相关属性,以进一步提升排名效果。

如何查看正在使用的属性

如果客户启用了较高层级,并且拥有足够的用户事件数据点,那么现在可以在控制台中看到新的自定义属性信息,这些信息会列在 Gemini Enterprise for Customer Experience 中的 AI Commerce Search 的数据质量页面中的文本搜索和/或浏览搜索标签页下。此处会显示 AI 商业搜索系统选择的自定义属性。

替代文本

如何处理自定义属性

  • 维护所选的属性,不要删除或弃用这些属性,因为这可能会影响模型。
  • 提高自动选择的属性的覆盖率,为更多商品填充这些字段
  • 检查自动选择自定义特性的趋势。如果您有其他类似属性,请将其添加到目录中。它们将成为功能搜索算法的选择对象。
  • 通过为数值属性分配数值而非字符串值,正确地对其进行注释。例如,提供数值 10.5,而不是文本(“10.5”)。

关闭个性化设置

如需关闭个性化设置,请将 ServingConfig.personalizationSpec 设置为 mode.DISABLED

数据质量提醒

如果信息中心内的某项指标值从满足条件变为不满足条件,系统就会触发数据质量提醒。系统会通过电子邮件发送提醒。

如果您想查看与 Cloud Monitoring 相关的提醒,请参阅设置提醒

查看数据质量

  1. 前往 Gemini Enterprise for Customer Experience 控制台中的 AI Commerce Search 数据质量页面。

    前往“数据质量”页面

  2. 查看行、指标和提醒:一行对应一个指标,一个指标对应一个提醒。

设置数据质量提醒

REST

调用 UpdateAlertConfig API。

curl -X PATCH -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" -H "X-GFE-SSL: yes" -H "X-Goog-User-Project: PROJECT_ID" \
 "https://retail.googleapis.com/v2alpha/projects/PROJECT_ID/alertConfig" \
--data '
{
  "alertPolicies": [
    {
      "alertGroup": "search-data-quality",
      "enrollStatus": "ENROLLED",
      "recipients": [
        {
          "emailAddress": "EMAIL_ADDRESS_1"
        },
        {
          "emailAddress": "EMAIL_ADDRESS_2"
        }
      ]
    }
  ]
}'

替换以下内容:

  • PROJECT_ID:您的 Google Cloud 项目的 ID。
  • EMAIL_ADDRESS_1EMAIL_ADDRESS_2:您要注册接收提醒的电子邮件地址。它们应符合 SMTP 标准。一个提醒政策最多可添加 20 个电子邮件地址。

控制台

  1. 前往 Gemini Enterprise for Customer Experience 控制台中的 AI Commerce Search 数据质量页面。

    前往“数据质量”页面

  2. 点击顶部的 Configure alerts(配置提醒)。

  3. 请至少添加一个电子邮件地址。电子邮件地址应符合 SMTP(简单邮件传输协议)的要求。您最多可以向一个提醒政策添加 20 个电子邮件地址。

  4. 点击提交

停用数据质量提醒

REST

调用 UpdateAlertConfig API。

curl -X PATCH -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" -H "X-GFE-SSL: yes" -H "X-Goog-User-Project: PROJECT_ID" \
 "https://retail.googleapis.com/v2alpha/projects/PROJECT_ID/alertConfig" \
--data '
{
  "alertPolicies": [
    {
      "alertGroup": "search-data-quality",
      "enrollStatus": "DECLINED",
      "recipients": [
      ]
    }
  ]
}'

替换以下内容:

  • PROJECT_ID:您的 Google Cloud 项目的 ID。

控制台

  1. 前往 Gemini Enterprise for Customer Experience 控制台中的 AI Commerce Search 数据质量页面。

    前往“数据质量”页面

  2. 点击 配置提醒

  3. 删除所有现有电子邮件。

  4. 点击提交

问题排查

下面介绍了如何解决以下常见问题。

数据检查未通过

如果某项数据检查未通过,请在数据质量页面上点击相应指标的详情,查看该指标的更详细说明以及满足相应数据检查的阈值。

如果您已满足数据要求,请查看时间戳部分,了解相应指标上次计算的时间。如果您最近重新设置了格式或提取了大量数据,系统可能需要几个小时才能重新计算该指标。

如果您未达到数据要求,可能需要重新设置数据格式或收集更多数据,才能满足数据检查要求。确保数据达到指标阈值后,重新导入格式化数据或导入其他数据,然后等待系统重新计算指标。

标记为“不适用”的指标值

如果未上传任何数据,或者尚未计算指标,指标值会显示为“不适用”。导入数据后,最多可能需要 24 小时才能执行一些数据检查。

性能层级没有阻塞性问题,但未被使用

如需进行问题排查,请按以下步骤操作:

  1. 检查之前的层级是否存在任何阻碍性数据问题。您需要满足所有先前层级的要求,才能升级到下一层级。

  2. 等待 24 小时。在所有阻止升级的数据检查都通过后,系统大约需要 24 小时来训练和准备模型,并激活新解锁的层级。

如果在通过所有升级阻塞性数据检查后的两天内,性能层未标记为使用中,请与 AI Commerce Search 支持团队联系,并提供您的项目编号和项目 ID 以获取帮助。

其他数据要求信息

如需详细了解 AI Commerce Search 数据要求,请参阅以下文档:

后续步骤