A/B テストの実施に関する一般的なガイダンス

このページでは、AI Commerce Search がビジネスに与える影響を理解するために、A/B テストを使用する方法について説明します。

概要

A/B テストは、テストグループとコントロール グループという 2 つのグループを使用した無作為抽出テストです。テストグループは、別の処理(この場合は AI Commerce Search からの予測または検索結果)を受け取ります。対照群はこの処理を受け取りません。

A/B テストを実施する場合は、ユーザー イベントの記録時にユーザーがどのグループに属しているかに関する情報を含めます。この情報は、モデルを絞り込み、指標を提供するために使用されます。

アプリケーションの両方のバージョンが同じである必要がありますが、テストグループのユーザーには AI Commerce Search で生成された結果が表示され、対照群は表示されません。両方のグループのユーザー イベントを記録してください。

トラフィック分割の詳細については、App Engine ドキュメントのトラフィックの分割をご覧ください。

テスト プラットフォーム

VWOAB Tasty などのサードパーティのテスト プラットフォームを使用してテストを設定します。コントロール グループとテストグループはそれぞれ、そのプラットフォームから固有のテスト ID を取得します。ユーザー イベントを記録する際は、experimentIds フィールドにテスト ID を含めて、ユーザーが所属するグループを指定します。テスト ID を指定すると、コントロール グループとテストグループで確認されたアプリケーションのバージョンの指標を比較できます。

A/B テストのベスト プラクティス

A/B テストの目的は、サイトの更新の影響(この場合は AI Commerce Search の使用)を正確に判断することです。影響を正確に測定するには、テスト結果に他の違いが入らず、影響を受けないように、テストを正しく設計して実施する必要があります。

テスト ID は A/B テストで使用されます。このテストでは、AI Commerce Search と既存の検索ソリューションを比較できます。また、AI Commerce Search サイトを完全に導入している場合に、新しい構成、コントロール、ブースト仕様などを対照群に対してテストする必要がある場合にも使用できます。

ユーザー イベントのテスト ID フィールドは配列であるため、より詳細な測定が可能です。

以下のようなユースケースが考えられます。

  • AI Commerce Search のパフォーマンスは、対照群と比較する必要があります。
  • 全体的なパフォーマンスを測定する必要があります。
  • モバイル専用のパフォーマンスを測定する必要があります。
  • パソコン専用のパフォーマンスを測定する必要があります。
  • 検索とレコメンデーションのパフォーマンスも個別に測定する必要があります。

このような粒度の細かい測定を行うには、合計 10 個のテスト ID が必要になる場合があります。そのうち 4 個は、すべてのイベントのイベント テスト ID 配列で送信する必要があります。

イベントの対照群のテスト ID テスト(検索(コマース))イベント グループのテスト ID ユーザー イベントのスコープ
管理 AI Commerce Search すべてのイベント
Control_mobile Google_mobile すべてのモバイル イベント
Control_desktop Google_desktop すべてのデスクトップ イベント
Control_search Google_search すべての検索と関連イベント
Control_recommendations Google_recommendations すべての推奨事項と関連イベント

全体的なパフォーマンスを測定するには、イベントから導出された指標を、テスト ID ControlAI Commerce Search で比較します。モバイル検索のパフォーマンスを測定するには、テスト ID Control_mobile + Control_searchGoogle_mobile + Google_search のイベントから導き出された指標を比較します。

カテゴリの階層

コントロール グループとテストグループで、同じ商品に同じカテゴリ階層が設定されていることを確認します。たとえば、コントロール サイトでは、T シャツの商品が clothing > mens > tops > tee-shirts のカテゴリ階層に属し、テストサイトでは同じ商品が mens > popular > tops のカテゴリ階層に属しているとします。この設定により、対照群サイトとテストサイトで検索結果とカテゴリ ファセットが異なります。この問題は、page_category がフィルタとともにブラウズ呼び出しの入力となるため、ブラウザ エクスペリエンスに影響します。

A/B テスト前のユーザー エクスペリエンスの同等性

サイトで A/B テストを実施する準備として、正しいテスト ID マッピングを使用して実際のユーザーの検索トラフィックやおすすめトラフィックを AI Commerce Search に送信する前に、コントロールとして従来の検索バックエンドを使用するコマース サイトと、AI Commerce Search バックエンドを使用するサイトとの間で、ユーザー インターフェースとユーザー エクスペリエンスの同等性を確認することが重要です。

検索クエリが指定された場合、コントロール検索バックエンドと AI Commerce Search バックエンドの検索結果ページの間で、テストする項目には次のようなものがあります。

ファセットの数は同じですか?そうでない場合は、AI Commerce Search でファセットの仕様と属性の設定を確認します。ファセットは、ユーザーが最初の検索結果から目的の商品をフィルタして見つけるのに役立つため、重要です。ファセットがより適切で意味のあるものになることで、ユーザーは希望の商品をより短時間で見つけられるようになります。そうでない場合、クリック数とスクロール数が増え、検索エクスペリエンスが損なわれ、最終的にコンバージョン率とクリック率に影響する可能性があります。また、検索の放棄につながる可能性もあります。そのため、コントロール サイトとテストサイトのファセットが類似している場合、ユーザーが商品を検索する際に、どちらかのサイトが有利になることはありません。

検索結果にスポンサーの商品を配置することは、多くの e コマースサイトでよく見られる機能です。ほとんどの場合、スポンサーの商品はオーガニック検索結果の一部ではありません。コントロール サイトとテストサイトの検索結果ページに表示されるプレースメントと商品が、同一ではないにしてもほぼ同じになるように注意する必要があります。そうしないと、収益パフォーマンス指標の測定にノイズが加わり、対照サイトとテストサイトのスポンサー プロダクトの独自性によっては、ノイズが大きくなる可能性があります。

その他、考慮すべきユーザー インターフェースの側面は次のとおりです。

  • コントロール サイトとテストサイトで価格と割引の情報が同じであるか。
  • 検索クエリに対して同じ補完候補が予測入力で表示されますか?
  • ファセット値の順序は同じですか?
  • 商品がリストやグリッドなど、同じスタイルで表示されているか。

最後のヒントと考慮事項

有意義な A/B テストを設計するには、次のヒントを参考にしてください。

  • A/B テストを設定する前に、予測または検索プレビューを使用して、モデルが予期したとおりに動作することを確認します。

  • テストグループとコントロール グループに対して、サイトの動作が同じであることを確認します。

    サイトの動作には、レイテンシ、表示形式、テキスト形式、ページ レイアウト、画質、画像サイズが含まれます。コントロール グループとテストグループのエクスペリエンスの間でこれらの属性のいずれにも明確な違いはありません。

  • AI Commerce Search から返される場合は結果を受け入れて表示し、返される順序と同じ順序で表示します。

    在庫切れのアイテムの除外は、受け入れ可能です。ただし、ビジネスルールに基づいた結果のフィルタリングまたは順序付けはしないでください。

  • 検索ユーザー イベントを使用し、必要なアトリビューション トークンを含めている場合は、正しく設定されていることを確認してください。詳しくは、属性トークンのドキュメントをご覧ください。

  • レコメンデーションまたは検索結果をリクエストする際に指定するサービス構成が、そのレコメンデーションまたは検索結果の意図と一致し、結果を表示する場所が一致していることを確認してください。

    レコメンデーションを使用する場合、サービス構成は、モデルのトレーニング方法、つまり推奨される商品に影響します。詳細

  • 既存のソリューションを AI Commerce Search と比較する場合は、対照群のエクスペリエンスをテストグループのエクスペリエンスから厳密に切り離します。

    コントロール ソリューションがレコメンデーションや検索結果を提供しない場合は、コントロール ページで AI Commerce Search から提供しないようにしてください。これを行うと、テスト結果が不正確になります。

    ユーザーがコントロール グループとテストグループを切り替えないようご注意ください。これは同じセッション内で特に重要ですが、セッション間についても推奨されます。これにより、テストのパフォーマンスが向上し、統計的に有意な A/B テストの結果を迅速に取得できます。