A/B 실험 수행에 대한 일반 안내

이 페이지에서는 A/B 실험을 사용하여 커머스용 Vertex AI Search가 비즈니스에 미치는 영향을 파악하는 방법을 설명합니다.

개요

A/B 실험은 실험 그룹과 통제그룹이라는 두 그룹이 있는 무작위 실험입니다. 실험 그룹은 다른 방식으로 처리 (이 경우 Vertex AI Search for Commerce에서 예측 또는 검색 결과)되고 통제 그룹은 그렇지 않습니다.

A/B 실험을 실행하면 사용자 이벤트를 기록할 때 사용자가 속했던 그룹에 대한 정보가 포함됩니다. 이 정보는 모델을 미세 조정하고 측정항목을 제공하기 위해 사용됩니다.

실험 그룹의 사용자는 Vertex AI Search for Commerce에서 생성된 결과를 확인하지만 통제 그룹은 그렇지 않다는 점을 제외하면 두 버전의 애플리케이션이 동일해야 합니다. 두 그룹의 사용자 이벤트를 로깅합니다.

트래픽 분할에 대한 자세한 내용은 App Engine 문서의 트래픽 분할을 참고하세요.

실험 플랫폼

VWO, AB Tasty와 같은 서드 파티 실험 플랫폼을 사용하여 실험을 설정합니다. 통제 그룹과 실험 그룹은 각각 플랫폼에서 고유한 실험 ID를 부여받습니다. 사용자 이벤트를 기록할 때 experimentIds 필드에 실험 ID를 포함하여 사용자가 속한 그룹을 지정합니다. 실험 ID를 제공하면 통제 그룹과 실험 그룹이 보는 애플리케이션 버전의 측정항목을 비교할 수 있습니다.

A/B 실험 권장사항

A/B 실험의 목표는 사이트 업데이트의 영향을 정확히 파악하는 것입니다 (이 경우 상거래를 위한 Vertex AI Search 적용의 영향). 영향을 정확히 측정하려면 다른 차이가 실험 결과에까지 영향을 주지 않도록 실험을 올바르게 설계하고 구현해야 합니다.

실험 ID는 기존 검색 솔루션과 Vertex AI Search for Commerce를 비교할 수 있는 A/B 테스트에 사용됩니다. 또한 완전히 채택된 Vertex AI Search for Commerce 사이트에서 실험을 실행하는 데 사용할 수도 있습니다. 예를 들어 새로운 구성, 통제, 부스트 사양을 통제 그룹에 대해 테스트해야 합니다.

사용자 이벤트의 실험 ID 필드는 배열이므로 더 세부적인 측정이 가능합니다.

다음 사용 사례를 고려하세요.

  • 상거래를 위한 Vertex AI Search 성능은 통제 그룹과 비교해야 합니다.
  • 전반적인 성능을 측정해야 합니다.
  • 모바일 전용 실적을 측정해야 합니다.
  • 데스크톱 전용 실적을 측정해야 합니다.
  • 검색 및 추천 실적도 별도로 측정해야 합니다.

이러한 세부적인 측정값을 얻으려면 총 10개의 실험 ID가 필요할 수 있으며, 이 중 4개는 모든 이벤트의 이벤트 실험 ID 배열에 전송되어야 합니다.

이벤트 관리 그룹의 실험 ID 테스트 (상거래 검색) 이벤트 그룹의 실험 ID 사용자 이벤트 범위
제어 커머스용 Vertex AI Search 모든 이벤트
Control_mobile Google_mobile 모든 모바일 이벤트
Control_desktop Google_desktop 모든 데스크톱 이벤트
Control_search Google_search 모든 검색 및 관련 이벤트
Control_recommendations Google_recommendations 모든 추천 및 관련 이벤트

전체 실적을 측정하려면 실험 ID가 ControlVertex AI Search for commerce인 이벤트에서 파생된 측정항목을 비교합니다. 모바일 검색 실적을 측정하려면 실험 ID가 Control_mobile + Control_search인 경우와 Google_mobile + Google_search인 경우의 이벤트에서 파생된 측정항목을 비교합니다.

카테고리 계층 구조

통제 그룹과 테스트 그룹 간에 동일한 제품의 카테고리 계층 구조가 동일해야 합니다. 예를 들어 통제 사이트에서 티셔츠 제품의 카테고리 계층 구조가 clothing > mens > tops > tee-shirts이고 테스트 사이트에서 동일한 제품이 mens > popular > tops와 같은 다른 카테고리 계층 구조에 있다고 가정해 보겠습니다. 이 설정으로 인해 통제 사이트와 테스트 사이트 간에 검색 결과와 카테고리 패싯이 달라집니다. 이 문제는 브라우저 환경에 영향을 미칩니다. page_category은 필터와 함께 탐색 호출의 입력이기 때문입니다.

A/B 테스트 전 사용자 환경 패리티

A/B 테스트를 위해 사이트를 준비할 때 올바른 실험 ID 매핑을 사용하여 실제 사용자 검색 또는 추천 트래픽을 커머스용 Vertex AI Search에 제공하기 전에, 기존 검색 백엔드가 관리로 사용되는 커머스 사이트와 커머스용 Vertex AI Search 백엔드가 있는 사이트 간의 사용자 인터페이스 및 경험 패리티를 확인하는 것이 중요합니다.

검색어가 주어지면 통제 검색 백엔드와 Vertex AI Search for Commerce 백엔드의 검색 결과 페이지 간에 테스트할 사항은 다음과 같습니다.

동일한 수의 패싯이 표시되나요? 그렇지 않으면 커머스용 Vertex AI Search에서 패싯 사양과 속성 설정을 검토하세요 . 패싯은 사용자가 초기 검색 결과에서 원하는 제품을 필터링하고 탐색하는 데 도움이 되므로 중요합니다. 더 나은 의미 있는 패싯은 사용자가 원하는 제품을 찾는 데 걸리는 시간을 줄여줍니다. 그렇지 않으면 클릭과 스크롤이 더 많이 발생하여 검색 환경이 저해되고 궁극적으로 전환율과 클릭률에 영향을 미칠 수 있습니다. 이로 인해 검색이 중단될 수도 있습니다. 따라서 관리 사이트와 테스트 사이트 간에 유사한 패싯이 있으면 사용자가 한 사이트에서 다른 사이트로 제품을 검색할 때 불공정한 이점이 없습니다.

검색 결과에 스폰서의 제품이 배치되는 것은 많은 전자상거래 사이트에서 흔히 볼 수 있는 기능이며, 대부분 스폰서의 제품은 자연 검색 결과에 포함되지 않습니다. 통제 사이트와 테스트 사이트 간의 검색 결과 페이지에 표시되는 게재위치와 제품이 동일하지는 않더라도 거의 동일하도록 주의해야 합니다. 그렇지 않으면 수익 실적 측정항목에 노이즈가 추가되며, 관리 사이트와 테스트 사이트 간의 스폰서 제품의 고유성에 따라 노이즈가 더 높을 수 있습니다.

고려해야 할 기타 사용자 인터페이스 측면은 다음과 같습니다.

  • 관리 사이트와 테스트 사이트의 가격 및 할인 정보가 동일한가요?
  • 자동 완성에서 검색어에 대해 동일한 완성을 제안하나요?
  • 패싯 값이 동일한 순서로 되어 있나요?
  • 제품이 목록이나 그리드와 같은 동일한 스타일로 표시되나요?

최종 도움말 및 고려사항

의미 있는 A/B 실험을 설계하려면 다음 팁을 참고하세요.

  • A/B 실험을 설정하기 전에 예측 또는 검색 미리보기를 사용하여 모델이 예상대로 작동하는지 확인합니다.

  • 실험 그룹과 통제 그룹의 사이트 동작이 동일해야 합니다.

    사이트 동작에는 지연 시간, 표시 형식, 텍스트 형식, 페이지 레이아웃, 이미지 품질, 이미지 크기가 포함됩니다. 통제 그룹과 실험 그룹의 경험 간에 이러한 속성에 대한 분명한 차이점이 없어야 합니다.

  • Vertex AI Search for Commerce에서 반환된 결과를 허용 및 표시하고, 반환된 순서와 동일한 순서로 표시합니다.

    재고가 없는 항목을 필터링할 수 있습니다. 하지만 비즈니스 규칙에 따라 결과를 필터링하거나 정렬해서는 안 됩니다.

  • 검색 사용자 이벤트를 사용하고 필수 기여 분석 토큰을 포함하는 경우 올바르게 설정되었는지 확인합니다. 기여 분석 토큰 문서를 참조하세요.

  • 추천 또는 검색 결과를 요청할 때 사용자가 제공하는 서빙 구성이 해당 추천 또는 검색 결과 의도와 결과를 표시하는 위치와 일치하는지 확인합니다.

    추천을 사용하면 서빙 구성이 모델 학습 방법 및 제품 추천에 영향을 미칩니다. 자세히 알아보기

  • 기존 솔루션을 상거래를 위한 Vertex AI Search와 비교하는 경우 통제 그룹의 실험 환경을 실험 그룹의 환경과 분리해서 유지합니다.

    통제 솔루션이 추천 또는 검색 결과를 제공하지 않으면 통제 페이지에 상거래용 Vertex AI Search의 추천 또는 검색 결과를 제공하지 마세요. 이렇게 하면 테스트 결과가 왜곡됩니다.

    사용자가 제어 그룹과 실험 그룹 간에 전환하지 않도록 합니다. 이는 동일한 세션 내에서 특히 중요하지만 세션 전체에서 권장됩니다. 이렇게 하면 실험 성능이 개선되고 통계적 유의성이 있는 A/B 테스트 결과를 더 빨리 얻을 수 있습니다.