Orientações gerais sobre como realizar experimentos A/B

Nesta página, descrevemos como usar experimentos A/B para entender como a Vertex AI Search for commerce está afetando seus negócios.

Visão geral

Um experimento A/B é um experimento aleatório com dois grupos: um grupo experimental e um grupo de controle. O grupo experimental recebe um tratamento diferente (nesse caso, previsões ou resultados da pesquisa da Vertex AI Search para e-commerce); o grupo de controle não.

Ao executar um experimento A/B, você inclui as informações sobre em qual grupo um usuário estava quando registrava eventos do usuário. Essas informações são usadas para refinar o modelo e fornecer métricas.

Ambas as versões do aplicativo precisam ser as mesmas, exceto que os usuários no grupo experimental veem resultados gerados pela Pesquisa da Vertex AI para comércio e o grupo de controle não. Você registra eventos de usuário em ambos os grupos.

Para mais informações sobre a divisão de tráfego, consulte Como dividir o tráfego na documentação do App Engine.

Plataformas experimentais

Configure o experimento usando uma plataforma de experimento de terceiros, como VWO ou AB Tasty. Os grupos experimental e de controle recebem um ID de experimento exclusivo da plataforma. Ao registrar um evento de usuário, especifique o grupo em que o usuário está, incluindo o código do experimento no campo experimentIds. Fornecer o ID do experimento permite comparar as métricas das versões do seu aplicativo vistas pelos grupos de controle e experimental.

Práticas recomendadas para experimentos A/B

O objetivo de um experimento A/B é determinar com precisão o impacto da atualização do seu site (neste caso, a implantação da Vertex AI Search for commerce). Para ter uma medida precisa do impacto, é necessário projetar e implementar o experimento corretamente para que outras diferenças não se influenciem e afetem os resultados.

Os IDs de experimento são usados para testes A/B, em que é possível comparar a Vertex AI para Pesquisa para e-commerce com uma solução de pesquisa atual. Eles também podem ser usados para executar experimentos com uma Vertex AI para Pesquisa totalmente adotada em um site de comércio eletrônico em que uma nova configuração, controle ou especificação de reforço, para citar alguns exemplos, precisa ser testada em relação a um grupo de controle.

O campo de ID do experimento nos eventos do usuário é uma matriz, o que permite uma medição mais granular.

Considere os seguintes casos de uso:

  • O desempenho da Vertex AI para Pesquisa para Commerce precisa ser comparado a um grupo de controle.
  • A performance geral precisa ser medida.
  • O desempenho somente para dispositivos móveis precisa ser medido.
  • A performance apenas em computadores precisa ser medida.
  • O desempenho da pesquisa e das recomendações também precisa ser medido separadamente.

Para alcançar essas medições granulares e segmentadas, talvez seja necessário um total de 10 IDs de experimento, sendo que quatro precisam ser enviados na matriz de ID de experimento de eventos para cada evento.

IDs de experimento para o grupo de controle de eventos IDs de experimentos para o grupo de eventos de teste (pesquisa por comércio) Escopo dos eventos do usuário
Controle Vertex AI para Pesquisa no comércio Todos os eventos
Control_mobile Google_mobile Todos os eventos para dispositivos móveis
Control_desktop Google_desktop Todos os eventos de computador
Control_search Google_search Todos os eventos de pesquisa e relacionados
Control_recommendations Google_recommendations Todas as recomendações e eventos relacionados

Para medir a performance geral, compare as métricas derivadas de eventos com os IDs de experimento Control e Vertex AI Search for commerce. Para medir a performance da pesquisa móvel, compare as métricas derivadas de eventos com os IDs de experimento Control_mobile + Control_search e Google_mobile + Google_search.

Hierarquia de categorias

Verifique se os mesmos produtos têm a mesma hierarquia de categorias entre o controle e o teste. Por exemplo, no site de controle, uma camiseta tem a hierarquia de categorias clothing > mens > tops > tee-shirts, e o mesmo produto está em uma hierarquia diferente no lado de teste, como mens > popular > tops. Essa configuração resulta em diferentes resultados de pesquisa e facetas de categoria entre os sites de controle e de teste. Esse problema afeta a experiência do navegador, já que o page_category é a entrada da chamada de navegação, junto com os filtros.

Paridade da experiência do usuário antes do teste A/B

Ao preparar o site para o teste A/B, antes de veicular o tráfego de pesquisa ou recomendações de usuários reais para a Vertex AI para Pesquisa em e-commerce com o mapeamento correto de ID do experimento, é importante observar a paridade da interface e da experiência do usuário entre o site de e-commerce, com o back-end de pesquisa legado usado como controle, e o site com o back-end da Vertex AI para Pesquisa em e-commerce.

Considerando uma consulta de pesquisa, entre as páginas de resultados de pesquisa para o back-end de pesquisa de controle e o back-end da Vertex AI para Pesquisa para Commerce, algumas coisas a serem testadas incluem:

O mesmo número de refinamentos está aparecendo? Caso contrário, revise as especificações de faceta e as configurações de atributo na Vertex AI para Pesquisa para comércio . Isso é importante porque as facetas ajudam os usuários a filtrar e navegar até o produto preferido nos resultados da pesquisa inicial. Facetas melhores e mais significativas significam que os usuários levam menos tempo para encontrar o produto preferido. Caso contrário, isso resulta em mais cliques e rolagem, o que pode prejudicar a experiência de pesquisa e, por fim, afetar as taxas de conversão e de cliques. Isso também pode resultar no abandono da pesquisa. Portanto, ter facetas semelhantes entre os sites de controle e de teste significa que não há vantagem injusta para os usuários ao pesquisar produtos entre um e outro.

O posicionamento de produtos de patrocinadores nos resultados da pesquisa é um recurso comum em muitos sites de e-commerce, e os produtos dos patrocinadores geralmente não fazem parte dos resultados da pesquisa orgânica. É preciso ter cuidado para garantir que o posicionamento e os produtos mostrados na página de resultados da pesquisa entre o site de controle e o de teste sejam quase iguais, se não idênticos. Caso contrário, o ruído será adicionado à medição das métricas de performance de receita. Dependendo da exclusividade dos produtos patrocinados entre os sites de controle e de teste, o ruído pode ser maior.

Outros aspectos diversos da interface do usuário a serem considerados:

  • As informações de preço e desconto são as mesmas entre os sites de controle e de teste?
  • O preenchimento automático está sugerindo as mesmas opções para a consulta de pesquisa?
  • Os valores de faceta estão na mesma ordem?
  • Os produtos estão listados usando o mesmo estilo, como em uma lista ou grade?

Dicas e considerações finais

Para criar um experimento A/B significativo, siga estas dicas:

  • Antes de configurar seu experimento A/B, use a previsão ou a visualização de pesquisa para garantir que o modelo esteja se comportando conforme o esperado.

  • Verifique se o comportamento do seu site é idêntico ao do grupo experimental e do grupo de controle.

    O comportamento do site inclui latência, formato de exibição, formato de texto, layout da página, qualidade da imagem e tamanho da imagem. Não pode haver diferenças visíveis para nenhum desses atributos entre a experiência dos grupos de controle e experimental.

  • Aceitar e mostrar os resultados da maneira como são retornados da Pesquisa da Vertex AI para e-commerce e exibi-los na mesma ordem em que são retornados.

    Filtrar itens que estão esgotados é aceitável. No entanto, evite filtros ou organize os resultados com base nas suas regras de negócios.

  • Se você estiver usando eventos de usuário de pesquisa e incluir o token de atribuição obrigatório com eles, verifique se eles estão configurados corretamente. Consulte a documentação sobre Tokens de atribuição.

  • Certifique-se de que a configuração de exibição fornecida quando você solicita recomendações ou resultados da pesquisa corresponda à sua intenção para essa recomendação ou resultado da pesquisa e o local em que você exibe os resultados.

    Quando você usa recomendações, a configuração de exibição afeta a forma como os modelos são treinados e quais produtos são recomendados. Saiba mais.

  • Se você estiver comparando uma solução atual com a Vertex AI para Pesquisa para e-commerce, mantenha a experiência do grupo de controle separada estritamente da experiência do grupo experimental.

    Se a solução de controle não fornecer uma recomendação ou um resultado da pesquisa, não forneça um da Vertex AI Search para e-commerce nas páginas de controle. Isso distorce os resultados do teste.

    Verifique se os usuários não estão alternando entre o grupo de controle e o grupo experimental. Isso é especialmente importante na mesma sessão, mas também recomendado em várias sessões. Isso melhora a performance do experimento e ajuda você a receber resultados de teste A/B com significância estatística mais rápido.