Orientações gerais sobre como realizar experimentos A/B

Nesta página, descrevemos como usar experimentos A/B para entender como a Pesquisa de comércio com IA está afetando seus negócios.

Visão geral

Um experimento A/B é um experimento aleatório com dois grupos: um grupo experimental e um grupo de controle. O grupo experimental recebe um tratamento diferente (nesse caso, previsões ou resultados da pesquisa da Pesquisa de comércio com IA) o grupo de controle não

Ao executar um experimento A/B, você inclui as informações sobre em qual grupo um usuário estava quando registra eventos do usuário. Essas informações são usadas para refinar o modelo e fornecer métricas.

Ambas as versões do aplicativo precisam ser as mesmas, exceto que os usuários no grupo experimental veem resultados gerados pela Pesquisa de comércio com IA e o grupo de controle não. Você registra eventos de usuário em ambos os grupos.

Para mais informações sobre a divisão de tráfego, consulte Como dividir o tráfego na documentação do App Engine.

Plataformas experimentais

Configure o experimento usando uma plataforma de experimento de terceiros, como VWO ou AB Tasty. Os grupos experimental e de controle recebem um ID de experimento exclusivo da plataforma. Ao registrar um evento de usuário, especifique o grupo em que o usuário está, incluindo o ID do experimento no campo experimentIds. Fornecer o ID do experimento permite comparar as métricas das versões do seu aplicativo vistas pelos grupos de controle e experimental.

Práticas recomendadas para experimentos A/B

O objetivo de um experimento A/B é determinar com precisão o impacto da atualização do seu site (neste caso, a implantação da Pesquisa de comércio com IA). Para ter uma medida precisa do impacto, é necessário projetar e implementar o experimento corretamente para que outras diferenças não se influenciem e afetem os resultados.

Mapeamento de ID de experimento recomendado

Os IDs de experimento são usados para testes A/B, em que você pode comparar a Pesquisa de comércio com IA com uma solução de pesquisa atual. Eles também podem ser usados para executar experimentos com um site da Pesquisa de comércio com IA totalmente adotado em que uma nova configuração, controle ou especificação de aumento, para citar alguns exemplos, precisa ser testada em relação a um grupo de controle.

O campo de ID do experimento nos eventos do usuário é uma matriz, o que permite uma medição mais granular.

Considere os seguintes casos de uso:

O desempenho da Pesquisa de comércio com IA precisa ser comparado a um grupo de controle.
O desempenho geral precisa ser medido.
O desempenho apenas para dispositivos móveis precisa ser medido.
O desempenho apenas para computadores precisa ser medido.
O desempenho de pesquisa e recomendações também precisa ser medido separadamente.

Para fazer medições tão granulares e segmentadas, talvez você precise de um total de 10 IDs de experimento, dos quais quatro precisam ser enviados na matriz de ID de experimento de eventos para cada evento.

IDs de experimento para grupo de controle de eventos	IDs de experimento para grupo de eventos de teste (pesquisa para comércio)	Escopo de eventos do usuário
Controle	Pesquisa de comércio com IA	Todos os eventos
`Control_mobile`	`Google_mobile`	Todos os eventos para dispositivos móveis
`Control_desktop`	`Google_desktop`	Todos os eventos para computadores
`Control_search`	`Google_search`	Todos os eventos de pesquisa e relacionados
`Control_recommendations`	`Google_recommendations`	Todas as recomendações e eventos relacionados

Para medir o desempenho geral, compare as métricas derivadas de eventos com os IDs de experimento Controle e Pesquisa de comércio com IA. Para medir o desempenho da pesquisa para dispositivos móveis, compare as métricas derivadas de eventos com os IDs de experimento Control_mobile + Control_search versus Google_mobile + Google_search.

Hierarquia de categorias

Verifique se os mesmos produtos têm a mesma hierarquia de categorias entre o controle e o teste. Por exemplo, no site de controle, um produto de camiseta tem a hierarquia de categorias clothing > mens > tops > tee-shirts, e o mesmo produto está em uma hierarquia de categorias diferente no lado do teste, como mens > popular > tops. Essa configuração resulta em resultados de pesquisa e facetas de categorias diferentes entre os sites de controle e de teste. Esse problema afeta a experiência do navegador, já que a page_category é a entrada para a chamada de navegação, junto com os filtros.

Paridade da experiência do usuário antes do teste A/B

Ao preparar o site para testes A/B, antes de veicular o tráfego de pesquisa ou recomendações de usuários reais para a Pesquisa de comércio com IA com o mapeamento correto de ID de experimento, é importante observar a interface do usuário e a paridade de experiência entre o site de comércio, com o back-end de pesquisa legado usado como controle, e o site com o back-end da Pesquisa de comércio com IA.

Considerando uma consulta de pesquisa, entre as páginas de resultados da pesquisa para o back-end de pesquisa de controle e o back-end da Pesquisa de comércio com IA, algumas coisas a serem testadas incluem:

O mesmo número de facetas está aparecendo? Se não, revise as especificações de facetas e as configurações de atributos na Pesquisa de comércio com IA . Isso é importante porque as facetas ajudam os usuários a filtrar e navegar até o produto preferido nos resultados da pesquisa inicial. Facetas melhores e mais significativas significam que os usuários levam menos tempo para encontrar o produto preferido. Caso contrário, isso resulta em mais cliques e rolagem, o que pode prejudicar a experiência de pesquisa e, por fim, afetar as taxas de conversão e de cliques. Isso também pode resultar no abandono da pesquisa. Portanto, ter facetas semelhantes entre os sites de controle e de teste significa que não há vantagem injusta para os usuários ao pesquisar produtos entre um e outro.

Os posicionamentos de produtos dos patrocinadores nos resultados da pesquisa são um recurso comum em muitos sites de comércio eletrônico, e a maioria dos produtos dos patrocinadores não faz parte dos resultados da pesquisa orgânica. É preciso ter cuidado para garantir que o posicionamento e os produtos mostrados na página de resultados da pesquisa entre o site de controle e o site de teste sejam quase iguais, se não idênticos. Caso contrário, isso resulta na adição de ruído à medição das métricas de desempenho de receita e, dependendo da exclusividade dos produtos patrocinados entre os sites de controle e de teste, o ruído poderá ser maior.

Outros aspectos diversos da interface do usuário a serem considerados:

As informações de preço e desconto são as mesmas entre os sites de controle e de teste?
O preenchimento automático está sugerindo as mesmas conclusões para a consulta de pesquisa?
Os valores das facetas estão na mesma ordem?
Os produtos estão listados usando o mesmo estilo, como em uma lista ou grade?

Dicas e considerações finais

Para criar um experimento A/B significativo, siga estas dicas:

Antes de configurar seu experimento A/B, use a previsão ou a visualização de pesquisa para garantir que o modelo esteja se comportando conforme o esperado.
Verifique se o comportamento do seu site é idêntico ao do grupo experimental e do grupo de controle.

O comportamento do site inclui latência, formato de exibição, formato de texto, layout da página, qualidade da imagem e tamanho da imagem. Não pode haver diferenças visíveis para nenhum desses atributos entre a experiência dos grupos de controle e experimental.
Aceite e mostre os resultados da maneira como são retornados da Pesquisa de comércio com IA e mostre-os na mesma ordem em que são retornados.

Filtrar itens que estão esgotados é aceitável. No entanto, evite filtros ou organize os resultados com base nas suas regras de negócios.
Se você estiver usando eventos de usuário de pesquisa e incluir o token de atribuição necessário com eles, verifique se eles estão configurados corretamente. Consulte a documentação sobre tokens de atribuição.
Verifique se a configuração de exibição fornecida quando você solicita recomendações ou resultados da pesquisa corresponde à sua intenção para essa recomendação ou resultado da pesquisa e o local em que você mostra os resultados.

Quando você usa recomendações, a configuração de exibição afeta a forma como os modelos são treinados e quais produtos são recomendados. Saiba mais.
Se você estiver comparando uma solução atual com a Pesquisa de comércio com IA, mantenha a experiência do grupo de controle estritamente separada da experiência do grupo experimental.

Se a solução de controle não fornecer uma recomendação ou um resultado da pesquisa, não forneça um da Pesquisa de comércio com IA nas páginas de controle. Isso distorce os resultados do teste.

Verifique se os usuários não alternam entre o grupo de controle e o grupo experimental. Isso é especialmente importante na mesma sessão, mas também recomendado em todas as sessões. Isso melhora o desempenho do experimento e ajuda a obter resultados de testes A/B estatisticamente significativos mais cedo.