Orientación general para realizar experimentos A/B

En esta página, se describe cómo puedes usar los experimentos A/B para comprender cómo Agent Platform Search for Commerce afecta a tu empresa.

Descripción general

Un experimento A/B es un experimento aleatorio con dos grupos: un grupo experimental y un grupo de control. El grupo experimental recibe un tratamiento diferente (en este caso, predicciones o resultados de la búsqueda de Agent Platform Search for Commerce). El grupo de control no lo recibe.

Cuando ejecutas un experimento A/B, debes incluir la información sobre en qué grupo se encontraba un usuario cuando registraste los eventos del usuario. Esa información se usa para definir mejor el modelo y proporcionar métricas.

Ambas versiones de la aplicación deben ser iguales, excepto que los usuarios del grupo experimental ven los resultados generados por Agent Platform Search for Commerce y los del grupo de control no. Debes registrar eventos de usuario para ambos grupos.

Para obtener más información sobre la división del tráfico, consulta Divide el tráfico en la documentación de App Engine.

Plataformas de experimentos

Configura el experimento mediante una plataforma de experimentos de terceros, como VWO o AB Tasty. Los grupos de control y experimental obtienen un ID de experimento único de la plataforma. Cuando registres un evento de usuario, especifica en qué grupo se encuentra el usuario con el ID del experimento en el campo experimentIds. Proporcionar el ID del experimento te permite comparar las métricas de las versiones de tu aplicación que ven los grupos de control y experimentales.

Prácticas recomendadas para los experimentos A/B

El objetivo de un experimento A/B es determinar con precisión el impacto de la actualización de tu sitio (en este caso, mediante el uso de Agent Platform Search for Commerce). Para obtener una medición precisa del impacto, debes diseñar y, luego, implementar el experimento de forma correcta, de modo que otras diferencias no se acumulen y no afecten los resultados del experimento.

Los IDs de experimento se usan para las pruebas A/B, en las que puedes comparar Agent Platform Search for Commerce con una solución de búsqueda existente. También se pueden usar para ejecutar experimentos con un sitio de Agent Platform Search for Commerce completamente adoptado en el que se debe probar una nueva configuración, control o especificación de aumento, por nombrar algunos ejemplos, en comparación con un grupo de control.

El campo de ID de experimento en los eventos del usuario es un array, lo que permite una medición más detallada.

Considera los siguientes casos prácticos:

  • El rendimiento de Agent Platform Search for Commerce debe compararse con un grupo de control.
  • Se debe medir el rendimiento general.
  • Se debe medir el rendimiento solo para dispositivos móviles.
  • Se debe medir el rendimiento solo para computadoras de escritorio.
  • También se debe medir el rendimiento de la búsqueda y las recomendaciones por separado.

Para lograr esas mediciones detalladas y segmentadas, es posible que necesites un total de 10 IDs de experimento, de los cuales cuatro deben enviarse en el array de ID de experimento de eventos para cada evento.

IDs de experimento para el grupo de control de eventos IDs de experimento para el grupo de eventos de prueba (búsqueda para comercio) Alcance de los eventos del usuario
Control Agent Platform Search for Commerce Todos los eventos
Control_mobile Google_mobile Todos los eventos para dispositivos móviles
Control_desktop Google_desktop Todos los eventos para computadoras de escritorio
Control_search Google_search Todos los eventos de búsqueda y relacionados
Control_recommendations Google_recommendations Todas las recomendaciones y los eventos relacionados

Para medir el rendimiento general, compara las métricas derivadas de eventos con los IDs de experimento Control y Agent Platform Search for Commerce. Para medir el rendimiento de la búsqueda para dispositivos móviles, compara las métricas derivadas de eventos con los IDs de experimento Control_mobile + Control_search en comparación con Google_mobile + Google_search.

Jerarquía de categorías

Asegúrate de que los mismos productos tengan la misma jerarquía de categorías entre el control y la prueba. Por ejemplo, en el sitio de control, un producto de camiseta tiene la jerarquía de categorías de modo que clothing > mens > tops > tee-shirts, y el mismo producto está en una jerarquía de categorías diferente en el lado de prueba, de modo que mens > popular > tops. Esta configuración genera diferentes resultados de la búsqueda y diferentes facetas de categorías entre los sitios de control y de prueba. Este problema afecta la experiencia del navegador, ya que page_category es la entrada de la llamada de exploración, junto con los filtros.

Paridad de la experiencia del usuario antes de las pruebas A/B

Cuando prepares el sitio para las pruebas A/B, antes de publicar tráfico de búsqueda o recomendaciones de usuarios reales en Agent Platform Search for Commerce con la asignación de ID de experimento correcta, es importante tener en cuenta la interfaz de usuario y la paridad de la experiencia entre el sitio de comercio, con el backend de búsqueda heredado que se usa como control y el sitio con el backend de Agent Platform Search for Commerce.

Dada una consulta de búsqueda, entre las páginas de resultados de la búsqueda para el backend de búsqueda de control y el backend de Agent Platform Search for Commerce, algunas cosas que se deben probar incluyen las siguientes:

¿Aparece la misma cantidad de facetas? De lo contrario, revisa las especificaciones de facetas y la configuración de atributos en Agent Platform Search for Commerce . Esto es importante porque las facetas ayudan a los usuarios a filtrar y navegar hasta el producto preferido desde los resultados de la búsqueda inicial. Las facetas mejores y más significativas significan que los usuarios tardan menos tiempo en encontrar el producto preferido. De lo contrario, se generan más clics y desplazamientos, lo que podría dificultar la experiencia de búsqueda y, en última instancia, afectar las tasas de conversión y de clics. Esto también podría provocar el abandono de la búsqueda. Por lo tanto, tener facetas similares entre los sitios de control y de prueba significa que no hay una ventaja injusta para los usuarios cuando buscan productos entre uno y otro.

Las ubicaciones de productos de los anunciantes en los resultados de la búsqueda suelen ser una función común en muchos sitios de comercio electrónico, y, en su mayoría, los productos de los anunciantes no forman parte de los resultados de la búsqueda orgánica. Se debe tener cuidado para asegurarse de que la ubicación y los productos que se muestran en la página de resultados de búsqueda entre el sitio de control y el sitio de prueba sean casi iguales, si no idénticos. De lo contrario, se agrega ruido a la medición de las métricas de rendimiento de los ingresos y, según la singularidad de los productos patrocinados entre los sitios de control y de prueba, el ruido podría ser mayor.

Otros aspectos diversos de la interfaz de usuario que se deben tener en cuenta:

  • ¿La información sobre el precio y el descuento es la misma entre los sitios de control y de prueba?
  • ¿El autocompletar sugiere las mismas finalizaciones para la consulta de búsqueda?
  • ¿Los valores de las facetas están en el mismo orden?
  • ¿Los productos se muestran con el mismo estilo, como en una lista o una cuadrícula?

Sugerencias y consideraciones finales

Para diseñar un experimento A/B significativo, ten en cuenta estas sugerencias:

  • Antes de configurar tu experimento A/B, usa la predicción o la vista previa de la búsqueda para asegurarte de que el modelo se comporte como se espera.

  • Asegúrate de que el comportamiento de tu sitio sea idéntico para el grupo experimental y el de control.

    El comportamiento del sitio incluye la latencia, el formato de visualización, el formato del texto, el diseño de página, la calidad de imagen y el tamaño de imagen. No debería haber diferencias discernibles para ninguno de estos atributos entre la experiencia de los grupos de control y experimental.

  • Acepta y muestra los resultados como se muestran en Agent Platform Search for Commerce, y muéstralos en el mismo orden en que se muestran.

    Filtrar los elementos que estén agotados es aceptable. Sin embargo, debes evitar ordenar o filtrar los resultados según las reglas de tu empresa.

  • Si usas eventos de usuario de búsqueda y los incluyes con el token de atribución requerido, asegúrate de que estén configurados correctamente. Consulta la documentación sobre los tokens de atribución.

  • Asegúrate de que la configuración de entrega que proporciones cuando solicites recomendaciones o resultados de la búsqueda coincida con tu intención para esa recomendación o resultado de búsqueda, y con la ubicación en la que muestras los resultados.

    Cuando usas recomendaciones, la configuración de entrega afecta la forma en que se entrenan los modelos y, por lo tanto, qué productos se recomiendan. Obtén más información.

  • Si comparas una solución existente con Agent Platform Search for Commerce, mantén la experiencia del grupo de control segregada de forma estricta de la experiencia del grupo experimental.

    Si la solución de control no proporciona una recomendación o un resultado de búsqueda, no proporciones uno desde Agent Platform Search for Commerce en las páginas de control. Si lo haces, se sesgan los resultados de la prueba.

    Asegúrate de que tus usuarios no cambien entre el grupo de control y el grupo experimental. Esto es especialmente importante dentro de la misma sesión, pero también se recomienda en todas las sesiones. Esto mejora el rendimiento del experimento y te ayuda a obtener resultados de pruebas A/B estadísticamente importantes antes.