Directrices generales para llevar a cabo experimentos A/B

En esta página se describe cómo puedes usar experimentos A/B para saber cómo afecta Vertex AI Search for commerce a tu empresa.

Información general

Un experimento A/B es un experimento aleatorio con dos grupos: un grupo experimental y un grupo de control. El grupo experimental recibe un tratamiento diferente (en este caso, predicciones o resultados de búsqueda de Vertex AI Search for commerce), mientras que el grupo de control no.

Cuando realiza un experimento A/B, incluye la información sobre el grupo al que pertenece un usuario al registrar los eventos de usuario. Esa información se usa para perfeccionar el modelo y proporcionar métricas.

Ambas versiones de tu aplicación deben ser iguales, excepto que los usuarios del grupo experimental ven los resultados generados por Vertex AI Search for commerce y los del grupo de control no. Registras eventos de usuario de ambos grupos.

Para obtener más información sobre la división del tráfico, consulta el artículo Dividir el tráfico de la documentación de App Engine.

Plataformas de experimentos

Configura el experimento con una plataforma de experimentos de terceros, como VWO o AB Tasty. Los grupos de control y experimentales reciben un ID de experimento único de la plataforma. Cuando registre un evento de usuario, especifique en qué grupo se encuentra el usuario incluyendo el ID del experimento en el campo experimentIds. Si proporciona el ID del experimento, podrá comparar las métricas de las versiones de su aplicación que ven los grupos de control y experimental.

Prácticas recomendadas para los experimentos A/B

El objetivo de un experimento A/B es determinar con precisión el impacto de actualizar tu sitio (en este caso, empleando Vertex AI Search for commerce). Para medir el impacto con precisión, debe diseñar e implementar el experimento correctamente, de forma que no se produzcan otras diferencias que afecten a los resultados.

Los IDs de experimento se usan en las pruebas A/B, donde puedes comparar Vertex AI Search for commerce con una solución de búsqueda que ya tengas. También se pueden usar para llevar a cabo experimentos con un sitio de Vertex AI Search for commerce totalmente adoptado en el que se deba probar una nueva configuración, un control o una especificación de impulso, por poner algunos ejemplos, con un grupo de control.

El campo de ID de experimento de los eventos de usuario es una matriz, lo que permite hacer mediciones más granulares.

Considera los siguientes casos prácticos:

  • El rendimiento de Vertex AI Search for commerce debe compararse con un grupo de control.
  • Es necesario medir el rendimiento general.
  • Es necesario medir el rendimiento solo para móviles.
  • Es necesario medir el rendimiento solo en ordenadores.
  • El rendimiento de la búsqueda y las recomendaciones también debe medirse por separado.

Para conseguir mediciones tan detalladas y segmentadas, es posible que necesites un total de 10 IDs de experimento, de los cuales cuatro deben enviarse en la matriz de IDs de experimento de los eventos por cada evento.

IDs de experimentos del grupo de control de eventos IDs de experimentos de prueba (busca comercio) del grupo de eventos Ámbito de los eventos de usuario
Control Vertex AI Search for commerce Todos los eventos
Control_mobile Google_mobile Todos los eventos para móviles
Control_desktop Google_desktop Todos los eventos de ordenadores
Control_search Google_search Todas las búsquedas y eventos relacionados
Control_recommendations Google_recommendations Todas las recomendaciones y los eventos relacionados

Para medir el rendimiento general, compara las métricas derivadas de los eventos con los IDs de experimento Control y Vertex AI Search for commerce. Para medir el rendimiento de la búsqueda móvil, compare las métricas derivadas de los eventos con los IDs de experimento Control_mobile + Control_search con las métricas derivadas de los eventos con los IDs de experimento Google_mobile + Google_search.

Jerarquía de categorías

Asegúrese de que los mismos productos tengan la misma jerarquía de categorías en el control y en la prueba. Por ejemplo, en el sitio de control, un producto de camiseta tiene la jerarquía de categorías clothing > mens > tops > tee-shirts, y el mismo producto se encuentra en una jerarquía de categorías diferente en el sitio de prueba, como mens > popular > tops. Esta configuración da lugar a resultados de búsqueda y facetas de categorías diferentes entre los sitios de control y de prueba. Este problema afecta a la experiencia del navegador, ya que page_category es la entrada de la llamada de navegación, junto con los filtros.

Paridad de la experiencia de usuario antes de las pruebas A/B

Cuando prepare el sitio para las pruebas A/B, antes de enviar tráfico de búsqueda o de recomendaciones de usuarios reales a Vertex AI Search for commerce con la asignación de ID de experimento correcta, es importante tener en cuenta la paridad de la interfaz de usuario y la experiencia entre el sitio de comercio, con el backend de búsqueda antiguo usado como control, y el sitio con el backend de Vertex AI Search for commerce.

Dada una consulta de búsqueda, entre las páginas de resultados de búsqueda del backend de búsqueda de control y el backend de Vertex AI Search for commerce, hay algunos aspectos que se deben probar, como los siguientes:

¿Se muestra el mismo número de facetas? Si no es así, consulta las especificaciones de las facetas y los ajustes de los atributos en Vertex AI Search para el sector del comercio . Esto es importante porque las facetas ayudan a los usuarios a filtrar y encontrar el producto que prefieren entre los resultados de búsqueda iniciales. Si las facetas son mejores y más significativas, los usuarios tardarán menos en encontrar el producto que prefieren. De lo contrario, se producirán más clics y desplazamientos, lo que podría dificultar la experiencia de búsqueda y, en última instancia, afectar a los porcentajes de conversión y de clics. Esto también puede provocar que los usuarios abandonen la búsqueda. Por lo tanto, si los sitios de control y de prueba tienen facetas similares, los usuarios no tendrán una ventaja injusta al buscar productos en uno u otro.

La colocación de productos de patrocinadores en los resultados de búsqueda es una función habitual en muchos sitios de comercio electrónico, y la mayoría de las veces los productos de los patrocinadores no forman parte de los resultados de búsqueda orgánicos. Debe asegurarse de que la colocación y los productos que se muestran en la página de resultados de búsqueda del sitio de control y del sitio de prueba sean casi iguales, si no idénticos. Si no es así, se añade ruido a la medición de las métricas de rendimiento de los ingresos y, en función de la singularidad de los productos patrocinados entre los sitios de control y de prueba, el ruido podría ser mayor.

Otros aspectos de la interfaz de usuario que debes tener en cuenta:

  • ¿La información sobre el precio y el descuento es la misma en los sitios de control y de prueba?
  • ¿El autocompletado sugiere las mismas opciones para la consulta de búsqueda?
  • ¿Los valores de las facetas están en el mismo orden?
  • ¿Los productos se muestran con el mismo estilo, por ejemplo, en una lista o en una cuadrícula?

Consejos y consideraciones finales

Para diseñar un experimento A/B significativo, ten en cuenta estos consejos:

  • Antes de configurar tu experimento A/B, usa la predicción o la vista previa de búsqueda para asegurarte de que tu modelo se comporta como esperas.

  • Asegúrate de que el comportamiento de tu sitio sea idéntico para el grupo experimental y el grupo de control.

    El comportamiento del sitio incluye la latencia, el formato de visualización, el formato de texto, el diseño de la página, la calidad de la imagen y el tamaño de la imagen. No debe haber diferencias apreciables en ninguno de estos atributos entre la experiencia del grupo de control y la del grupo experimental.

  • Aceptar y mostrar los resultados tal como los devuelve Vertex AI Search for commerce, y mostrarlos en el mismo orden en que se devuelven.

    Se pueden filtrar los artículos que estén agotados. Sin embargo, debe evitar filtrar u ordenar los resultados en función de sus reglas de negocio.

  • Si usa eventos de usuario de búsqueda e incluye el token de atribución obligatorio, asegúrese de que estén configurados correctamente. Consulta la documentación sobre los tokens de atribución.

  • Asegúrate de que la configuración de publicación que proporciones al solicitar recomendaciones o resultados de búsqueda se corresponda con tu intención para esa recomendación o resultado de búsqueda, así como con la ubicación en la que muestres los resultados.

    Cuando usas recomendaciones, la configuración de servicio afecta a la forma en que se entrenan los modelos y, por lo tanto, a los productos que se recomiendan. Más información

  • Si comparas una solución actual con Vertex AI Search for commerce, mantén la experiencia del grupo de control estrictamente separada de la del grupo experimental.

    Si la solución de control no proporciona ninguna recomendación ni ningún resultado de búsqueda, no proporcione ninguno de Vertex AI Search for commerce en las páginas de control. Si lo haces, los resultados de la prueba no serán precisos.

    Asegúrate de que tus usuarios no cambien entre el grupo de control y el grupo de experimento. Esto es especialmente importante en la misma sesión, pero también se recomienda en diferentes sesiones. De esta forma, se mejora el rendimiento de los experimentos y se obtienen resultados de pruebas A/B estadísticamente significativos antes.