Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Orientación general para realizar experimentos A/B

En esta página, se describe cómo puedes usar los experimentos A/B para comprender cómo la Búsqueda de comercio con IA afecta tu negocio.

Descripción general

Un experimento A/B es un experimento aleatorio con dos grupos: un grupo experimental y un grupo de control. El grupo experimental recibe un tratamiento diferente (en este caso, predicciones o resultados de la búsqueda de AI Commerce Search). El grupo de control no lo recibe.

Cuando ejecutas un experimento A/B, debes incluir la información sobre en qué grupo se encontraba un usuario cuando registraste los eventos del usuario. Esa información se usa para definir mejor el modelo y proporcionar métricas.

Ambas versiones de la aplicación deben ser iguales, excepto que los usuarios del grupo experimental ven los resultados generados por la Búsqueda de comercio impulsada por IA y los del grupo de control no. Debes registrar eventos de usuario para ambos grupos.

Para obtener más información sobre la división del tráfico, consulta Divide el tráfico en la documentación de App Engine.

Plataformas de experimentos

Configura el experimento con una plataforma de experimentos de terceros, como VWO o AB Tasty. Los grupos de control y experimental obtienen un ID de experimento único de la plataforma. Cuando registres un evento de usuario, especifica en qué grupo se encuentra el usuario con el ID del experimento en el campo experimentIds. Proporcionar el ID del experimento te permite comparar las métricas de las versiones de tu aplicación que ven los grupos de control y experimentales.

Prácticas recomendadas para los experimentos A/B

El objetivo de un experimento A/B es determinar con precisión el impacto de la actualización de tu sitio (en este caso, mediante el uso de la Búsqueda de comercio electrónico con IA). Para obtener una medición precisa del impacto, debes diseñar y, luego, implementar el experimento de forma correcta, de modo que otras diferencias no se acumulen y no afecten los resultados del experimento.

Asignación de ID del experimento recomendada

Los IDs de experimento se usan para las pruebas A/B, en las que puedes comparar la Búsqueda de comercio con IA con una solución de búsqueda existente. También se pueden usar para ejecutar experimentos con un sitio de AI Commerce Search completamente adoptado en el que se debe probar una nueva configuración, un nuevo control o una nueva especificación de refuerzo, por nombrar algunos ejemplos, en comparación con un grupo de control.

El campo ID del experimento en los eventos del usuario es un array, lo que permite una medición más detallada.

Considera los siguientes casos prácticos:

El rendimiento de la Búsqueda de Comercio con IA debe compararse con un grupo de control.
Se debe medir el rendimiento general.
Se debe medir el rendimiento solo en dispositivos móviles.
Se debe medir el rendimiento solo en computadoras de escritorio.
El rendimiento de las búsquedas y las recomendaciones también se debe medir por separado.

Para lograr mediciones tan detalladas y segmentadas, es posible que necesites un total de 10 IDs de experimento, de los cuales cuatro se deben enviar en el array de IDs de experimento de eventos para cada evento.

IDs del experimento para el grupo de control de eventos	IDs de experimento para el grupo de eventos de prueba (búsqueda para comercio)	Alcance de los eventos de usuario
Control	AI Commerce Search	Todos los eventos
`Control_mobile`	`Google_mobile`	Todos los eventos para dispositivos móviles
`Control_desktop`	`Google_desktop`	Todos los eventos de escritorio
`Control_search`	`Google_search`	Todos los eventos de búsqueda y relacionados
`Control_recommendations`	`Google_recommendations`	Todas las recomendaciones y los eventos relacionados

Para medir el rendimiento general, compara las métricas derivadas de los eventos con los IDs de experimento Control y AI Commerce Search. Para medir el rendimiento de la Búsqueda para dispositivos móviles, compara las métricas derivadas de los eventos con los IDs de experimento Control_mobile + Control_search en comparación con Google_mobile + Google_search.

Jerarquía de categorías

Asegúrate de que los mismos productos tengan la misma jerarquía de categorías entre el grupo de control y el grupo de prueba. Por ejemplo, en el sitio de control, un producto de camiseta tiene la jerarquía de categorías de modo que clothing > mens > tops > tee-shirts, y el mismo producto se encuentra en una jerarquía de categorías diferente en el sitio de prueba, de modo que mens > popular > tops. Esta configuración genera diferentes resultados de la búsqueda y diferentes facetas de categorías entre los sitios de control y de prueba. Este problema afecta la experiencia del navegador, ya que page_category es la entrada de la llamada de navegación, junto con los filtros.

Paridad de la experiencia del usuario antes de las pruebas A/B

Cuando prepares el sitio para las pruebas A/B, antes de publicar el tráfico de recomendaciones o de búsqueda de usuarios reales en la Búsqueda de comercio con IA con la asignación correcta del ID del experimento, es importante tener en cuenta la paridad de la experiencia y la interfaz de usuario entre el sitio de comercio, con el backend de búsqueda heredado que se usa como control, y el sitio con el backend de la Búsqueda de comercio con IA.

Dada una búsqueda, entre las páginas de resultados de búsqueda del backend de la Búsqueda de control y el backend de la Búsqueda de comercio con IA, se incluyen los siguientes aspectos para probar:

¿Aparece la misma cantidad de facetas? Si no es así, revisa las especificaciones de las facetas y la configuración de los atributos en la Búsqueda de comercio con IA . Esto es importante porque las facetas ayudan a los usuarios a filtrar y navegar hasta el producto preferido desde los resultados de la búsqueda inicial. Las facetas mejores y más significativas hacen que los usuarios tarden menos en encontrar el producto que prefieren. De lo contrario, se generarán más clics y desplazamientos, lo que podría dificultar la experiencia de búsqueda y, en última instancia, afectar los porcentajes de conversiones y de clics. Esto también podría provocar el abandono de la búsqueda. Por lo tanto, tener facetas similares entre los sitios de control y de prueba significa que no hay una ventaja injusta para los usuarios cuando buscan productos entre uno y otro.

La colocación de productos de patrocinadores en los resultados de la búsqueda suele ser una función común en muchos sitios de comercio electrónico, y, en la mayoría de los casos, los productos de los patrocinadores no forman parte de los resultados de la búsqueda orgánica. Se debe tener cuidado para asegurarse de que la colocación y los productos que se muestran en la página de resultados de búsqueda entre el sitio de control y el sitio de prueba sean casi iguales, si no idénticos. De lo contrario, se agregará ruido a la medición de las métricas de rendimiento de los ingresos y, según la singularidad de los productos patrocinados entre los sitios de control y de prueba, el ruido podría ser mayor.

Otros aspectos varios de la interfaz de usuario que debes tener en cuenta:

¿La información sobre el precio y el descuento es la misma en los sitios de control y de prueba?
¿El autocompletar sugiere las mismas opciones para la búsqueda?
¿Los valores de las facetas están en el mismo orden?
¿Los productos se muestran con el mismo estilo, por ejemplo, en una lista o una cuadrícula?

Sugerencias y consideraciones finales

Para diseñar un experimento A/B significativo, ten en cuenta estas sugerencias:

Antes de configurar tu experimento A/B, usa la predicción o la vista previa de la búsqueda para asegurarte de que el modelo se comporte como se espera.
Asegúrate de que el comportamiento de tu sitio sea idéntico para el grupo experimental y el de control.

El comportamiento del sitio incluye la latencia, el formato de visualización, el formato del texto, el diseño de página, la calidad de imagen y el tamaño de imagen. No debería haber diferencias discernibles para ninguno de estos atributos entre la experiencia de los grupos de control y experimental.
Acepta y muestra los resultados como se muestran en la Búsqueda de comercio electrónico con IA, y muéstralos en el mismo orden en que se muestran.

Filtrar los elementos que estén agotados es aceptable. Sin embargo, debes evitar ordenar o filtrar los resultados según las reglas de tu empresa.
Si utilizas eventos de usuario de búsqueda y los incluyes con el token de atribución requerido, asegúrate de que estén configurados correctamente. Consulta la documentación sobre los tokens de atribución.
Asegúrate de que el parámetro de configuración de entrega que proporciones cuando solicites recomendaciones o resultados de la búsqueda coincida con tu intención para esa recomendación o resultado de búsqueda, y con la ubicación en la que muestras los resultados.

Cuando usas recomendaciones, la configuración de entrega afecta la forma en que se entrenan los modelos y, por lo tanto, qué productos se recomiendan. Obtén más información.
Si comparas una solución existente con AI Commerce Search, mantén la experiencia del grupo de control segregada de forma estricta de la experiencia del grupo experimental.

Si la solución de control no proporciona una recomendación o un resultado de búsqueda, no proporciones uno desde la Búsqueda de comercio electrónico con IA en las páginas de control. Si lo haces, se sesgarán los resultados de tu prueba.

Asegúrate de que los usuarios no cambien entre el grupo de control y el grupo experimental. Esto es especialmente importante dentro de la misma sesión, pero también se recomienda entre sesiones. Esto mejora el rendimiento del experimento y te ayuda a obtener resultados de pruebas A/B con importancia estadística más rápido.