Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Conseils généraux pour effectuer des tests A/B

Cette page vous explique comment utiliser les tests A/B pour comprendre comment AI Commerce Search impacte votre activité.

Présentation

Un test A/B est un test randomisé avec deux groupes : un groupe de test et un groupe de contrôle. Le groupe de test reçoit un traitement différent (dans ce cas, des prédictions ou des résultats de recherche d'AI Commerce Search) de celui appliqué au groupe de contrôle.

Lorsque vous exécutez un test A/B, vous incluez des informations sur le groupe dans lequel se trouvait l'utilisateur au moment de l'enregistrement des événements utilisateur. Ces informations permettent d'affiner le modèle et de fournir des métriques.

Les deux versions de votre application doivent être identiques, sauf que les utilisateurs du groupe de test voient les résultats générés par AI Commerce Search contrairement aux utilisateurs du groupe de contrôle. Vous consignez les événements utilisateur pour les deux groupes.

Pour en savoir plus sur la répartition du trafic, consultez la section Répartir le trafic dans la documentation d'App Engine.

Plates-formes de test

Configurez le test avec une plate-forme tierce, telle que VWO, AB Tasty. Les groupes de contrôle et de test obtiennent chacun un ID de test unique à partir de la plate-forme. Lorsque vous enregistrez un événement utilisateur, spécifiez le groupe dans lequel se trouve l'utilisateur en incluant l'ID de test dans le champ experimentIds. L'ID du test vous permet de comparer les métriques des versions de votre application du point de vue des groupes de contrôle et de test.

Bonnes pratiques pour les tests A/B

L'objectif d'un test A/B est de déterminer avec précision l'impact de la mise à jour de votre site (dans le cas présent, l'utilisation d'AI Commerce Search). Pour obtenir une mesure précise de l'impact, vous devez concevoir et mettre en œuvre correctement le test afin que les autres différences n'affectent pas les résultats du test.

Mappage d'ID de test recommandé

Les ID de test sont utilisés pour les tests A/B, qui vous permettent de comparer AI Commerce Search à une solution de recherche existante. Ils peuvent également être utilisés pour exécuter des tests avec un site AI Commerce Search entièrement adopté, où une nouvelle configuration, un nouveau contrôle ou une nouvelle spécification d'amplification, pour ne citer que quelques exemples, doivent être testés par rapport à un groupe de contrôle.

Le champ d'ID de test dans les événements utilisateur est un tableau, ce qui permet une mesure plus précise.

Voici quelques exemples de cas d'utilisation :

Les performances d'AI Commerce Search doivent être comparées à celles d'un groupe de contrôle.
Les performances globales doivent être mesurées.
Les performances sur mobile uniquement doivent être mesurées.
Les performances sur ordinateur uniquement doivent être mesurées.
Les performances de la recherche et des recommandations doivent également être mesurées séparément.

Pour obtenir des mesures aussi précises et segmentées, vous aurez peut-être besoin d'un total de 10 ID de test, dont quatre doivent être envoyés dans le tableau d'ID de test d'événements pour chaque événement.

ID de test pour le groupe de contrôle d'événements	ID de test pour le groupe d'événements de test (recherche pour le commerce)	Champ d'application des événements utilisateur
Contrôle	AI Commerce Search	Tous les événements
`Control_mobile`	`Google_mobile`	Tous les événements mobiles
`Control_desktop`	`Google_desktop`	Tous les événements sur ordinateur
`Control_search`	`Google_search`	Tous les événements de recherche et associés
`Control_recommendations`	`Google_recommendations`	Toutes les recommandations et tous les événements associés

Pour mesurer les performances globales, comparez les métriques dérivées des événements avec les ID de test Contrôle et AI Commerce Search. Pour mesurer les performances de la recherche sur mobile, comparez les métriques dérivées des événements avec les ID de test Control_mobile + Control_search par rapport à Google_mobile + Google_search.

Hiérarchie des catégories

Assurez-vous que les mêmes produits ont la même hiérarchie de catégories entre le contrôle et le test. Prenons l'exemple d'un site de contrôle où un t-shirt a la hiérarchie de catégories suivante : clothing > mens > tops > tee-shirts, et le même produit se trouve sous une hiérarchie de catégories différente dans le test, par exemple mens > popular > tops. Cette configuration génère des résultats de recherche et des facettes de catégories différents entre les sites de contrôle et de test. Ce problème a un impact sur l'expérience du navigateur, car page_category est l'entrée de l'appel de navigation, ainsi que les filtres.

Parité de l'expérience utilisateur avant les tests A/B

Lorsque vous préparez le site pour les tests A/B, avant de diffuser du trafic de recherche ou de recommandations d'utilisateurs réels vers AI Commerce Search avec le mappage d'ID de test approprié, il est important de noter la parité de l'interface utilisateur et de l'expérience entre le site de commerce, avec le backend de recherche hérité utilisé comme contrôle, et le site avec le backend AI Commerce Search.

Étant donné une requête de recherche, entre les pages de résultats de recherche pour le backend de recherche de contrôle et le backend AI Commerce Search, voici quelques éléments à tester :

Le même nombre de facettes s'affiche-t-il ? Si ce n'est pas le cas, examinez les spécifications des facettes et les paramètres d'attributs dans AI Commerce Search . C'est important, car les facettes aident les utilisateurs à filtrer et à accéder au produit de leur choix à partir des résultats de recherche initiaux. Des facettes plus pertinentes et plus utiles permettent aux utilisateurs de trouver plus rapidement le produit de leur choix. Sinon, cela entraîne plus de clics et de défilement, ce qui peut nuire à l'expérience de recherche et, à terme, affecter les taux de conversion et de clics. Cela peut également entraîner l'abandon de la recherche. Par conséquent, des facettes similaires entre les sites de contrôle et de test signifient qu'il n'y a aucun avantage injuste pour les utilisateurs lorsqu'ils recherchent des produits entre l'un et l'autre.

Le placement de produits de sponsors dans les résultats de recherche est souvent une fonctionnalité courante sur de nombreux sites de commerce électronique, et la plupart du temps, les produits des sponsors ne font pas partie des résultats de recherche naturels. Veillez à ce que le placement et les produits affichés sur la page de résultats de recherche entre le site de contrôle et le site de test soient presque identiques, voire identiques. Sinon, cela ajoute du bruit à la mesure des métriques de performances de revenus, et en fonction de l'unicité des produits sponsorisés entre les sites de contrôle et de test, le bruit peut être plus élevé.

Autres aspects divers de l'interface utilisateur à prendre en compte :

Les informations sur les prix et les remises sont-elles les mêmes entre les sites de contrôle et de test ?
La saisie semi-automatique suggère-t-elle les mêmes complétions pour la requête de recherche ?
Les valeurs des facettes sont-elles dans le même ordre ?
Les produits sont-ils listés dans le même style, par exemple dans une liste ou une grille ?

Conseils et considérations finales

Pour concevoir un test A/B pertinent, gardez ces conseils à l'esprit :

Avant de configurer votre test A/B, utilisez l'aperçu de prédiction ou de recherche pour vous assurer que votre modèle se comporte comme prévu.
Assurez-vous que le comportement de votre site est identique pour le groupe de test et le groupe de contrôle.

Le comportement du site comprend la latence, le format d'affichage, le format de texte, la mise en page, la qualité et la taille des images. Il ne devrait y avoir aucune différence notable pour ces attributs entre les expérience des groupes de contrôle et de test.
Acceptez et affichez les résultats tels qu'ils sont renvoyés par AI Commerce Search, en les affichant dans l'ordre dans lequel ils sont renvoyés.

Il est acceptable de filtrer les articles non disponibles. Toutefois, vous devez éviter de filtrer ou de trier les résultats en fonction des règles de votre entreprise.
Si vous utilisez des événements utilisateur de recherche et que vous incluez le jeton d'attribution requis, assurez-vous qu'ils sont correctement configurés. Consultez la documentation sur les jetons d'attribution.
Assurez-vous que la configuration de diffusion que vous fournissez lorsque vous demandez des résultats de recommandation ou de recherche correspond à votre intention pour ce résultat de recommandation ou de recherche, ainsi qu'à l'emplacement où vous affichez les résultats.

Lorsque vous utilisez des recommandations, la configuration de diffusion affecte la manière dont les modèles sont entraînés et, par conséquent, les produits recommandés. En savoir plus.
Si vous comparez une solution existante à AI Commerce Search, assurez-vous que l'expérience du groupe de contrôle est strictement séparée de celle du groupe de test.

Si la solution de contrôle ne fournit pas de résultat de recommandation ou de recherche, n'en fournissez pas à partir d'AI Commerce Search sur les pages de contrôle. Cela fausserait les résultats de votre test.

Assurez-vous que vos utilisateurs ne passent pas du groupe de contrôle au groupe de test. Cela est particulièrement important au cours d'une même session, mais également recommandé entre les sessions. Cela améliore les performances du test et vous aide à obtenir plus rapidement des résultats de test A/B statistiquement significatifs.