Auf dieser Seite wird beschrieben, wie Sie A/B-Tests verwenden, um zu verstehen, wie sich AI Commerce Search auf Ihr Unternehmen auswirkt.
Übersicht
Ein A/B-Test ist ein zufälliger Test mit zwei Gruppen: einer Testgruppe und einer Kontrollgruppe. Die Testgruppe erhält eine andere Behandlung (in diesem Fall Vorhersagen oder Suchergebnisse aus AI Commerce Search) als die Kontrollgruppe.
Wenn Sie einen A/B-Test ausführen, geben Sie an, in welcher Gruppe sich ein Nutzer befand, wenn Sie Nutzerereignisse aufzeichnen. Diese Informationen werden verwendet, um das Modell zu verfeinern und Messwerte bereitzustellen.
Beide Versionen Ihrer Anwendung müssen identisch sein, mit der Ausnahme, dass Nutzer in der Testgruppe die von AI Commerce Search generierten Ergebnisse sehen und die Kontrollgruppe nicht. Nutzerereignisse werden für beide Gruppen protokolliert.
Weitere Informationen zur Trafficaufteilung finden Sie in der App Engine-Dokumentation unter Traffic aufteilen.
Testplattformen
Richten Sie den Test mithilfe einer Testplattform eines Drittanbieters wie VWO oder AB Tasty ein. Die Kontroll- und Testgruppen erhalten jeweils eine eindeutige Test-ID von der Plattform. Wenn Sie ein Nutzerereignis aufzeichnen, geben Sie im Feld experimentIds an, in welcher Gruppe sich der Nutzer befindet. Durch Angabe der Test-ID können Sie die Messwerte für die Versionen Ihrer Anwendung vergleichen, die von der Kontroll- bzw. Testgruppe gesehen werden.
Best Practices für A/B-Tests
Das Ziel eines A/B-Tests ist es, die Auswirkungen der Aktualisierung Ihrer Website (in diesem Fall AI Commerce Search) genau zu bestimmen. Damit Sie die Auswirkungen genau ermitteln können, müssen Sie den Test korrekt entwerfen und implementieren, damit sich keine anderen Unterschiede einschleichen und auf die Testergebnisse auswirken.
Empfohlene Zuordnung der Test-ID
Test-IDs werden für A/B-Tests verwendet, bei denen Sie die KI-Commerce-Suche mit einer vorhandenen Suchlösung vergleichen können. Sie können auch verwendet werden, um Experimente mit einer vollständig eingeführten KI-Commerce-Suchwebsite durchzuführen, bei denen eine neue Konfiguration, ein neues Steuerelement oder eine neue Boost-Spezifikation im Vergleich zu einer Kontrollgruppe getestet werden muss.
Das Feld „Test-ID“ in den Nutzerereignissen ist ein Array, das eine detailliertere Analyse ermöglicht.
Betrachten Sie folgende Anwendungsfälle:
- Die Leistung von AI Commerce Search muss mit einer Kontrollgruppe verglichen werden.
- Die Gesamtleistung muss gemessen werden.
- Die Leistung muss nur auf Mobilgeräten gemessen werden.
- Die Leistung muss nur auf Computern gemessen werden.
- Die Leistung von Suchanfragen und Empfehlungen muss ebenfalls separat gemessen werden.
Für so detaillierte und aufgeschlüsselte Analysen benötigen Sie möglicherweise insgesamt 10 Test-IDs, von denen vier für jedes Ereignis im Array „Test-ID für Ereignisse“ gesendet werden müssen.
| Test-IDs für die Ereignis-Kontrollgruppe | Test-IDs für die Testereignisgruppe (Suche nach Commerce) | Umfang von Nutzerereignissen |
|---|---|---|
| Kontrolle | AI Commerce Search | Alle Ereignisse |
Control_mobile |
Google_mobile |
Alle mobilen Ereignisse |
Control_desktop |
Google_desktop |
Alle Desktop-Ereignisse |
Control_search |
Google_search |
Alle Suchanfragen und zugehörigen Ereignisse |
Control_recommendations |
Google_recommendations |
Alle Empfehlungen und zugehörigen Ereignisse |
Um die Gesamtleistung zu messen, vergleichen Sie die Messwerte, die aus Ereignissen mit den Test-IDs Control und AI Commerce Search abgeleitet wurden. Um die Leistung der mobilen Suche zu messen, vergleichen Sie die Messwerte, die aus Ereignissen mit den Test-IDs Control_mobile + Control_search im Vergleich zu Google_mobile + Google_search abgeleitet werden.
Kategoriehierarchie
Achten Sie darauf, dass dieselben Produkte in der Kontroll- und der Testgruppe dieselbe Kategoriehierarchie haben. Nehmen wir an, auf der Kontrollwebsite hat ein T-Shirt-Produkt die Kategoriehierarchie clothing > mens > tops > tee-shirts und dasselbe Produkt hat auf der Testwebsite die Kategoriehierarchie mens > popular > tops. Diese Einrichtung führt zu unterschiedlichen Suchergebnissen und unterschiedlichen Kategorien auf den Kontroll- und Testwebsites. Dieses Problem wirkt sich auf die Browsernutzung aus, da page_category zusammen mit Filtern die Eingabe für den Browse-Aufruf ist.
Parität der Nutzerfreundlichkeit vor A/B-Tests
Wenn Sie die Website für A/B-Tests vorbereiten, bevor Sie Such- oder Empfehlungsverkehr von echten Nutzern mit der richtigen Zuordnung der Test-ID an AI Commerce Search senden, ist es wichtig, dass die Benutzeroberfläche und die Nutzerfreundlichkeit der Commerce-Website mit dem alten Such-Backend als Kontrollgruppe und der Website mit dem AI Commerce Search-Backend identisch sind.
Bei einer Suchanfrage sollten Sie zwischen den Suchergebnisseiten für das Kontroll-Such-Backend und das AI Commerce Search-Backend unter anderem Folgendes testen:
Wird die gleiche Anzahl von Facetten angezeigt? Falls nicht, sehen Sie sich die Attributspezifikationen und ‑einstellungen in AI Commerce Search an . Das ist wichtig, weil Nutzer mit Facetten die ursprünglichen Suchergebnisse filtern und zum gewünschten Produkt navigieren können. Bessere und aussagekräftigere Facets bedeuten, dass Nutzer weniger Zeit benötigen, um das gewünschte Produkt zu finden. Andernfalls führt dies zu mehr Klicks und Scrollen, was die Suche beeinträchtigen und sich letztendlich auf die Conversion- und Klickraten auswirken kann. Dies kann auch dazu führen, dass Nutzer die Suche abbrechen. Wenn die Kontroll- und Testwebsites ähnliche Facetten haben, haben Nutzer also keinen unfairen Vorteil, wenn sie auf der einen oder der anderen Website nach Produkten suchen.
Die Platzierung von Produkten von Sponsoren in den Suchergebnissen ist auf vielen E-Commerce-Websites üblich. In den meisten Fällen sind die Produkte der Sponsoren nicht Teil der organischen Suchergebnisse. Achten Sie darauf, dass die Platzierung und die Produkte, die auf der Suchergebnisseite der Kontroll- und der Testwebsite angezeigt werden, nahezu identisch sind. Andernfalls wird den Messungen der Umsatzleistungs-Messwerte Rauschen hinzugefügt. Je nach Einzigartigkeit der gesponserten Produkte zwischen den Kontroll- und Testwebsites kann das Rauschen höher ausfallen.
Weitere Aspekte der Benutzeroberfläche, die Sie berücksichtigen sollten:
- Sind die Preis- und Rabattinformationen auf den Kontroll- und Testwebsites identisch?
- Schlägt die automatische Vervollständigung dieselben Vervollständigungen für die Suchanfrage vor?
- Sind die Facettenwerte in derselben Reihenfolge?
- Werden die Produkte im selben Stil aufgeführt, z. B. in einer Liste oder einem Raster?
Abschließende Tipps und Hinweise
Beachten Sie die folgenden Tipps, um einen aussagekräftigen A/B-Test zu erstellen:
Bevor Sie Ihren A/B-Test einrichten, sollten Sie mithilfe der Vorhersage- oder Suchvorschau prüfen, ob sich Ihr Modell wie erwartet verhält.
Achten Sie darauf, dass das Verhalten Ihrer Website für die Testgruppe und die Kontrollgruppe identisch ist.
Das Verhalten der Website umfasst Latenz, Anzeigeformat, Textformat, Seitenlayout, Bildqualität und Bildgröße. Zwischen den Attributen der Kontroll- und Testgruppen sollte es keinen erkennbaren Unterschied geben.
Akzeptieren und zeigen Sie die Ergebnisse an, die von AI Commerce Search zurückgegeben werden, und zeigen Sie sie in derselben Reihenfolge an, in der sie zurückgegeben werden.
Das Herausfiltern von Artikeln, die nicht auf Lager sind, ist akzeptabel. Sie sollten jedoch vermeiden, dass Ergebnisse basierend auf Ihren Geschäftsregeln gefiltert oder sortiert werden.
Wenn Sie Nutzerereignisse für die Suche verwenden und das erforderliche Attributionstoken darin einfügen, müssen Sie darauf achten, dass sie richtig eingerichtet sind. Weitere Informationen finden Sie in der Dokumentation zu Attributionstokens.
Achten Sie darauf, dass die Bereitstellungskonfiguration, die Sie beim Anfordern von Empfehlungen oder Suchergebnissen angeben, mit Ihrer Absicht für diese Empfehlung oder dieses Suchergebnis übereinstimmt und mit der Position, an der Sie die Ergebnisse anzeigen.
Wenn Sie Empfehlungen verwenden, wirkt sich die Bereitstellungskonfiguration darauf aus, wie Modelle trainiert werden und welche Produkte empfohlen werden. Weitere Informationen
Wenn Sie eine vorhandene Lösung mit AI Commerce Search vergleichen, sollten Sie die Erfahrung der Kontrollgruppe strikt von der Erfahrung der Testgruppe trennen.
Wenn die Kontrolllösung keine Empfehlung bzw. Suchergebnis bereitstellt, geben Sie keines über AI Commerce Search auf den Kontrollseiten an. Dies verzerrt sonst Ihre Testergebnisse.
Achten Sie darauf, dass Ihre Nutzer nicht zwischen der Kontrollgruppe und der Testgruppe wechseln. Das ist besonders wichtig innerhalb derselben Sitzung, wird aber auch für sitzungsübergreifende Aktionen empfohlen. So wird die Testleistung verbessert und Sie erhalten schneller statistisch signifikante A/B-Testergebnisse.