Allgemeine Anleitung zum Durchführen von A/B-Tests

Auf dieser Seite wird beschrieben, wie Sie A/B-Tests verwenden, um zu verstehen, wie sich Vertex AI Search for Commerce auf Ihr Unternehmen auswirkt.

Übersicht

Ein A/B-Test ist ein zufälliger Test mit zwei Gruppen: einer Testgruppe und einer Kontrollgruppe. Die Testgruppe erhält eine andere Behandlung (in diesem Fall Vorhersagen oder Suchergebnisse aus Vertex AI Search for Commerce) als die Kontrollgruppe.

Wenn Sie einen A/B-Test ausführen, geben Sie an, in welcher Gruppe sich ein Nutzer befand, wenn Sie Nutzerereignisse aufzeichnen. Diese Informationen werden verwendet, um das Modell zu verfeinern und Messwerte bereitzustellen.

Beide Versionen Ihrer Anwendung müssen identisch sein, mit der Ausnahme, dass Nutzer in der Testgruppe die von Vertex AI Search for Retail generierten Ergebnisse sehen und die Kontrollgruppe nicht. Nutzerereignisse werden für beide Gruppen protokolliert.

Weitere Informationen zur Trafficaufteilung finden Sie in der App Engine-Dokumentation unter Traffic aufteilen.

Testplattformen

Richten Sie den Test mithilfe einer Testplattform eines Drittanbieters wie VWO oder AB Tasty ein. Die Kontroll- und Testgruppen erhalten jeweils eine eindeutige Test-ID von der Plattform. Wenn Sie ein Nutzerereignis aufzeichnen, geben Sie im Feld experimentIds an, in welcher Gruppe sich der Nutzer befindet. Durch Angabe der Test-ID können Sie die Messwerte für die Versionen Ihrer Anwendung vergleichen, die von der Kontroll- bzw. Testgruppe gesehen werden.

Best Practices für A/B-Tests

Das Ziel eines A/B-Tests ist es, die Auswirkungen der Aktualisierung Ihrer Website (in diesem Fall Vertex AI Search for Commerce) genau zu bestimmen. Damit Sie die Auswirkungen genau ermitteln können, müssen Sie den Test korrekt entwerfen und implementieren, damit sich keine anderen Unterschiede einschleichen und auf die Testergebnisse auswirken.

Empfohlene Zuordnung der Test-ID

Test-IDs werden für A/B-Tests verwendet, bei denen Sie Vertex AI Search for Commerce mit einer vorhandenen Suchlösung vergleichen können. Sie können auch verwendet werden, um Tests mit einer vollständig übernommenen Vertex AI Search for Commerce-Website durchzuführen, bei der eine neue Konfiguration, Kontrollgruppe oder Boost-Spezifikation getestet werden muss.

Das Feld „Test-ID“ in den Nutzerereignissen ist ein Array, das eine detailliertere Analyse ermöglicht.

Betrachten Sie folgende Anwendungsfälle:

Die Leistung von Vertex AI Search for Commerce muss mit einer Kontrollgruppe verglichen werden.
Die Gesamtleistung muss gemessen werden.
Die Leistung muss nur auf Mobilgeräten gemessen werden.
Die Leistung muss nur auf Computern gemessen werden.
Die Leistung von Suchanfragen und Empfehlungen muss ebenfalls separat gemessen werden.

Für so detaillierte und aufgeschlüsselte Analysen benötigen Sie möglicherweise insgesamt 10 Test-IDs, von denen vier für jedes Ereignis im Array „Ereignis-Test-ID“ gesendet werden müssen.

Test-IDs für die Ereignis-Kontrollgruppe	Test-IDs für die Testereignisgruppe (Suche nach Commerce)	Umfang von Nutzerereignissen
Kontrolle	Vertex AI Search for Commerce	Alle Ereignisse
`Control_mobile`	`Google_mobile`	Alle mobilen Ereignisse
`Control_desktop`	`Google_desktop`	Alle Desktop-Ereignisse
`Control_search`	`Google_search`	Alle Suchanfragen und zugehörigen Ereignisse
`Control_recommendations`	`Google_recommendations`	Alle Empfehlungen und zugehörigen Ereignisse

Um die Gesamtleistung zu messen, vergleichen Sie die Messwerte, die aus Ereignissen mit den Test-IDs Control und Vertex AI Search for Commerce abgeleitet wurden. Um die Leistung der mobilen Suche zu messen, vergleichen Sie die Messwerte, die aus Ereignissen mit den Test-IDs Control_mobile + Control_search im Vergleich zu Google_mobile + Google_search abgeleitet werden.

Kategoriehierarchie

Achten Sie darauf, dass dieselben Produkte in Kontroll- und Testgruppe dieselbe Kategoriehierarchie haben. Nehmen wir beispielsweise an, dass ein T-Shirt-Produkt auf der Kontrollwebsite die Kategoriehierarchie clothing > mens > tops > tee-shirts hat und dasselbe Produkt auf der Testwebsite unter einer anderen Kategoriehierarchie geführt wird, nämlich mens > popular > tops. Diese Einrichtung führt zu unterschiedlichen Suchergebnissen und unterschiedlichen Kategorien auf den Kontroll- und Testwebsites. Dieses Problem wirkt sich auf die Browsernutzung aus, da page_category zusammen mit Filtern die Eingabe für den Browse-Aufruf ist.

Parität der Nutzerfreundlichkeit vor A/B-Tests

Wenn Sie die Website für A/B-Tests vorbereiten, bevor Sie Such- oder Empfehlungsverkehr von echten Nutzern mit der richtigen Zuordnung der Test-ID an Vertex AI Search for Commerce senden, ist es wichtig, dass die Benutzeroberfläche und die Nutzerfreundlichkeit der Commerce-Website mit dem alten Such-Backend als Kontrollgruppe und der Website mit dem Vertex AI Search for Commerce-Backend identisch sind.

Bei einer Suchanfrage sollten Sie unter anderem Folgendes auf den Suchergebnisseiten für das Kontroll-Such-Backend und das Vertex AI Search for Commerce-Backend testen:

Wird die gleiche Anzahl von Facetten angezeigt? Falls nicht, sehen Sie sich die Facettenspezifikationen und Attributeinstellungen in Vertex AI Search for Commerce an . Das ist wichtig, weil Nutzer mit Facetten die ursprünglichen Suchergebnisse filtern und zum gewünschten Produkt navigieren können. Bessere und aussagekräftigere Facets bedeuten, dass Nutzer weniger Zeit benötigen, um das gewünschte Produkt zu finden. Andernfalls führt dies zu mehr Klicks und Scrollen, was die Suche beeinträchtigen und sich letztendlich auf die Conversion- und Klickraten auswirken kann. Dies kann auch dazu führen, dass Nutzer die Suche abbrechen. Wenn die Kontroll- und Testwebsites ähnliche Facetten haben, haben Nutzer also keinen unfairen Vorteil, wenn sie auf der einen oder der anderen Website nach Produkten suchen.

Die Produktplatzierung von Sponsoren in den Suchergebnissen ist auf vielen E-Commerce-Websites üblich. In den meisten Fällen sind die Produkte der Sponsoren nicht Teil der organischen Suchergebnisse. Achten Sie darauf, dass die Platzierung und die Produkte, die auf der Suchergebnisseite der Kontroll- und der Testwebsite angezeigt werden, nahezu identisch sind. Andernfalls wird den Messungen der Umsatzleistungs-Messwerte Rauschen hinzugefügt. Je nach Einzigartigkeit der gesponserten Produkte zwischen den Kontroll- und Testwebsites kann das Rauschen höher ausfallen.

Weitere Aspekte der Benutzeroberfläche, die Sie berücksichtigen sollten:

Sind die Preis- und Rabattinformationen auf den Kontroll- und Testwebsites identisch?
Schlägt die automatische Vervollständigung dieselben Vervollständigungen für die Suchanfrage vor?
Sind die Facettenwerte in derselben Reihenfolge?
Werden die Produkte im selben Stil präsentiert, z. B. in einer Liste oder einem Raster?

Abschließende Tipps und Hinweise

Beachten Sie die folgenden Tipps, um einen aussagekräftigen A/B-Test zu erstellen:

Bevor Sie Ihren A/B-Test einrichten, sollten Sie mithilfe der Vorhersage- oder Suchvorschau prüfen, ob sich Ihr Modell wie erwartet verhält.
Achten Sie darauf, dass das Verhalten Ihrer Website für die Testgruppe und die Kontrollgruppe identisch ist.

Das Verhalten der Website umfasst Latenz, Anzeigeformat, Textformat, Seitenlayout, Bildqualität und Bildgröße. Zwischen den Attributen der Kontroll- und Testgruppen sollte es keinen erkennbaren Unterschied geben.
Akzeptieren und zeigen Sie die Ergebnisse an, die von Vertex AI Search for Commerce zurückgegeben werden, und zeigen Sie sie in derselben Reihenfolge an, in der sie zurückgegeben werden.

Das Herausfiltern von Artikeln, die nicht auf Lager sind, ist akzeptabel. Sie sollten jedoch vermeiden, dass Ergebnisse basierend auf Ihren Geschäftsregeln gefiltert oder sortiert werden.
Wenn Sie Nutzerereignisse für die Suche verwenden und das erforderliche Attributionstoken darin einfügen, müssen Sie darauf achten, dass sie richtig eingerichtet sind. Weitere Informationen finden Sie in der Dokumentation zu Attributionstokens.
Achten Sie darauf, dass die Bereitstellungskonfiguration, die Sie beim Anfordern von Empfehlungen oder Suchergebnissen angeben, mit Ihrer Absicht für diese Empfehlung oder dieses Suchergebnis übereinstimmt und mit der Position, an der Sie die Ergebnisse anzeigen.

Wenn Sie Empfehlungen verwenden, wirkt sich die Bereitstellungskonfiguration darauf aus, wie Modelle trainiert werden und welche Produkte empfohlen werden. Weitere Informationen
Wenn Sie eine vorhandene Lösung mit Vertex AI Search for Commerce vergleichen, sollten Sie die Erfahrung der Kontrollgruppe strikt von der Erfahrung der Testgruppe trennen.

Wenn die Kontrolllösung keine Empfehlung bzw. Suchergebnis bereitstellt, geben Sie keines über Vertex AI Search for Commerce auf den Kontrollseiten an. Dies verzerrt sonst Ihre Testergebnisse.

Achten Sie darauf, dass Ihre Nutzer nicht zwischen der Kontrollgruppe und der Testgruppe wechseln. Das ist besonders wichtig innerhalb derselben Sitzung, wird aber auch für sitzungsübergreifende Aktionen empfohlen. So wird die Testleistung verbessert und Sie erhalten schneller statistisch signifikante A/B-Testergebnisse.