Amazon A/B Testing - Experimente zum Erfolg

Für Brand Owner ist es nun möglich, verschiedene Produktbilder oder Produkttitel bei Amazon gegeneinander hinsichtlich verschiedener Metriken auf Erfolg testen zu lassen.

Mit der Funktion Experimente Verwalten, die sich für Seller unter dem Menüpunkt “Marken” verbirgt, können verschiedene Experimente für Produkte angelegt werden.

Um Experimente durchführen zu können, musst Du zunächst deine Marke in der Amazon Brand Registry erfolgreich hinterlegt haben.

Ein Experiment anlegen

Für ein Experiment kannst Du eine beliebiges Produkt deiner Marke auswählen. Zunächst musst Du sich jedoch entscheiden, ob Du einen Produkttitel oder Produktabbildungen im Experiment vergleichen willst (zukünftig sollen auch noch weitere Bestandteile eines Produktlistings verglichen werden können). Dann über die Suche die entsprechende ASIN aus, die Du untersuchen möchtest.

Auf der nächsten Seite musst Du nun einen Namen für das Experiment vergeben. Wähle eine Dauer (von 4 bis zu 10 Wochen) und ein Startdatum. Je länger ein Experiment dauert, desto mehr Aussagekraft werden die Zahlen haben.

AB-Testing Neues Bild Experiment erstellen

Zudem lässt sich eine Hypothese für dein Experiment formulieren. Amazon schreibt dazu:

Die Formulierung einer Hypothese ist der Schlüssel für einen erfolgreichen Test. Ein erfolgreicher Test führt nicht immer dazu, dass Sie das gewünschte Ergebnis erhalten. Wenn Sie jedoch strategisch eine Hypothese definieren, können Sie immer etwas dazulernen, unabhängig vom Ergebnis Ihres Experiments

Typische Hypothesen lauten dabei wie folgt:

Wenn Sie mein Bild von seinem aktuellen Blickwinkel in einen neuen Blickwinkel ändern, wird die Konversion verbessert.
Wenn Sie mein Bild ändern, um alle Artikel zu integrieren, die im Kauf enthalten sind, werden Sie den Umsatz steigern.
Wenn Sie mein Bild ändern, um ein Modell aufzunehmen, steigern Sie den Umsatz, indem Sie Klarheit darüber schaffen, was wirklich enthalten ist.

Diese Hypothese ist nur für dich selbst wichtig, um später erkennen zu können, was Du getestet hast. Amazon wird diese nicht berücksichtigen. Wir wählen in unseren Beispiel die erste Hypothese und wählen dann ein entsprechendes Bild mit einem alternativen Blickwinkel für unser Hauptbild aus. Da es sich bei unserem Produkt um eine Variantenfamilie handelt, müssen wir nun zusätzlich für jedes Child ein alternatives Bild hochladen, ansonsten können wir das Experiment nicht anlegen. AB-Testing Varianten anzeigen

Schon mal vorweg: Die Ergebnisse aller Varianten werden am Ende zusammengezählt. Einzelne Varianten lassen sich aktuell nicht testen. Willst Du hier nur eine Variante testen, solltest Du für die übrigen Varianten unveränderte Bilder hochladen. So wird nur eine Variante im Test verändert. Dennoch wird sich dies auf den gesamten Test auswirken, wie genau wissen wir aber nicht. Wie Du später bei unter Ergebnissen lesen kannst, lassen sich einzelne Varianten in den Daten leider nicht näher ableiten.

Während des Tests gibt Amazon bereits nach 1-2 Wochen erste Ergebnisse aus. Du solltest aber das Ende des Experiments immer abwarten, bevor Du die Ergebnisse interpretieren und Schlüsse daraus ziehen.

Ergebnisse von AB-Tests

AB-Testing Metrische Werte

An dieser Stelle wird leider nicht klar, inwieweit die verschiedenen Childs die Ausprägung des Experiments beeinflussen. Amazon zeigt keine individuellen Daten für Childs an. Wir haben für die vier Childs aus unserem Test jeweils verschiedene Bilder hochgeladen. Hier wäre nun eigentlich interessant zu sehen, welches Child wie im Test berücksichtigt wurde und welches Bild die Veränderungen inwieweit hervorgerufen hat. Ist vielleicht nur ein Child besonders häufig aufgerufen worden und hat für die Veränderungen gesorgt? Solche Werte gibt es aber bisher nicht.

In der Auswertung zeigt Amazon die Wahrscheinlichkeiten für beide Testvarianten an. In unserem Beispiel ergibt sich eine Wahrscheinlichkeit von 93%, dass Version B besser ist und eine Wahrscheinlichkeit von 7%, dass Version A besser ist.

Dies ist eine wichtige Aussage, denn sie besagt, dass es 93% der mögliche Auswirkungen auf positive Verkaufseffekte bei Version B hindeuten und, dass Version B besser performen wird als A.

Dazu erklärt Amazon:

Wir verwenden die Daten Ihres Experiments und statistischen Methoden, um den besseren Inhalt zu bestimmen. Zufall kann eine Rolle spielen und so kann der Erfolg Ihres Inhalts während des Experiments möglicherweise nicht mit dem zukünftigen Erfolg übereinstimmen. Daher besteht nach wie vor die Wahrscheinlichkeit, dass die andere Version besser ist. Wenn Ihr Experiment im Laufe der Zeit mehr Daten sammelt, kann ein Gewinner oft mit höhererWahrscheinlichkeit bestimmt werden.

Detailwerte für Test-Versionen

Amazon gibt für die beiden Testvarianten folgende Werte an:

Einheit pro eindeutigem Besucher (Summe der bestellten Einheiten geteilt durch die Gesamtzahl der Einzelbesucher des Experiments. Nur Besucher, die das Bild sehen, werden im Experiment gezählt. Nicht alle Besucher der Detailseite wurden in dem Experiment gezählt)
Konversion (Kunden, die mindestens einen Artikel gekauft haben, geteilt durch die Gesamtzahl der Kunden*Kundinnen im Experiment)
Verkauft Einheit (Summe der Einheiten, die von Kunden*Kundinnen im Experiment bestellt wurden)
Aus der Suche verkaufte Einheiten (Summe der Einheiten, die von Kunden*Kundinnen im Experiment bestellt wurden)
Verkauf (Umsatz, Verkäufe an Kunden*Kundinnen im Experiment)
Verkäufe aus der Suche (Umsatz, Verkäufe an Kunden*Kundinnen im Experiment, die das Produkt zum ersten Mal auf der Suchseite gesehen haben)
Stichprobenumfang (Anzahl der Einzelkäufer des Experiments. Nur angemeldete Käufer, die das Bild sehen, werden gezählt. Nicht alle Käufer sind zwangsläufig Teil des Experiments. Amazon schreibt weiter: Kleine Unterschiede beim Stichprobenumfang sind kein Grund zur Sorge. Wir passen dies bei der Berechnung der Ergebnisse automatisch an.

Problematische Berechnung

Schauen wir uns die Werte anhand unseres Beispiels einmal genauer an:

Die Bestellungen pro eindeutigem Besucher sind nahezu unverändert. 19.747 Nutzer haben Version A in der Suche gehen (Stichprobenumfang). Dabei wurden 79 Einheiten verkauft (79/19.747 = 0,004). In Version B sind es ganze 0,002 mehr Einheiten pro eindeutigem Besucher, total pro Order also fast unverändert. Im direkten Vergleich aber immerhin ein Unterschied von 33%.

Die Konversion beträgt in Version A 0,29% vs. 0,38% in Version B. Die Conversion, die Amazon hier zeigt ist allerdings nicht nachvollziehbar. Weder die Zahl der Verkauften Einheiten noch die aus der Suche heraus verkauften Einheiten (EH), bezogen auf den Stichprobenumfang, ergeben diese Conversionrate. Für Variante A würde das bedeuten, dass jeder 340. Nutzer der den Artikel gesehen hat, auch kauft. Wir wissen aber ja von der vorherigen Kennzahl (Bestellungen pro eindeutigem Besucher), dass es für Variante A 0,004 EH pro Besucher waren, also jeder 250., was eine Konversion von 0,4% bedeuten würde. Schauen wir uns die sonstigen Berichte dieser ASIN in Seller Central an, liegt die CR hier normalerweise bei >20%, bezogen auf die Sessions auf der Produktdetailseite.

Was auch immer Amazon bei den Experimenten betrachtet, diese Konversion kann sich eigentlich nur auf die Benutzer, die das Bild in der Suche gehen haben, beziehen, aber auch nicht auf den Stichprobenumfang. Wie dem auch sei, ein Unterschied in der Konversion von rund 0,09% klingt jetzt nicht sehr aussagekräftig. Von Version zu Version sind aber auch das +30%.

Die Verkauften Einheiten betragen 79 zu 112. In Version B also rund 41% mehr (+33 EH), was doch ein sehr deutlicher Unterschied ist.

Die aus der Suche verkauften Einheiten weisen für Version B einen Zuwachs von +23EH aus. Ein Plus von 56%.

Auch bei den Verkäufen nach Umsatz liegt die Version B mit +608€ (+46%) ebenfalls vorne. Warum der Unterschied hier in Prozent nicht den verkauften Einheiten entspricht, bleibt ebenso fraglich.

Auch die Verkäufe aus der Suche liegen bei Version B um 404 € höher (+58%). Dieser Wert liegt tatsächlich nah an den aus der Suche verkauften Einheiten (+56%).

Der Stichprobenumfang ist für beide Versionen in etwa gleich und variiert nur um 80, was weniger als 0,004% entspricht. Das ist gut für die Aussagekraft der Daten, denn nur gleich große Stichproben können auch interpretiert werden.

Desweiteren spendiert Amazon für Verkaufte Einheiten, Gesamtverkauf und die Konversionrate zudem noch einzelne Graphen auf Wochenbasis.

AB-Testing Anzeige nach:Verkaufte Einheit

AB-Testing Anzeige nach:Gesamtverkauf

AB-Testing Anzeige nach:Konversationrate

Hier sehen wir, dass die zweite Woche unsere Experiments über diese Kennzahlen fast keine Unterschiede in den beiden Versionen hervorbrachte. Dies sollten wir bei der Gesamtinterpretation der Ergebnisse berücksichtigen.

Zu erwartende Auswirkungen über ein Jahr

AB-Testing Anzeige nach:Potenzieller Effekt

In einem weiteren Bereich gibt Amazon noch den potentiellen Effekt der Veränderungen über ein Jahr an. Es wird eine Schätzung des möglichen positiven Verkaufseffekts für das nächste Jahr angezeigt, der durch die Veröffentlichung der Inhaltsversion mit den besseren Ergebnissen erreicht werden kann. Annahme: Wenn mit hoher Wahrscheinlichkeit eine bessere Version bestimmt wird, sind die meisten erwarteten Auswirkungen auch positiv. Wenn nur mit geringer Wahrscheinlichkeit eine bessere Version bestimmt wird, können die Auswirkungen im ungünstigsten Fall negativ sein. Dies liegt daran, dass die Version, die im Experiment schlechtere Ergebnisse erzielt hat, mit der Zeit immer noch besser abschneiden kann. Da unser Experiment nur 4 Wochen lief, sind hier leider keine Daten verfügbar.

Verwendete Methodik

Amazon verwendet zur Analyse nur Nutzer, die verschiedenen Kundenkonten zugerechnet werden können, um klare Aussagen zu treffen. Zur verwendeten Analyse-Methodik schreibt Amazon:

Bei der Analyse der Experimentergebnisse wenden wir den bayesschen Ansatz an. Das bedeutet, dass wir die Wahrscheinlichkeitsverteilung sowohl auf der Grundlage eines Modells als auch anhand der tatsächlichen Experimentergebnisse konstruieren. Wir weisen die mittlere Effektstärke (in Bezug auf Änderung von Einheiten) sowie das 95-%-Konfidenzintervall (auch bekannt als Vertrauensintervall) der A-posteriori- Wahrscheinlichkeitsverteilung aus. Diese wird im Verlauf des Experiments wöchentlich auf der Grundlage aller seit Beginn erfassten experimentellen Daten aktualisiert. Das Konfidenzintervall des Siegers ist der prozentuale Anteil der Ergebnisse in der Wahrscheinlichkeitsverteilung, die einen positiven Einfluss auf die Absatzzahlen haben.

Fazit

Vielleicht kannst Du dich ja noch an einige Dinge aus deiner Statistik-Vorlesung erinnern. Dann weißt Du wie schwer es ist, eine Datengrundlage für eine aussagekräftige Statistik zu schaffen. Dies solltest Du im Hintergrund bedenken, wenn Du deinen AB-Test interpretieren willst.

Für unseren Test sehen die Zahlen auf den Ersten Blick zunächst gut aus. Auch die Wahrscheinlichkeit, dass die Variante B besser ist, liegt bei über 90%. In den Details entstehen aber doch einige Fragezeichen, warum die Verkäufe in Variante B so viel mehr sind, die Konversion zwar rund 30% besser ausfällt, in im Wert viel geringer erscheint. Da die Werte in Woche zwei des Experimentes sehr ähnlich waren, lässt auch das viel Interpretationsspielraum zu. Waren die anderen beiden Wochen Ausreißer? Warum sehen wir keine Daten zur Woche vier?

Insgesamt scheint aktuell nicht nachvollziehbar, wie die einzelnen Werte für Amazon-Experimente genau entstehen. So lange diese Unsicherheit besteht und keine klareren Definitionen vorliegen, solltest Du die Aussagekraft deiner Experimente zunächst in Frage stellen.

Und das größte Problem was aus den Daten gar nicht hervorgeht: Inwieweit die verschiedenen Varianten in der Suche ausgespielt wurden und das Ergebnis verzerrt haben. Sollte ich also gleich alle 4 Bilder ändern? Eine gewagte These…

Für mich persönlich ist es aber nicht so wichtig, ob der Winkel meines Hautbildes nun 10 Grad mehr oder weniger beträgt, das wird Kunden*Kundinnen jedenfalls nicht davon abbringen, das Produkt zu kaufen. Ich finde Version A nämlich eh schöner und werde daher zunächst einen weiteren und längeren Test machen, um zu überprüfen ob wieder das gleiche Ergebnis herauskommt, bevor ich ein anderes Bild verwenden werde.

Update 1.Oktober 2021:

Amazon hat angekündigt, dass in Q1 2022 das Ab-Testing für A+ Content kommen soll.

Amazon A/B Testing - Experimente zum Erfolg

Ein Experiment anlegen