Die Daten eines Tests zu beurteilen bedeutet mehr als auf die Signifikanz-Zahl im Testing-Tool zu sehen. Bei der Interpretation von Tests bleiben häufig wesentliche Einflussfaktoren unberücksichtigt. Man läuft daher schnell Gefahr aufs falsche Pferd zu setzen. Hier erfahren Sie, was Sie bei der Interpretation von Tests beachten müssen.
3. Über e-dialog
3
3
• gegründet 2003
• 20 angestellte Mitarbeiter
• Märkte: D-A-CH (plus Konzerntöchter)
• Branchen: alle, die Geschäft machen
Mehr Infos unter:
www.e-dialog.at
4. Wir setzen einen Test auf.
Es sollen folgende Elemente auf der Produktdetailseite
eines Reiseunternehmens getestet werden:
• Call-to-Action:
• Vertrauensverstärker:
Ohne Stornohinweis vs. mit Stornohinweis
Als Ziel wird die Click-through Rate gemessen.
4
Jetzt buchen! Heute buchen!vs.
5. Variante (pink): 2%
Dezember
Control (rot): 0,6%
November
Machen wir doch einen sequentiellen Test.
Einzelne Varianten werden im zeitverlauf einzeln nacheinander getestet
Störfaktoren:
• Unterschiedliches Verhalten nach Saison,…
• Ereignisse, zB Fußball WM, Weihnachten,…
• Kampagnen-Einflüsse der Konkurrenz
• Unterschiedlicher Traffic
• Wetter,…
5
Control (rot): 0,6% Variante (pink): 2%
Testvarianten daher zeitgleich gegeneinander testen!
6. Ok, wir machen einen multivariaten Test.
Ergebnis:
6
Juhu, wir haben einen Testsieger – Variante 4 ist signifikant!
7. Was hat es mit der „Signifikanz“ auf sich?
Ist ein Ergebnis signifikant, so ist der Unterschied zwischen
der Control und der Variante nicht zufällig zustande
gekommen.
Dennoch besteht eine Irrtumswahrscheinlichkeit:
7
Irrtumswahrscheinlichkeit Wissenschaftliche Konvention
> 5% Nicht signifikant
≤ 5% Signifikant
≤ 1% Sehr signifikant
≤ 0,1% Hoch signifikant
8. Was gilt es zu beachten?
Je höher die Irrtumswahrscheinlichkeit desto höher die
Wahrscheinlichkeit sich für die falsche Variante zu
entscheiden!
Je geringer die Irrtumswahrscheinlichkeit sein soll, desto
• mehr Datenmaterial wird benötigt und/oder
• größer muss die Veränderung der Messwerte zwischen der Control
und Variante sein.
8
9. Signifikant ist nicht gleich valide
Je weniger Messwerte vorhanden sind,
desto ungenauer sind die Ergebnisse!
9
49,9% - 75,2%
35,6% - 78,2%
28,8% - 45,6%
10. Wie hoch muss meine Sample-Größe sein?
Sample-Größe errechnen:
10
https://www.optimizely.de/resources/sample-size-calculator?conversion=2&effect=10&significance=95
11. Testergebnis 2 Wochen später:
11
Ohh…Variante 4 ist nicht mehr signifikant!
Variante 2 hat dafür ein signifikantes Ergebnis erreicht!
12. Wie lange soll der Test laufen?
Testlaufzeit hängt
ab von:
• Anzahl an Varianten
• Anzahl an Visitors
• Höhe der Conversion-
Veränderung zwischen
Control und Variante
12
http://www.convert.com/tools/ab-split-multivariate-test-duration-visitor-calculator/
13. Bei der Testlaufzeit berücksichtigen…
Unterschiedliches Verhalten an Arbeitstagen vs.
Wochenenden, tagsüber vs. Abend,…
Traffic-Querschnitt
Buying Cycle
13
14. Achtung vor zu vielen Varianten!
Deutlich größere Stichprobengröße wird benötigt.
Je mehr Varianten desto höher die Fehlerwahrscheinlichkeit
(Alpha-Fehler-Kumulation).
Formel bei einer Irrtumswahrscheinlichkeit von 5%:
14Quelle: http://de.slideshare.net/andreaskorsus/cc13-korsus
9,75%
18,55%
33,66%
45,96%
2 Varianten 4 Varianten 8 Varianten 12 Varianten
5%
1 Variante
15. Umgang mit der Fehlerwahrscheinlichkeit bei MVT
Testvarianten mit Bedacht und Sinnhaftigkeit auswählen
Testhypothesen bilden
Fehlerwahrscheinlichkeit reduzieren! Wie?
• Stichprobengröße erhöhen
• Höheres Vertrauensintervall anstreben =
• Erkenntnisse aus multivariaten Tests mit wenigen Varianten
verifizieren
15Quelle: http://de.slideshare.net/andreaskorsus/cc13-korsus
17. Der Test bringt keinen Testsieger hervor!
17
Alle Test-Visitors!
18. Wie sehen die Testergebnisse segmentiert aus?
18
Referral TrafficDirect, Organic, SEA Traffic
führen zu einem Testsieger!
3,15
2,75
2,41
Beispiel-Daten
19. Insights durch Segmentierung generieren
Neue vs. wiederkehrende Besucher
Wochentage vs. Wochenenden
Traffic-Kanäle (Medium, Quelle)
Region
Endgeräte: Desktop, Tablet, Mobile
Warenkorbwert
…
19
21. Mehrere Tests gleichzeitig durchführbar?
Ja oder nein?
Jein!
• Ja, wenn Tests voneinander unabhängig sind!
• Nein, wenn die Tests sich gegenseitig beeinflussen können
Verfälscht das Testergebnis!
21
OffSite-
Werbung
Website/
Startseite
Produkt-
seite
Check-Out
Bestellung
After-Sales-
Service
Kategorie-
seite
OnSite-
Werbung
Landing-
page
Warenkorb
(Layer)
Test 2Test 1
22. Take aways
Richtige Ziele definieren
Hypothesen bilden
Parallel statt sequentiell testen
Signifikantes und valides Testergebnis erreichen
Berücksichtigen Sie die Fehlerwahrscheinlichkeit bei
multivariatem Testing
Segmentieren Sie Ihre Ergebnisse
Lassen Sie nur voneinander unabhängige Tests gleichzeitig laufen
22
24. 24Foto: Matthias Hausdorf (MH1.at)
Viel Spaß bei der Interpretation Ihrer Tests!
Und bleiben Sie am Laufenden: www.e-dialog.at/newsletter
like us
circle us
Hinweis der Redaktion
Beispiel: Die Wahrscheinlichkeit, dass das Ergebnis (Verbesserung oder Verschlechterung) nicht zufällig zustande gekommen ist, liegt bei 5%.
Ein Test ist robust, wenn er einige Tage stabil gelaufen ist.
Nutzer können unterschiedlich auf Optimierungsmaßnahmen reagieren.
Ist die „Click-through-Rate“ als Ziel wirklich das was ich erreichen möchte?
Seien Sie sich der steigenden Fehlerwahrscheinlichkeit bei multivariatem Testing bewusst