Ob Werbemittel, Landingpages oder Webseiten-Layouts: Mit A/B-Test wird die bessere Version bestimmt. Mit diesem Rechner ganz einfach berechnen, welche Variante besser ist und wie hoch Konfidenzniveau und Signifikanz sind. Desweiteren: Viele Hintergrund-Informationen, Formeln zur Auswertung von A/B-Tests und Rechenbeispiele.
A/B-Test berechnen
- Bei einem Konfidenzniveau unter 95 % ist der Unterschied zwischen der Original-Variante und der Testvariante statistisch nicht signifikant
- Ist das Konfidenzniveau größer als 95 % so ist der Unterschied statistisch signifikant
- Ist das Konfidenzniveau größer als 99 % so ist der Unterschied statistisch höchst signifikant
Was ist ein A/B-Test?
Bei einem A/B-Test handelt es sich um eine Test-Methode bei der zwei Varianten einer Website, von Design-Elementen oder auch Werbemitteln wie Banner (Variante A und Variante B), bezüglich einer Zielerreichung, gegeneinander getestet werden. Über einen bestimmten Zeitraum wird den Besuchern einer Website per Zufall eine der beiden Varianten ausgespielt. Hierbei wird die jeweilige Conversion-Rate gemessen. Die Variante, aus der eine höhere Conversion-Rate resultiert, wird dann ausgewählt und implementiert. Conversions werden üblicherweise nicht mit einem Data Warehouse oder CRM gemessen, sondern mit einem Analytics-Programm wie Google Analytics, etracker, adobe oder Piwik. Hierzu wird ein Ecommerce-Tracking eingerichtet oder Conversions/Events getrackt. Google Analytics bietet die Möglichkeit, Events automatisch aufzuzeichnen.
Formel für A/B-Tests: Stastistische Signifikanz berechnen
Als Mittel zur Berechnung dient der Chi-Quadrat-Test. Die Formel lautet:
Die Variablen ergeben sich folgendermaßen:
- o: Besucher/Impressionen) der Original-Variante
- v: Besucher/Impressionen) der Vergleichs-Variante
- co: Conversions/Klicks der Original-Variante
- cv: Conversions/oder Klicks der Vergleichs-Variante
- n: Gesamtanzahl der Besucher/Impressionen
- nf: Gesamtzahl Besucher ohne Conversion
- nc: Gesamtzahl Besucher mit Conversion
Der Chi-Quadrat-Test einfach erklärt
Jeder der vier Summanden innerhalb der Chi-Formel repräsentiert eine der sich daraus ergebenen Ausprägungen:
- A: Besucher des Originals ohne Conversion
- B: Besucher der Vergleichs-Variante ohne Conversion
- C: Besucher des Originals mit Conversion
- D: Besucher der Vergleichs-Variante mit Conversion
Zur Vereinfachung wird im Folgenden nur von Besuchern und Conversions gesprochen) Die gemessenen Häufigkeiten werden in eine Kreuztabelle eingetragen. In der Kreuztabelle werden den beiden Varianten (Original und Vergleichs-Variante) jeweils die beiden Merkmale (Besucher mit Conversion und Besucher ohne Conversion) zugeordnet und ergeben somit die vier oben genannten Ausprägungen:
Original | Vergleichs-Variante | Summe | |
Visitors ohne Conversion | A: 960 | B: 1120 | 2080 |
Visitors mit Conversion | C: 40 | D: 80 | 120 |
Summe | 1000 | 1200 | 2200 |
Danach werden die zu erwartenden Häufigkeiten berechnet, indem die Besucher der jeweiligen Variante, mit den gesamten Besucher des jeweiligen Merkmal (ohne Conversion, mit Conversion) multipliziert und durch die Gesamtanzahl der Besucher beider Varianten dividiert werden. Die erwartete Häufigkeit geht davon aus, dass beide Varianten gleich wahrscheinlich sind. Zur Veranschaulichung berechnen wir die zu erwartende Häufigkeit der Ausprägung A: Besucher des Originals ohne Conversion
Analog werden die restlichen drei zu erwartenden Häufigkeiten berechnet:
Original | Vergleichs-Variante | Summe | |
Visitors ohne Conversion | 945,45 | 1134,55 | 2080 |
Visitors mit Conversion | 54,55 | 65,45 | 120 |
Summe | 1000 | 1200 | 2200 |
Nun wird für jedes der vier Felder die Differenz aus der gemessenen Häufigkeit und der zu erwartenden Häufigkeit gebildet., danach quadriert und die durch zu erwartenden Häufigkeit dividiert:
Original | Vergleichs-Variante | |
Visitors ohne Conversion | A: 0,22 | B: 0,19 |
Visitors mit Conversion | C: 3,88 | D: 3,23 |
Als letztes werden alle vier Felder addiert um den Chi-Quadrat-Wert zu erhalten:
Nun muss der errechnete Chi-Quadrat-Wert nur noch mit dem Chi²0,95(1) und Chi²0,99(1) verglichen werden. 0,95 und 0,99 sind hierbei die Konfidenzniveau. Ein Konfidenzniveau von größer 0,95 wird allgemein als ’statistisch signifikant‘ anerkannt. Ab 0,99 spricht man von ’statistisch höchst signifikant‘. Die (1) steht für die Freiheitsgrade. Eine vier Felder-Matrix hat immer den Freiheitsgrad Eins.
- Chi²0,95(1) = 3,84
- Chi²0,99(1) = 6,63
Der Unterschied in dem Beispiel ist also höchst signifikant, da der errechnete Chi-Quadrat-Wert (7,52) größer als 6,63 ist.