Ob Werbemittel, Landingpages oder Webseiten-Layouts: Mit A/B-Test wird die bessere Version bestimmt. Mit diesem Rechner ganz einfach berechnen, welche Variante besser ist und wie hoch Konfidenzniveau und Signifikanz sind. Desweiteren: Viele Hintergrund-Informationen, Formeln zur Auswertung von A/B-Tests und Rechenbeispiele.
A/B-Test berechnen
- Bei einem Konfidenzniveau unter 95 % ist der Unterschied zwischen der Original-Variante und der Testvariante statistisch nicht signifikant
- Ist das Konfidenzniveau größer als 95 % so ist der Unterschied statistisch signifikant
- Ist das Konfidenzniveau größer als 99 % so ist der Unterschied statistisch höchst signifikant
Was ist ein A/B-Test?
Beim A/B-Testing werden zwei Versionen einer Website oder eines Werbemittels (Variante A und Variante B) direkt miteinander verglichen, um herauszufinden, welche die gesteckten Ziele besser erreicht. Über einen festgelegten Zeitraum wird den Besuchern per Zufall eine der beiden Varianten angezeigt, während im Hintergrund die Conversion-Rate gemessen wird. Am Ende wird die Variante ausgewählt und fest implementiert, die das bessere Ergebnis geliefert hat.
Für die Messung dieser Conversions greift man aktuell weniger auf CRM-Systeme oder Data Warehouses zurück, sondern nutzt spezialisierte Analytics-Tools wie Google Analytics, etracker, Adobe oder Piwik. Dazu wird ein passendes Ecommerce-Tracking eingerichtet oder es werden gezielte Events getrackt. Bei Google Analytics können solche Events mittlerweile oft automatisch aufgezeichnet werden, was den Aufwand deutlich reduziert.

Kein Glücksspiel und Zufallstreffer, sondern harte statistische Signifikanz soll bei A/B-Tests ermittelt werden. Konfidenz-Niveau und Signifikanz geben Auskunft darüber welche Variante besser performt.
Formel für A/B-Tests: Stastistische Signifikanz berechnen
Als Mittel zur Berechnung dient der Chi-Quadrat-Test. Die Formel lautet:
Die Variablen ergeben sich folgendermaßen:
- o: Besucher/Impressionen) der Original-Variante
- v: Besucher/Impressionen) der Vergleichs-Variante
- co: Conversions/Klicks der Original-Variante
- cv: Conversions/oder Klicks der Vergleichs-Variante
- n: Gesamtanzahl der Besucher/Impressionen
- nf: Gesamtzahl Besucher ohne Conversion
- nc: Gesamtzahl Besucher mit Conversion
Der Chi-Quadrat-Test einfach erklärt
Jeder der vier Summanden innerhalb der Chi-Formel repräsentiert eine der sich daraus ergebenen Ausprägungen:
- A: Besucher des Originals ohne Conversion
- B: Besucher der Vergleichs-Variante ohne Conversion
- C: Besucher des Originals mit Conversion
- D: Besucher der Vergleichs-Variante mit Conversion
Zur Vereinfachung wird im Folgenden nur von Besuchern und Conversions gesprochen) Die gemessenen Häufigkeiten werden in eine Kreuztabelle eingetragen. In der Kreuztabelle werden den beiden Varianten (Original und Vergleichs-Variante) jeweils die beiden Merkmale (Besucher mit Conversion und Besucher ohne Conversion) zugeordnet und ergeben somit die vier oben genannten Ausprägungen:
| Original | Vergleichs-Variante | Summe | |
| Visitors ohne Conversion | A: 960 | B: 1120 | 2080 |
| Visitors mit Conversion | C: 40 | D: 80 | 120 |
| Summe | 1000 | 1200 | 2200 |
Danach werden die zu erwartenden Häufigkeiten berechnet, indem die Besucher der jeweiligen Variante, mit den gesamten Besucher des jeweiligen Merkmal (ohne Conversion, mit Conversion) multipliziert und durch die Gesamtanzahl der Besucher beider Varianten dividiert werden. Die erwartete Häufigkeit geht davon aus, dass beide Varianten gleich wahrscheinlich sind. Zur Veranschaulichung berechnen wir die zu erwartende Häufigkeit der Ausprägung A: Besucher des Originals ohne Conversion
Analog werden die restlichen drei zu erwartenden Häufigkeiten berechnet:
| Original | Vergleichs-Variante | Summe | |
| Visitors ohne Conversion | 945,45 | 1134,55 | 2080 |
| Visitors mit Conversion | 54,55 | 65,45 | 120 |
| Summe | 1000 | 1200 | 2200 |
Nun wird für jedes der vier Felder die Differenz aus der gemessenen Häufigkeit und der zu erwartenden Häufigkeit gebildet., danach quadriert und die durch zu erwartenden Häufigkeit dividiert:
| Original | Vergleichs-Variante | |
| Visitors ohne Conversion | A: 0,22 | B: 0,19 |
| Visitors mit Conversion | C: 3,88 | D: 3,23 |
Als letztes werden alle vier Felder addiert um den Chi-Quadrat-Wert zu erhalten:
Nun muss der errechnete Chi-Quadrat-Wert nur noch mit dem Chi²0,95(1) und Chi²0,99(1) verglichen werden. 0,95 und 0,99 sind hierbei die Konfidenzniveau. Ein Konfidenzniveau von größer 0,95 wird allgemein als ’statistisch signifikant‘ anerkannt. Ab 0,99 spricht man von ’statistisch höchst signifikant‘. Die (1) steht für die Freiheitsgrade. Eine vier Felder-Matrix hat immer den Freiheitsgrad Eins.
- Chi²0,95(1) = 3,84
- Chi²0,99(1) = 6,63
Der Unterschied in dem Beispiel ist also höchst signifikant, da der errechnete Chi-Quadrat-Wert (7,52) größer als 6,63 ist.

