A/B-Tests: Statistische Signifikanz und Konfidenzniveau

elementsOb Werbemittel, Landingpages oder Webseiten-Layouts: Mit A/B-Test wird die bessere Version bestimmt. Mit diesem Rechner ganz einfach berechnen, welche Variante besser ist und wie hoch Konfidenzniveau und Signifikanz sind. Desweiteren: Viele Hintergrund-Informationen, Formeln zur Auswertung von A/B-Tests und Rechenbeispiele.

A/B-Test berechnen

  • Bei einem Konfidenzniveau unter 95 % ist der Unterschied zwischen der Original-Variante und der Testvariante statistisch nicht signifikant
  • Ist das Konfidenzniveau größer als 95 % so ist der Unterschied statistisch signifikant
  • Ist das Konfidenzniveau größer als 99 % so ist der Unterschied statistisch höchst signifikant

Was ist ein A/B-Test?

Bei einem A/B-Test handelt es sich um eine Test-Methode bei der zwei Varianten einer Website, von Design-Elementen oder auch Werbemitteln wie Banner (Variante A und Variante B), bezüglich einer Zielerreichung, gegeneinander getestet werden. Über einen bestimmten Zeitraum wird den Besuchern einer Website per Zufall eine der beiden Varianten ausgespielt. Hierbei wird die jeweilige Conversion-Rate gemessen. Die Variante, aus der eine höhere Conversion-Rate resultiert, wird dann ausgewählt und implementiert. Conversions werden üblicherweise nicht mit einem Data Warehouse oder CRM gemessen, sondern mit einem Analytics-Programm wie Google Analytics, etracker, adobe oder Piwik. Hierzu wird ein Ecommerce-Tracking eingerichtet oder Conversions/Events getrackt. Google Analytics bietet die Möglichkeit, Events automatisch aufzuzeichnen.

Kein Glücksspiel und Zufallstreffer, sondern harte statistische Signifikanz soll bei A/B-Tests ermittelt werden. Konfidenz-Niveau und Signifikanz geben Auskunft darüber welche Variante besser performt.

Formel für A/B-Tests: Stastistische Signifikanz berechnen

Als Mittel zur Berechnung dient der Chi-Quadrat-Test. Die Formel lautet:

\text{Chi}^2=\\\\   \frac{(\text{o}-\text{co}-\frac{\text{o}\times\text{nf}}{\text{n}})^2}{\frac{\text{o}\times\text{nf}}{\text{n}}}   +   \frac{(\text{v}-\text{cv}-\frac{\text{v}\times\text{nf}}{\text{n}})^2}{\frac{\text{v}\times\text{nf}}{\text{n}}}   +   \frac{(\text{co}-\frac{\text{o}\times\text{nc}}{\text{n}})^2}{\frac{\text{o}\times\text{nc}}{\text{n}}}   +   \frac{(\text{cv}-\frac{\text{v}\times\text{nc}}{\text{n}})^2}{\frac{\text{v}\times\text{nc}}{\text{n}}}

Die Variablen ergeben sich folgendermaßen:

  • o: Besucher/Impressionen) der Original-Variante
  • v: Besucher/Impressionen) der Vergleichs-Variante
  • co: Conversions/Klicks der Original-Variante
  • cv: Conversions/oder Klicks der Vergleichs-Variante
  • n: Gesamtanzahl der Besucher/Impressionen
  • nf: Gesamtzahl Besucher ohne Conversion
  • nc: Gesamtzahl Besucher mit Conversion

Der Chi-Quadrat-Test einfach erklärt

Jeder der vier Summanden innerhalb der Chi-Formel repräsentiert eine der sich daraus ergebenen Ausprägungen:

  • A: Besucher des Originals ohne Conversion
  • B: Besucher der Vergleichs-Variante ohne Conversion
  • C: Besucher des Originals mit Conversion
  • D: Besucher der Vergleichs-Variante mit Conversion

Zur Vereinfachung wird im Folgenden nur von Besuchern und Conversions gesprochen) Die gemessenen Häufigkeiten werden in eine Kreuztabelle eingetragen. In der Kreuztabelle werden den beiden Varianten (Original und Vergleichs-Variante) jeweils die beiden Merkmale (Besucher mit Conversion und Besucher ohne Conversion) zugeordnet und ergeben somit die vier oben genannten Ausprägungen:

OriginalVergleichs-VarianteSumme
Visitors ohne ConversionA: 960B: 11202080
Visitors mit ConversionC: 40D: 80120
Summe100012002200

Danach werden die zu erwartenden Häufigkeiten berechnet, indem die Besucher der jeweiligen Variante, mit den gesamten Besucher des jeweiligen Merkmal (ohne Conversion, mit Conversion) multipliziert und durch die Gesamtanzahl der Besucher beider Varianten dividiert werden. Die erwartete Häufigkeit geht davon aus, dass beide Varianten gleich wahrscheinlich sind. Zur Veranschaulichung berechnen wir die zu erwartende Häufigkeit der Ausprägung A: Besucher des Originals ohne Conversion

  \text{zu erwartende Haeufigkeit}=\\\frac{\text{Besucher des Originals}\times\text{GesamtBesucher ohne Conversion}}{\text{GesamtBesucher beider Varianten}}=\frac{\text{1000}\times\text{2080}}{\text{2200}}=\text{945,45}

Analog werden die restlichen drei zu erwartenden Häufigkeiten berechnet:

OriginalVergleichs-VarianteSumme
Visitors ohne Conversion945,451134,552080
Visitors mit Conversion54,5565,45120
Summe100012002200

Nun wird für jedes der vier Felder die Differenz aus der gemessenen Häufigkeit und der zu erwartenden Häufigkeit gebildet., danach quadriert und die durch zu erwartenden Häufigkeit dividiert:

OriginalVergleichs-Variante
Visitors ohne ConversionA: 0,22B: 0,19
Visitors mit ConversionC: 3,88D: 3,23

Als letztes werden alle vier Felder addiert um den Chi-Quadrat-Wert zu erhalten:

  \text{Chi}^2=\text{0,22}+\text{0,19}+\text{3,88}+\text{3,23}=\text{7,52}

Nun muss der errechnete Chi-Quadrat-Wert nur noch mit dem Chi²0,95(1) und Chi²0,99(1) verglichen werden. 0,95 und 0,99 sind hierbei die Konfidenzniveau. Ein Konfidenzniveau von größer 0,95 wird allgemein als ’statistisch signifikant‘ anerkannt. Ab 0,99 spricht man von ’statistisch höchst signifikant‘. Die (1) steht für die Freiheitsgrade. Eine vier Felder-Matrix hat immer den Freiheitsgrad Eins.

  • Chi²0,95(1) = 3,84
  • Chi²0,99(1) = 6,63

Der Unterschied in dem Beispiel ist also höchst signifikant, da der errechnete Chi-Quadrat-Wert (7,52) größer als 6,63 ist.