Van A/A naar A/B testing: over het belang van significantie en power
Significantie en power, voor veel mensen lastige termen. Waarom worden deze termen vaak in één adem met A/B testing en conversie-optimalisatie genoemd? Simpel gezegd: omdat we willen uitsluiten dat onze testuitslagen op toeval berusten. Toeval is een woord dat we gebruiken als we doelen op variantie in onze onderzoekspopulatie. Gelukkig is deze populatie heterogeen. Niet elke bezoeker is immers een copied Agent Smith die zich hetzelfde gedraagt als de rest.
Ik hoor je denken: ‘was dat maar zo’. Maar zou dit A/B testing simpeler maken denk je? Stel onze website zou voor 100% bezocht worden door copied Agent Smiths. Bij het raken van de juiste snaar zouden ze 100% converteren, maar hoe vind je die? Theoretisch zou je enorm veel tests moeten draaien om die snaar te vinden, omdat er geen feedback verzameld kan worden. De conversieaantallen zijn dus altijd 0 of oneindig, bepaald geen ideale startsituatie.
Maar goed dat niet alle bezoekers gekopieerde agent Smiths zijn dus! Door de uniekheid van iedere bezoeker zijn er segmenten te identificeren die meer of minder geïnteresseerd zijn in ons aanbod. Vandaar dat er voor A/B testing voldoende bezoekers in een steekproef moeten voor komen om een uitspraak te kunnen doen over het gemiddelde gedrag van al het toekomstige bezoek. Je wil met de juiste steekproefgrootte de variantie statistisch gezien ‘uitsluiten’ tot het er (bijna) niet meer toe doet. Bij een adequate hoeveelheid bezoekers is het totaal gedrag immers genormaliseerd.
Variantie zonder variatie: A/A testing
Stel, je doet een test met twee identieke homepages op een website die bestaat uit twee pagina’s. Het design van de website bestaat uit een witte achtergrond en zwarte tekst van ongeveer 500 woorden per pagina. Er is één conversiedoel: het doorklikken naar de volgende pagina via één link die onder de tekst weergegeven wordt. Beide ‘varianten’ krijgen 50% van het verkeer en iedere bezoeker komt via de homepage binnen. Na 24 uur zijn de resultaten als volgt:
Iemand die deze resultaten zou bekijken zonder kennis te hebben van het type uitgevoerde test, zou onterecht kunnen zeggen dat variant A(2) beter is. Kan deze conclusie getrokken worden? Natuurlijk niet. Willen we dit vertekende resultaat ontdoen van zijn kracht, dan zullen we hiervoor onze steekproefgrootte moeten vergroten. Het resultaat voor beide pagina’s zou immers hetzelfde moeten zijn: ze zijn identiek aan elkaar. Onze steekproefgrootte is dus niet adequaat genoeg om variantie uit te sluiten. Stel de resultaten na drie weken zijn als volgt:
Deze resultaten komen al meer in de buurt van twee identieke pagina’s. Worden naar beide pagina’s in drie weken 100.000 bezoekers uitgeserveerd, dan zou het resultaat exact hetzelfde kunnen zijn, maar er zou een hogere kans zijn dat de resultaten dichter bij elkaar komen te liggen. Tenzij onze pagina’s ergens rigged zijn.
Dit is een voorbeeld om te illustreren dat steekproefgrootte van belang is bij A/B testing. Maar hoe gaat dit in zijn werk als we twee varianten nemen die daadwerkelijk verschillend zijn van elkaar?
Van A/A naar A/B testing
Stel we doen een A/B test in exact dezelfde website en omgeving als bij de A/A test. Daarbij is echter één wijziging bij de tweede A variant. In plaats van een link naar pagina 2 is er een call to action button geplaatst, die niet afwijkt van het huisstijl design. Dus voor de rest is alles hetzelfde. Nu zit er dus een verschil tussen beide varianten en kun je spreken van een A/B test. Na drie weken krijgen we de volgende resultaten binnen:
Kunnen we nu een gat in de lucht springen, omdat onze variant B beter heeft gepresteerd? Misschien. We hebben net gezien dat variantie een factor is waar we rekening mee dienen te houden. Misschien zijn er net 100 bezoekers uit een uiterst relevante doelgroep toegekend aan de B variant door jouw A/B testing tool, die allemaal converteerden. Hoe sluiten in dit geval variantie zo goed als uit? Je raadt het antwoord: door gebruik te maken van een significantie en power berekening zoals http://abtestguide.com/calc/.
Helaas is het resultaat niet voldoende significant en heeft het resultaat onvoldoende power.
Misschien is de call to action button wel beter dan de link als het gaat om conversie, maar kunnen we dit niet aantonen. De hypothese ‘Een call to action button zorgt voor meer doorstroom dan een link’ kan dus gewoon correct zijn, maar we hebben nog niet de kans gekregen om dit te bewijzen. Hoe zouden we variantie hier beter kunnen uitsluiten? Als hetzelfde conversiepercentage als basis wordt genomen voor onze berekening (in de voorbeelden van dit blog: 5%), kan dit op twee manieren:
- Het verhogen van het aantal bezoekers in die drie weken (note: wij kunnen je met dat probleem helpen).
- Het vergroten van het verschil tussen variant A en B. Door het verschil groter te maken heb je een minder grote steekproefpopulatie nodig om aan te kunnen tonen dat variant B significant beter of juist slechter presteert dan zijn controle variant.
Je zet een nieuwe test op. Omdat je niet met onze sales afdeling hebt gebeld, ben je geforceerd om het verschil tussen beide varianten te vergroten (optie 2): je maakt de achtergrondkleur van de call to action button oranje. Dit zorgt ervoor dat de button meer visueel opvalt en zo voor de gemiddelde bezoeker als aantrekkelijker wordt ervaren. Na drie weken krijg je de volgende resultaten binnen:
Aan de ene kant ben je blij, want het lijkt alsof variant B het beter heeft gedaan. Terugdenkend aan de resultaten van je vorige test, voer je een significantie berekening uit via http://abtestguide.com/calc/:
En BAM! Blij zien we dat de verbetering 12,4% was met een significantie confidence level van 95% en een power van 87,24%. Maar: wat zeggen significantie en power ons nu precies?
Over significantie en power
Allereest is het belangrijk om te weten dat deze percentages een vorm van correlatie aanduiden en geen oorzakelijk verband impliceren. Als een B variant significant beter presteert, wil dat dus zeggen dat er een hoge correlatie is tussen de aanpassing in onze B variant en de verhoogde conversieaantallen.
Significantie is een term uit de statistiek. Als twee fenomenen met elkaar vergeleken worden, wordt er standaard uitgegaan van de zogenoemde ‘nulhypothese’: de veronderstelling dat er geen samenhang bestaat tussen deze twee fenomenen. Vrij logisch, we moeten met een startpunt beginnen en standaard wordt ervan uitgegaan dat er tussen twee fenomenen geen relatie is. De nulhypothese blijft staan tot het tegenovergestelde bewezen wordt: namelijk dat er wel een samenhang bestaat tussen twee fenomenen.
Als een A/B test positief significant is, wil dat zeggen dat het onaannemelijk lijkt dat de samenhang op toeval berust. Hiervoor bestaan verschillende ‘confidence levels’. Voor A/B testing komt dit vaak neer op 95%. In de medische wereld wil men absolute zekerheid dat een resultaat niet op toeval berust en accepteert men enkel confidence levels vanaf 99,9%.
Een significantie van 95% wil zeggen dat je er 95% zeker van bent dat je uitslag niet op toeval berust. Er blijft dus 5% kans over dat jouw resultaten wel op toeval of variantie berusten. Significantie is gerelateerd aan een andere statistische term: power.
Power geeft de kans aan dat een nulhypothese wordt aanvaard (dat er dus geen samenhang is tussen variabelen, het startpunt) terwijl er in werkelijkheid wel een samenhang bestaat. Een power-factor van 80% betekent dat de A/B tester een kans van 80% heeft om in de steekproefpopulatie een echt bestaande samenhang te detecteren. Een hoge power is dus goed. Wij hanteren een minimum van 80% power bij onze testresultaten.
We kunnen concluderen dat significantie, power en steekproefgrootte onderling gerelateerd zijn. Bij A/B testing is het zaak om alleen resultaten door te voeren die voldoende significantie en power hebben. Heb je hulp nodig bij het bepalen van significantie en power? Of bij het bepalen van je steekproefgrootte? Wij helpen je er uiteraard graag bij. Meer weten? Neem vrijblijvend contact met ons op.
Bron afbeelding: http://www.screeninsults.com/matrix-the.php