Bij een conversie-optimalisatie traject ontstaat er nog wel eens verwarring over de A/B test mogelijkheden bij het maandelijkse volume. Vaak worden resultaten op een low volume site niet significant. Omgekeerd worden resultaten bij high volume sites zo snel significant dat er enorm veel varianten getest kunnen worden en vergt effectiviteit een andere aanpak. Wat kun je nu wel, en wat kun je nu niet effectief A/B testen met jouw volume?
In dit blog ga ik dieper in op de A/B testmogelijkheden bij een bepaald aantal bezoekers op jouw website. Hoe kun je goed inschatten welke mogelijkheden je hebt bij het opzetten van A/B tests? Hoe beïnvloed je de kans dat aanpassingen binnen aanzienbare tijd van betekenis worden? Wanneer kun je de overstap maken naar A/B tests die harde in plaats van zachte conversies met significantie kunnen meten? Je leest het hieronder.
Bij een A/B test onderzoeken we het gedrag van huidige bezoekers voor een bepaalde periode, om zo vergelijkende data te genereren waarmee we een onderbouwde uitspraak kunnen doen over het gedrag van toekomstige bezoekers. Vanzelfsprekend willen we een onderzoekspopulatie die groot genoeg is, zodat uitkomsten representatief worden voor ons gehele publiek.
Doen we een onderzoek naar Nederlanders die langer dan twee minuten non-stop op hun mobiel zitten? Dan kunnen we random tien Nederlanders onderzoeken en hun gedrag bestuderen. Zoals je je kunt bedenken is de kwaliteit van onze uitkomst dan nogal gelimiteerd aan precies die tien Nederlanders. Zitten in onze steekproef toevallig zes millennials, dan is de conclusie die daaruit volgt niet erg representatief voor de Nederlandse bevolking. Aan de andere kant hoeven we natuurlijk niet de halve bevolking te onderzoeken om een goede uitspraak te kunnen doen over het gedrag van de gehele bevolking. Het minimaal benodigde aantal voor die representatieve uitspraak ligt ergens in het midden.
Het lastige bij conversie-optimalisatie trajecten is dat we natuurlijk niet on demand honderd procent meer bezoekers kunnen laten aanhaken om onze onderzoekspopulatie te beïnvloeden, als blijkt dat een aanpassing veel minder impact blijkt te generen dan verwacht.
Laten we eerst eens kijken naar de metrieken die we normaliter zouden gebruiken om de A/B testmogelijkheden in kaart te brengen. Welke metrieken zijn er doorgaans beschikbaar om een bruikbaar resultaat op in te schatten?
Op een website met een hoog volume (meer dan 500.000 per maand) én een hoge conversieratio (meer dan 2%) zijn veel aanpassingen effectief te testen. De voornaamste reden hiervoor is dat de schatting van de impact van een aanpassing er niet meer toe doet, want zelfs aanpassingen met een relatief kleine impact kunnen met 95% significantie binnen aanzienbare tijd worden gemeten.
Stel, mijn publiek is spelfoutgevoelig en ik heb een website met 10 miljoen unieke pageviews per maand en een conversieratio van meer dan 5%. Als we vervolgens een A/B test opzetten waarbij we bewust in de tekst van de B variant een aantal spelfouten neerzetten, dan zouden we in theorie kunnen aantonen dat ons publiek op de B variant daar negatief door beïnvloed wordt.
Het probleem met A/B testing ontstaat wanneer één van deze twee metrieken niet hoog genoeg is. Heb je een laag volume en een hoog conversiepercentage, of andersom, dan krijg je al snel A/B test uitkomsten waar je geen concreet advies over kunt geven.
Naast deze twee metrieken is de impact van de aanpassing van belang, maar dit blijft altijd een schatting. Iedereen heeft namelijk een bepaalde verwachting bij een aanpassing: de één vindt een groene call-to-action background color er fraai uitzien, de ander vindt het lelijk. Mijn punt is dat het er natuurlijk niet toe doet wat onze mening is, maar dat dit oordeel onvermijdelijk is verbonden aan hoe wij de impact van een aanpassing inschatten. Vind ik de aanpassing mooi, dan zal ik automatisch een positievere impact aan mijn resultaat verwachting koppelen, en andersom.
Hieronder beschrijf ik vier scenario’s waarbij ik websites categoriseer op basis van hun volume – hun unieke pageviews. In werkelijkheid is het vraagstuk wat je effectief kan A/B testen complexer. In onderstaande categorisering ben ik uitgegaan van het feit dat websites een genormaliseerd conversiepercentage hebben, wat in de praktijk ook nooit het geval is. Is je conversieratio lager dan het branchegemiddelde? Dan heb je dus meer volume nodig om effectief te kunnen A/B testen, met name in de Engage fase van het REAN model.
De voornaamste uitdaging bij een conversie-optimalisatie traject voor een low volume website is dat de meeste uitkomsten geen significantie bereiken. Een reden hiervoor kan zijn dat er (misschien uit noodzaak) aanpassingen worden getest die een te kleine impact genereren op het gedrag van bezoekers. Deze aanpassingen zorgen wellicht voor gedragsverandering, maar dit kunnen we niet binnen aanzienbare tijd op basis van data aantonen.
Ga je A/B testen op een low volume site, dan is ons algemene advies om varianten met meerdere aanpassingen tegelijk te testen, zodat het verschil tussen het origineel en de variant relatief groter wordt. Dit zal ervoor zorgen dat je in kortere tijd een bruikbare vergelijking kunt genereren, waarmee je een overwogen beslissing kunt nemen voor één van de twee varianten. Vergeet niet dat je ook conversies kunt optimaliseren door gebruikersonderzoek, klantfeedback, heatmaps of user recordings te analyseren.
De volgende punten kun je oppakken met A/B testing bij websites met een volume tot 100.000 unieke pageviews per maand:
Bij een website met 100.000 tot 500.000 unieke pageviews per maand wordt de effectiviteit van A/B testing veel minder gelimiteerd door het volume en kun je A/B tests opzetten waarbij je kunt verwachten dat harde conversies binnen aanzienbare tijd een significant verschil laten zien. Een aantal tips voor websites tussen de 100.000 en 500.000 unieke pageviews per maand:
Bij een volume vanaf 500.000 pageviews is er ruimte voor een volledig A/B testing traject. Hier begint een A/B testing traject een dominantere positie in te nemen in de marketingstrategie, omdat veel discussiepunten in een A/B test voor een op data gebaseerde conclusie kunnen zorgen.
Hieronder een overzicht van het soort aanpassingen dat je effectief kunt testen bij sites die tussen de 500.000 – 1.000.000 unieke pageviews per maand hebben:
De moeilijkheid van een high volume site is dat er ruimte is om relatief veel varianten te testen. De voornaamste bezigheden gaan zitten in het uitdenken en bouwen van kwalitatieve varianten en het bepalen welke tests prioriteit hebben. Lopende A/B tests moeten ook constant in de gaten worden gehouden, want wanneer slechter presterende varianten langer doorlopen dan noodzakelijk, dan zorg je immers voor een negatieve impact op het conversie-optimalisatie traject. En op de salestargets van jouw klanten.
Omdat je veel tests met micro aanpassingen kunt testen, dan kun je tot in het kleinste detail te weten komen welke aanpassingen van invloed zijn op het gedrag van jouw bezoekers. Bij high volume sites kun je dus testschema’s plannen waarmee je systematisch te weten komt welke tekstvarianten in call-to-action buttons beter of slechter werken. Of hoe groot precies de belangrijkste call-to-action moet zijn, zodat de meeste doorstroom richting de funnel wordt gerealiseerd.
Hieronder een checklist van het soort aanpassingen dat je effectief kunt testen bij sites van meer dan 1 miljoen unieke pageviews per maand:
Het beschikbare volume bepaalt grotendeels je A/B test mogelijkheden. Hoe hoger het volume en de conversieratio, hoe gemakkelijker het is om statistisch onderbouwde uitspraken te doen over het gedrag van de bezoekers en hoe sneller je winst kunt gaan behalen.
Vind jij het lastig om te bepalen wat jij effectief kunt A/B test met jouw websitevolume? Of vind je het lastig om significantie te behalen met de tests? Ik hoor graag waar je tegenaan loopt in de comments onder dit artikel.
Bronnen voor plaatjes: http://okaywhatever.com/wordpress/small-sample-sizes/
Ontdek onze awardwinning manier van werken en vul het contactformulier in.
Geef een antwoord