Wat kan ik met mijn volume effectief A/B testen?

Bij een conversie-optimalisatie traject ontstaat er nog wel eens verwarring over de A/B test mogelijkheden bij het maandelijkse volume. Vaak worden resultaten op een low volume site niet significant. Omgekeerd worden resultaten bij high volume sites zo snel significant dat er enorm veel varianten getest kunnen worden en vergt effectiviteit een andere aanpak. Wat kun je nu wel, en wat kun je nu niet effectief A/B testen met jouw volume?  

Sample size

In dit blog ga ik dieper in op de A/B testmogelijkheden bij een bepaald aantal bezoekers op jouw website. Hoe kun je goed inschatten welke mogelijkheden je hebt bij het opzetten van A/B tests? Hoe beïnvloed je de kans dat aanpassingen binnen aanzienbare tijd van betekenis worden? Wanneer kun je de overstap maken naar A/B tests die harde in plaats van zachte conversies met significantie kunnen meten? Je leest het hieronder.

A/B testing – wat onderzoeken we nu eigenlijk?

Bij een A/B test onderzoeken we het gedrag van huidige bezoekers voor een bepaalde periode, om zo vergelijkende data te genereren waarmee we een onderbouwde uitspraak kunnen doen over het gedrag van toekomstige bezoekers. Vanzelfsprekend willen we een onderzoekspopulatie die groot genoeg is, zodat uitkomsten representatief worden voor ons gehele publiek.

Doen we een onderzoek naar Nederlanders die langer dan twee minuten non-stop op hun mobiel zitten? Dan kunnen we random tien Nederlanders onderzoeken en hun gedrag bestuderen. Zoals je je kunt bedenken is de kwaliteit van onze uitkomst dan nogal gelimiteerd aan precies die tien Nederlanders. Zitten in onze steekproef toevallig zes millennials, dan is de conclusie die daaruit volgt niet erg representatief voor de Nederlandse bevolking. Aan de andere kant hoeven we natuurlijk niet de halve bevolking te onderzoeken om een goede uitspraak te kunnen doen over het gedrag van de gehele bevolking. Het minimaal benodigde aantal voor die representatieve uitspraak ligt ergens in het midden.

Het lastige bij conversie-optimalisatie trajecten is dat we natuurlijk niet on demand honderd procent meer bezoekers kunnen laten aanhaken om onze onderzoekspopulatie te beïnvloeden, als blijkt dat een aanpassing veel minder impact blijkt te generen dan verwacht.

Op welke metrieken baseren we onze verwachting?

Laten we eerst eens kijken naar de metrieken die we normaliter zouden gebruiken om de A/B testmogelijkheden in kaart te brengen. Welke metrieken zijn er doorgaans beschikbaar om een bruikbaar resultaat op in te schatten?

  • Het volume: de hoeveelheid gebruikers die een pagina bezoekt binnen een bepaalde tijdsperiode;
  • De conversieratio: van het doel waar je op stuurt, dus bijvoorbeeld aanmeldingen of inschrijvingen.

Op een website met een hoog volume (meer dan 500.000 per maand) én een hoge conversieratio (meer dan 2%) zijn veel aanpassingen effectief te testen. De voornaamste reden hiervoor is dat de schatting van de impact van een aanpassing er niet meer toe doet, want zelfs aanpassingen met een relatief kleine impact kunnen met 95% significantie binnen aanzienbare tijd worden gemeten.

Stel, mijn publiek is spelfoutgevoelig en ik heb een website met 10 miljoen unieke pageviews per maand en een conversieratio van meer dan 5%. Als we vervolgens een A/B test opzetten waarbij we bewust in de tekst van de B variant een aantal spelfouten neerzetten, dan zouden we in theorie kunnen aantonen dat ons publiek op de B variant daar negatief door beïnvloed wordt.

Het probleem met A/B testing ontstaat wanneer één van deze twee metrieken niet hoog genoeg is. Heb je een laag volume en een hoog conversiepercentage, of andersom, dan krijg je al snel A/B test uitkomsten waar je geen concreet advies over kunt geven.

Naast deze twee metrieken is de impact van de aanpassing van belang, maar dit blijft altijd een schatting. Iedereen heeft namelijk een bepaalde verwachting bij een aanpassing: de één vindt een groene call-to-action background color er fraai uitzien, de ander vindt het lelijk. Mijn punt is dat het er natuurlijk niet toe doet wat onze mening is, maar dat dit oordeel onvermijdelijk is verbonden aan hoe wij de impact van een aanpassing inschatten. Vind ik de aanpassing mooi, dan zal ik automatisch een positievere impact aan mijn resultaat verwachting koppelen, en andersom.

Wat kan ik met mijn volume effectief A/B testen?

Hieronder beschrijf ik vier scenario’s waarbij ik websites categoriseer op basis van hun volume – hun unieke pageviews. In werkelijkheid is het vraagstuk wat je effectief kan A/B testen complexer. In onderstaande categorisering ben ik uitgegaan van het feit dat websites een genormaliseerd conversiepercentage hebben, wat in de praktijk ook nooit het geval is. Is je conversieratio lager dan het branchegemiddelde? Dan heb je dus meer volume nodig om effectief te kunnen A/B testen, met name in de Engage fase van het REAN model.

Wat kan ik effectief A/B testen met een website tot 100.000 unieke pageviews per maand?

De voornaamste uitdaging bij een conversie-optimalisatie traject voor een low volume website is dat de meeste uitkomsten geen significantie bereiken. Een reden hiervoor kan zijn dat er (misschien uit noodzaak) aanpassingen worden getest die een te kleine impact genereren op het gedrag van bezoekers. Deze aanpassingen zorgen wellicht voor gedragsverandering, maar dit kunnen we niet binnen aanzienbare tijd op basis van data aantonen.

Ga je A/B testen op een low volume site, dan is ons algemene advies om varianten met meerdere aanpassingen tegelijk te testen, zodat het verschil tussen het origineel en de variant relatief groter wordt. Dit zal ervoor zorgen dat je in kortere tijd een bruikbare vergelijking kunt genereren, waarmee je een overwogen beslissing kunt nemen voor één van de twee varianten. Vergeet niet dat je ook conversies kunt optimaliseren door gebruikersonderzoek, klantfeedback, heatmaps of user recordings te analyseren.

De volgende punten kun je oppakken met A/B testing bij websites met een volume tot 100.000 unieke pageviews per maand:

  • Leg de focus op sitewide aanpassingen: in de navigatie, in het menu of neem alle productpagina’s mee bij jouw audience.
  • Test meerdere aanpassingen tegelijk. Als je een call-to-action button test gaat doen, test dan bijvoorbeeld benaming én kleur, én met toevoeging van bijvoorbeeld een call-to-action button icoontje.
  • Daarnaast kun je A/B testen met als doel soft conversies of website engagement te verhogen. Deze interacties of soft conversies hebben vaak een hogere conversieratio waarmee je verschil in gedrag significant kunt aantonen. Denk hierbij aan interactieve elementen op de site met een lage commitment, zoals een berekeningstool of interactie met de galerij.

Wat kan ik effectief A/B testen met een website van 100.000 tot 500.000 unieke pageviews per maand?

Bij een website met 100.000 tot 500.000 unieke pageviews per maand wordt de effectiviteit van A/B testing veel minder gelimiteerd door het volume en kun je A/B tests opzetten waarbij je kunt verwachten dat harde conversies binnen aanzienbare tijd een significant verschil laten zien. Een aantal tips voor websites tussen de 100.000 en 500.000 unieke pageviews per maand:

  • Het A/B testen van pure aanpassingen (één aanpassing per keer) wordt beter mogelijk. Dit maakt dat je één op één learnings kunt extrapoleren uit A/B test resultaten, en zodoende veel kan leren over de belangrijkste elementen op de website.
  • Bij dit volume kun je nadenken over device specifieke A/B tests. Je kunt dus apart aanpassingen testen voor mobile en voor desktop. Google stuurt anno 2017 veel meer op optimalisatie van mobile en mobiele pagina’s, dus probeer die in ieder geval te optimaliseren.

 

Multivariant op mobile

 

Wat kan ik effectief A/B testen met een website van 500.000 tot 1.000.000 unieke pageviews per maand?

Bij een volume vanaf 500.000 pageviews is er ruimte voor een volledig A/B testing traject. Hier begint een A/B testing traject een dominantere positie in te nemen in de marketingstrategie, omdat veel discussiepunten in een A/B test voor een op data gebaseerde conclusie kunnen zorgen.

Hieronder een overzicht van het soort aanpassingen dat je effectief kunt testen bij sites die tussen de 500.000 – 1.000.000 unieke pageviews per maand hebben:

  • Er kunnen meerdere varianten per aanpassing worden getest, eventueel in de vorm van een multivariate test. Het voordeel hiervan is dat je meerdere hypotheses per keer kunt testen en winnende varianten sneller live kunt zetten.
  • Je kunt meerdere A/B tests tegelijk laten lopen. Test geen lagen onder elkaar, zodat je de kans minimaliseert dat tests elkaar gaan beïnvloeden. Test dus niet een categorie pagina en een productpagina tegelijkertijd.
  • Zorg voor een overzichtelijke testing roadmap om alle tests te plannen. Hiermee kun je het overzicht bewaren en de maximaal mogelijke hoeveelheid tests draaien binnen de periode waarin je kunt testen.

Hoe zit het met sites met meer dan 1 miljoen unieke pageviews per maand?

De moeilijkheid van een high volume site is dat er ruimte is om relatief veel varianten te testen. De voornaamste bezigheden gaan zitten in het uitdenken en bouwen van kwalitatieve varianten en het bepalen welke tests prioriteit hebben. Lopende A/B tests moeten ook constant in de gaten worden gehouden, want wanneer slechter presterende varianten langer doorlopen dan noodzakelijk, dan zorg je immers voor een negatieve impact op het conversie-optimalisatie traject. En op de salestargets van jouw klanten.

Omdat je veel tests met micro aanpassingen kunt testen, dan kun je tot in het kleinste detail te weten komen welke aanpassingen van invloed zijn op het gedrag van jouw bezoekers. Bij high volume sites kun je dus testschema’s plannen waarmee je systematisch te weten komt welke tekstvarianten in call-to-action buttons beter of slechter werken. Of hoe groot precies de belangrijkste call-to-action moet zijn, zodat de meeste doorstroom richting de funnel wordt gerealiseerd.

Hieronder een checklist van het soort aanpassingen dat je effectief kunt testen bij sites van meer dan 1 miljoen unieke pageviews per maand:

  • Bepaal vanuit financieel oogpunt welk conversiedoel bij verbetering het meest rendabel zou zijn voor de organisatie.
  • Doe fundamentele tests om te ontdekken welke elementen op deze pagina het keuzegedrag van jouw bezoekers het meest beïnvloeden.
  • Test aanpassingen voor deze elementen, tot in het kleinste detail, systematisch uit. 

Conclusie

Het beschikbare volume bepaalt grotendeels je A/B test mogelijkheden. Hoe hoger het volume en de conversieratio, hoe gemakkelijker het is om statistisch onderbouwde uitspraken te doen over het gedrag van de bezoekers en hoe sneller je winst kunt gaan behalen.

Vind jij het lastig om te bepalen wat jij effectief kunt A/B test met jouw websitevolume? Of vind je het lastig om significantie te behalen met de tests? Ik hoor graag waar je tegenaan loopt in de comments onder dit artikel.

 

Bronnen voor plaatjes: http://okaywhatever.com/wordpress/small-sample-sizes/