Het grote replicatie project

Wie de laatste maanden het wetenschappelijke luik van het nieuws heeft gevolgd hoort wellicht een belletje rinkelen bij de namen Diederik Stapel, Dirk Smeesters en Yoshitaka Fujii. Alle drie deze wetenschappers bekenden recentelijk dat ze tijdens hun wetenschappelijke carrière meermaals hadden vals gespeeld met data van onderzoek. De Stapel-case werd berucht onder wetenschappelijke psychologen, temeer omdat Diederik Stapel een gerespecteerde onderzoeker was die de top publicaties in toptijdschriften zoals Science aaneenreeg. De Japanse anesthesist ontlokte dan weer grote verontwaardiging bij collega wetenschappers toen bekend raakte dat hij maar liefst 172 onderzoekspapers volledig uit zijn duim had gezogen. De vragen werden gesteld waarom geen van de medeauteurs van deze onderzoekers dit opmerkten, of het werkelijk zo was dat Stapel dit gedaan had omdat hij onder immense druk stond, maar ook werd de belangrijke vraag gesteld waarom andere wetenschappers nooit hadden opgemerkt dat de resultaten van Stapel vaak veel te mooi waren om echt te zijn!

We geloven toch van wetenschap dat ze zelfcorrigerend is, waarbij enkel betrouwbare resultaten overleven? Een belangrijke reden waarom iemand als Stapel dan ook zolang onder de radar kon blijven was dat het hoogst ongebruikelijk is in sommige wetenschappelijke disciplines om replicaties uit te voeren.

Letterlijke replicaties, waarbij onafhankelijke onderzoekers proberen om een bepaalde bevinding te bevestigen, zijn zeldzaam. Een belangrijke reden hiervoor is dat de meeste wetenschappelijke tijdschriften weigerachtig staan tegenover het publiceren van letterlijke replicaties. Ze redeneren dat de nieuwswaarde van dit soort studies beperkt is. Bovendien, wanneer onderzoekers er niet in slagen om een studie te repliceren, wordt het bijna onmogelijk om deze resultaten te publiceren. Niet alleen staan wetenschappelijke tijdschriften weigerachtig tegenover letterlijke replicaties, nóg moeilijker is het om een nul-resultaat (wanneer onderzoekers niets vinden) te publiceren. Een ander moeilijk punt is dat onderzoekers die een failure-to-replicate proberen te publiceren vaak ook op hevig verzet stuiten van de auteurs van het originele artikel die zich persoonlijk aangevallen voelen (een mooi voorbeeld daarvan in mijn vorige blog).

De bekentenissen van Stapel brachten een beweging op gang die ijvert om meer replicaties uit te voeren. Nobelprijswinnaar Daniel Kahneman brak een lans voor het uitvoeren van meer letterlijke replicaties. Sociaalpsycholoog Matthew Lieberman opperde het idee om doctoraatstudenten tijdens hun opleiding een studie van hun voorkeur te laten repliceren. Dit zou wetenschap helpen om meer zelfcorrigerend te worden. Deze oproep blijkt niet geheel onterecht. Recent rapporteerde farmaceutica producent Bayer dat ze er slechts in geslaagd waren om één op drie belangrijke medicatiestudies te repliceren. Farmaceutica producent Amgen bevestigde dit probleem met hun constatering dat ze slechts in staat waren geweest om 6 van 53 belangrijke studies te repliceren. We kunnen dus spreken van een repliceerbaarheidsprobleem. Dat het probleem leeft, werd onder andere duidelijk toen het wetenschappelijke tijdschrift Perspectives on Psychological Science, een volledige uitgave enkel over dit onderwerp uitbracht.

Het blijft echter moeilijk om een objectieve lijn te trekken in dit verhaal. Gaat het slechts over enkele studies die problematisch zijn, of is er echt sprake van een repliceerbaarheidsprobleem? Om een goed zicht te krijgen op de repliceerbaarheid van studies riep psycholoog Brian Nosek onlangs zijn collega’s op om mee te doen aan een groot project, the reproducibility project. Het project is even eenvoudig als ambitieus. Samen met alle onderzoekers die wensen mee te werken aan het project wil Nosek alle artikelen die in 2008 gepubliceerd zijn in één van drie hoog aangeschreven psychologie tijdschriften letterlijk repliceren. Op basis van deze data wil Nosek komen tot een soort maat van repliceerbaarheid. Als leek of beginnende onderzoeker is het heel erg moeilijk om een zicht te krijgen op de repliceerbaarheid van studies. Wanneer je enkel artikels leest waarin spectaculaire bevindingen te lezen staan die met sprekend gemak de hypotheses van de auteurs bevestigen lijkt het alsof het vinden van interessante resultaten een vanzelfsprekendheid is. Niets blijkt dus minder waar. Zo heeft bijna elke doorwinterde wetenschapper wel weet van een experiment dat onmogelijk te repliceren valt. Van sommige resultaten weten alle onderzoekers dat ze niet te repliceren zijn, maar het huidige wetenschappelijke systeem maakt het bijna onmogelijk om daar iets aan te doen. Vele doctoraatstudenten beginnen hun doctoraat met het plan om eerst een bepaalde studie te repliceren alvorens zelf dieper op het thema in te gaan. Sommigen van hen zijn jaren later nog steeds vruchteloos aan het proberen of hebben hun onderzoek na herhaaldelijk falen allang over een andere boeg gegooid.

Aangezien ik dit stukje begon met de fraude bekentenissen van Stapel die het vuur aan de lont staken voor het grote replicatie project, moet hier een belangrijke noot bij. Het is niet omdat een bepaalde studie niet kan gerepliceerd worden dat de resultaten moedwillig vervalst zijn. Veel waarschijnlijker is het dat sommige resultaten slechts onder specifieke omstandigheden kunnen verkregen worden. Bijvoorbeeld het type software dat gebruikt werd, het tijdstip waarop de afnames plaatsvinden of zelfs het weer kan een invloed hebben op de resultaten. Ook gewoon door toeval kan soms een resultaat wel of niet gevonden worden. Zelfs minder voor de hand liggende zaken, zoals het IQ van de proefpersonen in de studie kunnen een invloed hebben. Stel dat het gemiddeld IQ aan universiteit A hoger is dan universiteit B, kan het zijn dat een resultaat niet kan gerepliceerd worden aan universiteit B, enkel omwille van deze variabele. Echter, het is quasi onmogelijk om al deze verschillende factoren in rekening te brengen en te rapporteren in een onderzoeksverslag. Tenslotte, kunnen ook menselijke fouten een grote invloed hebben. Elk menselijk gedrag is feilbaar, en we zijn geneigd om fouten in de analyse veel minder op te merken wanneer deze onze verwachting bevestigen.

Desondanks kan het grote project van Nosek ons interessante informatie opleveren. Stel dat 100 onderzoekers een interessant resultaat rapporteren, maar bij nader onderzoek blijkt dat slechts 70% (een hoge schatting?) kan gerepliceerd worden, wat is dan de wetenschappelijke waarde van deze overige 30%? Kunnen we dit wijten aan toeval, of is er dan meer aan de hand?

De resultaten van Brian Nosek zijn replicatie project zouden binnenkort klaar moeten zijn. Tot zolang de resultaten bekend zijn kunnen we initiatieven om meer replicaties uit te voeren alleen maar toejuichen. Het kan ons alleen maar betere en betrouwbaardere wetenschappelijke kennis opleveren.

Een klein vraagje om af te sluiten! Maak een verantwoorde gok over het aantal studies dat succesvol kan gerepliceerd worden in het project van Nosek. Benieuwd of de realiteit de verwachtingen benadert!