Daniël Lakens. Foto | Bart van Overbeeke

Op de bres voor de betrouwbaarheid van wetenschap

Eén onderzoek is géén onderzoek, twee onderzoeken zijn een half onderzoek, drie onderzoeken zijn (met een beetje geluk) pas een écht onderzoek. Zo formuleert dr. Daniël Lakens het belang van herhaling in de wetenschap. De psycholoog van de afdeling Human-Technology Interaction maakt zich daarom hard voor een nieuwe inrichting van de wetenschap, met meer ruimte voor replicatieonderzoek.

‘Publish or perish’ is het adagium van de hedendaagse wetenschap. Subsidies en aanstellingen zijn voor een aanzienlijk deel afhankelijk van hoeveel artikelen een onderzoeker heeft gepubliceerd. Zonder een cv met een lange publicatielijst kom je tegenwoordig niet ver bij financiers als NWO. Als je dan bedenkt dat vaktijdschriften eigenlijk alleen vernieuwend onderzoek willen publiceren, zijn onderzoekers wel gek als ze werk van collega’s letterlijk herhalen - terwijl dat eigenlijk wel nodig is om iets te kunnen zeggen over de betrouwbaarheid van met name psychologisch en medisch onderzoek. Je zou zelfs kunnen stellen dat het feit dat wetenschappelijke resultaten reproduceerbaar zijn, bijna de definitie van wetenschap is.

Het besef dat de nadruk op baanbrekend onderzoek -ook vanuit de financiers- schadelijke gevolgen kan hebben voor de robuustheid van wetenschappelijke inzichten, leeft buiten de kring van onderzoekers zelf nog nauwelijks, concludeert Daniël Lakens. “Er bestaat bij beleidsmakers een soort ideaalbeeld van de wetenschapper die zich niet druk maakt om zijn hypotheek en zich alleen maar laat leiden door puur wetenschappelijke motieven. Dat beeld gaat misschien op voor een paar uitzonderlijke wetenschappers, maar het merendeel van de onderzoekers ziet veel publiceren als hun belangrijkste doel. Je ontkomt gewoon niet aan de perverse prikkels vanuit wetenschapsfinanciers en -uitgevers. Het moet allemaal innovatief zijn en snel worden gepubliceerd.” En dat gaat ten koste van de kwaliteit.

Eind februari was de TU/e’er op bezoek bij onderzoeksfinancier NWO, dat hem had uitgenodigd naar aanleiding van een pleidooi voor replicatieonderzoek dat hij met twee collega’s had geschreven in vakblad De Psycholoog. “We mochten een kort stukje leveren voor het eigen blad van NWO. Daarin vergeleken we replicatieonderzoek met spruitjeswetenschap: heel gezond voor de wetenschap, maar niet echt lekker. Als die spruitjeswetenschap niet wordt gestimuleerd en gefinancierd, dan wordt het gewoon niet gedaan. NWO had onder het artikel een reactie geplaatst dat ze best replicaties wilde financieren, als ze maar innovatief waren! Daarop heb ik in een opwelling een geïrriteerd mailtje gestuurd.” Het onverwachte resultaat was dat hij langs mocht komen bij de directie.

Lakens maakte de directie van NWO duidelijk dat ze met hun focus op innovatie een deel van hun taak verwaarlozen. “Een organisatie als NWO heeft wettelijk twee taken. Ze moeten niet alleen innovatief onderzoek bevorderen, maar ook de kwaliteit van de wetenschap bewaken. En die twee dingen bijten elkaar in de huidige situatie. Ik heb daarom voorgesteld om kleine beurzen van zo’n vijfduizend euro te gaan uitgeven, speciaal voor replicatieonderzoek. Vaak hoeft dat namelijk echt niet zoveel geld te kosten.”

In afwachting van het antwoord van NWO is de psycholoog druk bezig met een internationaal initiatief. “Mijn Amerikaanse collega Brian Nosek heeft een non-profit organisatie opgericht, het Center for Open Science, onder meer om replicatieonderzoek mogelijk te maken. Samen met Nosek bereid ik nu een speciale uitgave van Social Psychology voor. Onderzoekers mogen een plan voor een replicatieonderzoek indienen. Als dit wordt goedgekeurd, krijgen ze hiervoor financiering en de garantie dat het wordt gepubliceerd.”

De opzet voor deze speciale uitgave lijkt te werken. “We hebben inmiddels al meer aanmeldingen dan we kunnen plaatsen. Je ziet dus dat er niet veel nodig is om wetenschappers over de streep te trekken. Een kleine herstructurering van het wetenschappelijk proces is voldoende. Er gaat ook meteen een preventieve werking van uit, omdat onderzoekers weten dat hun, wellicht rammelende, onderzoek zomaar kan worden overgedaan. Er zijn ook collega’s die echt tegen zulke grootschalige replicatieprojecten zijn. Die zijn bang dat hier alleen maar slechte publiciteit uit kan voortkomen.”

De speciale uitgave van Social Psychology waaraan Lakens werkt, past in een veel grotere beweging die de afgelopen jaren op gang is gekomen. Zo loopt er vanuit het Center for Open Science een groot Reproducibility Project, waarbinnen nog veel meer resultaten uit de psychologie zo nauwkeurig mogelijk worden overgedaan. Ook is er een speciaal digitaal platform gekomen, het Open Science Framework, waarmee onderzoekers data kunnen delen, plannen voor experimenten kunnen aanmelden en makkelijker kunnen samenwerken. De opgeleefde belangstelling voor het ‘saaie’ herhaalwerk schrijft de TU/e’er toe aan twee grote recente affaires binnen zijn vakgebied. “Je hebt natuurlijk de fraude van Diederik Stapel. Een heel andere affaire, rond Daryl Bem, heeft echter wellicht nog meer impact gehad (zie kader). Daarbij zat het probleem waarschijnlijk in de gebruikte statistische methodes.”

In zijn kruistocht tegen perverse prikkels in de wetenschap schreef Lakens onlangs onder meer een kritisch opiniestuk in NRC over het topsectorenbeleid, dat volgens hem te veel invloed geeft aan de industriële partners waarmee wetenschappers moeten samenwerken. Waarom maakt de jonge universitair docent zich zo druk, terwijl veel van zijn collega’s hun schouders ophalen en al hun tijd besteden aan het opbouwen van een publicatielijst?

“Ik ben niet zo conformistisch aangelegd. En als je eenmaal beseft wat er mis is, dan kan je er gewoon niet omheen. Als de schellen je eenmaal van de ogen zijn gevallen, zoals Thomas Kuhn het formuleerde... Daarbij komt dat ik in een goede positie ben om kritiek te leveren op het systeem. Door het type onderzoek dat ik doe, waarbij het relatief simpel is om effecten aan te tonen met vrij kleine aantallen proefpersonen, publiceer ik best veel.”

Lakens heeft daardoor persoonlijk minder last van de publicatiedruk dan veel van zijn collega’s, en is dus minder vatbaar voor de beschuldiging dat zijn kritiek puur voortkomt uit eigenbelang. “Aan de andere kant zie ik dat heel goede collega’s, die de moeite nemen om met meer proefpersonen te werken en hun eigen experimenten toetsen door ze te herhalen, zich zorgen maken over of hun contract verlengd wordt. En ik wil de komende dertig jaar graag met leuke, goede collega’s werken. Dat zou je eigenbelang kunnen noemen.”

Daryl Bem en de toekomst

Daryl Bem is een gerenommeerde psycholoog, die onder meer les gaf aan Harvard en Stanford. In 2011 publiceerde hij een artikel in het Journal of Personality and Social Psychology met de titel ‘Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect’, waarin hij beweerde in negen studies te hebben aangetoond dat het mogelijk is om in de toekomst te kijken - deelnemers reageerden namelijk anders vóórdat ze erotische afbeeldingen te zien kregen dan wanneer ze aan neutrale plaatjes werden blootgesteld. Deze vermeende omkering van oorzaak en gevolg, ogenschijnlijk statistisch significant, deed veel stof opwaaien. Ervan uitgaande dat het effect niet bestaat, en de onderzoeker te goeder trouw is, moet er iets misgegaan zijn met de statistiek. Lakens: “Veel collega’s hebben daaruit geconcludeerd dat we collectief onze statistische methodes moeten aanscherpen. Dat heeft een golf van vernieuwing op gang gebracht.”

Leugens, grote leugens, en statistiek

Als een bepaald wetenschappelijk resultaat -zeg, melk is gezond- wordt gepubliceerd in een ‘peer-reviewed’ tijdschrift met enig aanzien, wil dit nog niet zeggen dat melk inderdaad goed is voor de gezondheid. Er is altijd een statistische kans, in het algemeen kleiner dan vijf procent (de zogeheten p-waarde), dat melk helemaal niet goed voor je is, of misschien zelfs slecht. Dat beseffen wetenschappers ook.

Wat ze vaak minder goed beseffen, vertelt Lakens, is dat het zogeheten statistische onderscheidingsvermogen van het gemiddelde psychologische onderzoek naar schatting op slechts vijftig procent ligt. “Dat betekent dat als er een significant effect bestaat, de kans is dat je dit ook aantoont niet groter is dan de kans dat je kop gooit met een munt.” Van die vijftig procent die geen resultaat oplevert, verdwijnt het overgrote deel in een bureaula. “Daardoor is de verhouding tussen de valse effecten en de betrouwbare effecten in de literatuur slechter dan je zou willen.”

Bovenstaand probleem is niet uniek voor de psychologie. Onderzoek lijkt aan te tonen dat de kans op positieve replicatie van medisch onderzoek nog veel lager ligt. De mogelijke implicaties hiervan zijn niet moeilijk voor te stellen.

Deel dit artikel