Naar de content

Verraderlijk pad van gevolg naar oorzaak

Verkeerd gedacht: causaliteit of correlatie

Jikke Lesterhuis voor NEMO Kennislink

We leggen voortdurend oorzakelijke verbanden, maar het is ontzettend lastig om aan te tonen of zulke verbanden echt bestaan. “Daarvoor moet je verder graven.”

18 juli 2024

‘Lichte kinderkamer vergroot risico bijziendheid’. In 1999 verschenen alarmerende koppen zoals deze in de media. Wetenschappers hadden namelijk ontdekt dat jonge kinderen die met een nachtlampje aan slapen, op latere leeftijd vaker bijziend worden dan kinderen die in het donker slapen.

Her en der werden nachtlampjes in de prullenbak gegooid. Maar was de blootstelling aan licht wel de oorzaak van de latere bijziendheid? Uit het onderzoek volgde alleen dat er een verband was, oftewel een correlatie, tussen nachtlicht en latere bijziendheid. Maar, zoals een beroemde uitspraak in de statistiek luidt: correlatie is geen causatie.

Uit vervolgonderzoek bleek dat nachtlampjes helemaal geen kwaad doen. Ouders die zelf bijziend zijn, laten in de kinderkamer vaker een nachtlampje aan dan niet-bijziende ouders. En kinderen van bijziende ouders lopen nu eenmaal om genetische redenen een verhoogde kans om later zelf ook bijziend te worden.

Derde factor

Zo is ons brein voortdurend geneigd om causale verbanden te leggen. Een voordeel daarvan is dat je grip kunt krijgen op de wereld, stelt statisticus Joris Mooij van de Universiteit van Amsterdam. “Als ik A en B vaak zie samengaan, dan kan ik misschien door A te doen B uitlokken”, zegt hij. Maar een nadeel is dat we regelmatig overhaaste conclusies trekken. “In onderzoek naar bijvoorbeeld voedingspatronen wordt vaak een correlatie aangetoond. Maar dat verschijnt dan in de kranten alsof het een causaal verband is”, zegt Mooij.

In 2017 ontdekten Deense onderzoekers bijvoorbeeld dat mensen die veel chocolade eten, minder vaak hartritmestoornissen hebben. En dus verscheen op NU.nl de kop: ‘Regelmatig chocolade eten verkleint kans op hartritmestoornis’. Mooij: “Mensen denken dan: oh, dan moet ik dus meer chocolade eten. Maar dat hoeft helemaal niet het geval te zijn.”

Voor dergelijke resultaten zijn namelijk ook andere verklaringen mogelijk. Zo kun je een derde factor over het hoofd hebben gezien. Zoals bij de nachtlampjes: zowel het nachtlicht bij de kinderen als hun latere bijziendheid staat in verband met bijziendheid van de ouders. En mensen die veel chocolade eten, bewegen misschien ook wel meer dan andere mensen, of drinken minder alcohol.

Slapend meisje met een teddybeer en een lampje aan.

Maken nachtlampjes een kind bijziend? Het verband tussen de twee blijkt anders te liggen.

Choreograph voor iStock

Toeval

Soms is er inderdaad sprake van een causaal verband, maar gaat dat juist de andere kant op. Hoe harder een windmolen draait, hoe harder het waait. Maar dat betekent niet dat een draaiende windmolen een storm veroorzaakt. Ook in bijvoorbeeld onderzoek naar drugsgebruik en psychische stoornissen kan een causaal verband vaak beide kanten op lopen. Zo kan een depressie je naar de drank doen grijpen, maar kun je ook door drankgebruik juist depressieve klachten ontwikkelen.

Verder kunnen twee verschijnselen die niks met elkaar te maken hebben, volstrekt toevallig samenhang vertonen. Zo lijkt de hoeveelheid echtscheidingen in de Amerikaanse staat Maine gelinkt aan de landelijke consumptie van margarine.

Valse verbanden

Als je maar genoeg verschijnselen bekijkt, kun je er altijd wel twee vinden waar ten onrechte een verband tussen lijkt te bestaan. Op die manier heeft de Amerikaanse programmeur Tyler Vigen talloze valse verbanden ontdekt. Het aantal Amerikanen dat jaarlijks sterft door verstrikt te raken in de lakens, houdt bijvoorbeeld opvallend gelijke tred met de jaarlijkse omzet van skifaciliteiten.

Discriminatie?

Soms voel je op je klompen aan dat een verband niet causaal is. Maar dat is lang niet altijd duidelijk. Zo werd in 1973 ontdekt dat mannen veel meer kans maakten dan vrouwen om te worden toegelaten tot de universiteit van Berkeley in de VS. Al gauw concludeerde men dat vrouwen werden gediscrimineerd.

Later bleek echter dat vrouwen zich gemiddeld vaker aanmeldden bij departementen waar überhaupt minder mensen werden aangenomen. Als je de situatie per departement bekeek, werden vrouwen ongeveer even vaak toegelaten als mannen. Mooij ontwikkelde een statistische methode waarmee hij aantoonde dat er daarom in deze Berkeley-kwestie geen bewijs is voor genderdiscriminatie.

Om een causaal verband te ontkrachten, moet je dus met een goede alternatieve verklaring op de proppen komen. “Een bekende uitspraak in de statistiek is: no cause in, no cause out”, zegt Mooij. “Als je geen causale aannames doet over een dataset, kun je er ook geen betrouwbare causale conclusies uit trekken.”

Cum laude

In 2018 concludeerde NRC uit eigen onderzoek dat op Nederlandse universiteiten mannen meer kans maken om cum laude te promoveren dan vrouwen. In 2023 bevestigde socioloog Thijs Bol van de Universiteit van Amsterdam die conclusie na een uitgebreidere analyse. Daaruit volgde dat 6,57 procent van alle mannelijke promovendi tussen 2011 en 2021 cum laude was gepromoveerd, tegenover 3,68 procent van alle vrouwelijke promovendi.

In tegenstelling tot bij de Berkeley-situatie van 1973 valt dit niet te verklaren door verschillen tussen vakgebieden. Zelfs bij dezelfde promotoren maakten mannen bijna twee keer zoveel kans om cum laude te promoveren. In zijn publicatie concludeert Bol dat zijn onderzoek weliswaar geen definitief bewijs opleverde voor genderbias, maar wel sterke aanwijzingen.

Twee groepen

Dat maakt het lastig om een causaal verband te ontkrachten. Nog lastiger is het om te bewijzen dat ergens wél een causaal verband tussen is. Zoals de Griekse filosoof Democritus zei: ‘Ik zou liever één ware oorzaak ontdekken dan koning worden van Perzië.’

Er zijn wel wat kenmerken die hinten op een causaal verband. Zo gaan oorzaak en gevolg altijd hand in hand, in de juiste volgorde en met niet te veel tijd ertussen. Maar er zijn genoeg niet-causale verbanden die aan deze voorwaarden voldoen. Als de wijzer op een barometer snel daalt, gaat het kort daarna regenen. Maar de barometer is natuurlijk niet de oorzaak van de regenbui. Bovendien zijn er ook causale verbanden die niet al deze kenmerken hebben. Zo zijn er genoeg rokers die geen longkanker krijgen, en kan er veel tijd zitten tussen het rookgedrag en de aandoening.

Volgens Mooij is de enige echt betrouwbare manier om een causaal verband aan te tonen een randomized controlled trial. Daarbij onderzoek je twee willekeurig gekozen grote groepen mensen. Bij de ene groep breng je een verandering aan, bij de andere niet. Wil je bijvoorbeeld weten of het maken van sudoku’s goed is voor het geheugen, dan laat je de ene groep dagelijks een sudoku maken en de andere groep niet. Ook laat je alle deelnemers voor en na de studie een geheugentest doen. Zie je bij de sudokugroep grote vooruitgang en bij de controlegroep niet, dan heb je een causaal verband aangetoond.

Een sudokuboek met een pen erop.

Alleen als je de ene groep wél sudoku's laat maken en de andere niet, kun je onderzoeker wat het effect is op het geheugen

Flickr.com, Frédérique Voisin-Demery via CC BY 2.0

Alleen is de wereld doorgaans geen willekeurig controleerbaar geheel. Je kunt moeilijk een heleboel mensen blootstellen aan het coronavirus om te zien of een vaccin goed heeft gewerkt. En als je de link tussen CO2-uitstoot en de aardopwarming wilt onderzoeken, houdt het al helemaal op. We hebben immers geen Planeet B zonder CO2-uitstoot.

Klakkeloos aannemen

Ondertussen snakt de maatschappij naar antwoorden op causale vragen. Veroorzaakt het gebruik van pesticiden de ziekte van Parkinson? Worden jongeren depressief van sociale media? En dus proberen we zo goed en zo kwaad als het gaat causale verbanden te leggen, met het risico dat we onszelf voor de gek houden.

Dat risico wordt de laatste tijd alleen maar groter door ons toenemende gebruik van kunstmatige intelligentie. Algoritmes zijn immers goed in het vinden van verbanden in datasets. “En wij zijn misschien wel wat te goed in het leggen van causale verbanden”, zegt Mooij. Een gevaarlijke combinatie dus. Dat bleek onder meer in de toeslagenaffaire, waarbij duizenden ouders door de belastingdienst ten onrechte werden beschuldigd van fraude, mede door het gebruik van discriminerende algoritmes.

Aan de andere kant kan AI ons ook juist helpen. Mooij werkt aan technieken om met zelflerende modellen causale verbanden uit datasets te halen. “We hopen dat dat nauwkeuriger gaat dan wat mensen kunnen”, zegt hij.

Desondanks zal menselijk inzicht altijd nodig blijven. Want als je een computer alleen maar een uitgebreide dataset geeft, is het aantal mogelijkheden al gauw niet te overzien. Mooij: “Stel dat je wilt onderzoeken wat er binnen bepaalde soorten kankercellen precies gebeurt. Dan heb je misschien wel honderden moleculen die relevant kunnen zijn, en zijn er dus ontzettend veel mogelijke causale modellen op te stellen. Het wordt dan echt zoeken naar die spreekwoordelijke naald in de hooiberg.”

Wat betreft het leggen van causale verbanden blijven we dus grotendeels op onszelf aangewezen. We moeten ons er dan ook goed van bewust zijn dat we dat eerder te snel doen dan niet snel genoeg. Mooij: “Als je leest of hoort dat uit wetenschappelijk onderzoek is gebleken dat A de kans op B verhoogt, ga er dan niet klakkeloos vanuit dat er een causaal verband is. Om daarachter te komen, moet je verder graven. Vaak moet je zelfs het wetenschappelijke artikel erbij pakken om zeker te weten wat er precies wordt bedoeld.”