Medisch onderzoek is niet altijd even goed. In de komende drie blogs bespreken we daarom de drie meest voorkomende missers. In deze eerste blog behandelen we confounding, oftewel het vergelijken van appels met peren.
Vooral in observationeel onderzoek zijn fouten snel gemaakt. Vaak natuurlijk niet met opzet. Bij observationeel onderzoek verzamel je patiëntgegevens zonder verder in te grijpen in de behandeling. Dit soort onderzoek is best lastig, want we zijn al gauw appels met peren aan het vergelijken, met alle gevolgen van dien!
Maar voordat ik je over deze medische missers vertel, leg ik je graag eerst uit hoe artsen en onderzoekers er achter proberen te komen hoe een medicijn werkt. Neem dit recente voorbeeld: in juni 2020 was er een grote doorbraak in de behandeling van COVID-19. Een grote Britse studie toonde onomstotelijk aan dat dexamethason (een ontstekingsremmer) leidt tot minder sterfte onder opgenomen patiënten met COVID-19. Maar hoe kwamen ze daar nu precies achter?
Gerandomiseerde experimenten versus observaties
Om te weten of een medicijn werkt doen we het liefste een gerandomiseerd experiment (in medisch-wetenschappelijk jargon noemen we dit ook wel een ‘randomised controlled trial’, ook wel vaak afgekort als RCT). In een gerandomiseerd experiment wordt door loting bepaald welke behandeling een proefpersoon krijgt. Natuurlijk gebeurt dit met toestemming van de patiënt.
Deze randomisatie (willekeurige loting) zorgt ervoor dat beide behandelgroepen hetzelfde zijn in ieder opzicht: beide groepen zijn gemiddeld even oud, in beide groepen zitten ongeveer even veel mannen, beide groepen hebben ongeveer even veel mensen met suikerziekte enzovoort.1
Het enige verschil is dan dat de ene groep wel de behandeling krijgt en de andere groep niet. We zijn dus appels met appels aan het vergelijken. Als we dan vinden dat in de dexamethason groep minder doden voorkomen (en minder dan we op basis van toeval kunnen verwachten), dan weten we zeker dat deze verbetering door de behandeling zelf komt en niet per ongeluk door andere factoren.
In het Verenigd Koninkrijk hebben onderzoekers een grote gerandomiseerde trial uitgevoerd, de RECOVERY trial, die dit op deze manier uitzocht. Door de positieve resultaten van deze gerandomiseerde studie worden opgenomen patiënten met COVID-19 die beademing of zuurstof nodig hebben nu behandeld met dexamethason.
Dit soort gerandomiseerde experimenten geven het beste bewijs of een behandeling wel of niet werkt, omdat er geen andere factoren zijn die het resultaat kunnen beïnvloeden. Helaas kunnen we niet altijd dit soort experimenten uitvoeren. Soms zijn we geïnteresseerd in de langetermijneffecten van een behandeling. Het zou erg tijdrovend zijn om een groep mensen te randomiseren en dan 20 jaar op een antwoord te wachten. Soms is het ook niet ethisch om te randomiseren, bijvoorbeeld als we geïnteresseerd zijn in het effect van roken op hartaanvallen. We kunnen moeilijk mensen aansporen om te gaan roken en dan kijken of er meer hartaanvallen voorkomen in de groep rokers dan in de groep niet-rokers!
Vanwege dit soort redenen doen wetenschappers ook vaak observationeel onderzoek. In observationeel onderzoek bepalen de wetenschappers niet zelf wie welke behandeling krijgt. We observeren gewoon wat er gebeurt in de huidige praktijk. De ene patiënt krijgt van zijn dokter wel de behandeling, en de andere patiënt krijgt van zijn dokter niet de behandeling. Als we in een observationeel onderzoek nu zien dat het geven van dexamethason dodelijk is, zouden we dan concluderen dat we maar beter niet de behandeling kunnen geven?
Appels met peren vergelijken
Je raadt het misschien al, maar het antwoord is “Nee!”. Omdat we niet gerandomiseerd hebben, kan het zo zijn dat de ene groep gewoon zieker is dan de andere groep. Bijvoorbeeld omdat dokters het medicijn alleen voorschrijven aan de meest zieke patiënten. We zouden dan onterecht concluderen dat het medicijn leidt tot meer doden, maar eigenlijk komt het doordat we appels met peren aan het vergelijken zijn. In medisch-wetenschappelijk jargon noemen we dit ‘confounding’, van het Latijnse woord confundere, wat ‘verwarren’ betekent.
Confounding is een probleem in bijna alle observationele onderzoeken die behandelingen vergelijken: de patiënten die een behandeling krijgen zijn nu eenmaal anders dan patiënten die geen behandeling krijgen. Is er een oplossing voor confounding in observationele onderzoeken? Ja en nee. We zouden de verschillen tussen de groepen kunnen meten en daar met statistische analyses voor corrigeren. Als we van iedereen de leeftijd weten is het mogelijk om met de analyse ervoor te zorgen dat in beide behandelgroepen evenveel oude mensen zitten. Maar we kunnen met dit soort statistische analyses alleen corrigeren voor gemeten verschillen en niet voor ongemeten verschillen. Als we niet hebben geregistreerd wie suikerziekte heeft en wie niet, is het onmogelijk om daarop te corrigeren. We zijn dan alsnog appels met peren aan het vergelijken.
Actieve controles in observationeel onderzoek
Een handige truc om de groepen toch zo gelijk mogelijk te maken in observationeel onderzoek is om twee behandelingen met elkaar te vergelijken. Een voorbeeld hiervan is een recent onderzoek waarbij we twee bloeddrukverlagers vergeleken bij mensen met nierziekten2. We vergelijken dan een medicijn met een ander medicijn, een zogeheten ‘actieve controle’. Als beide medicijnen worden voorgeschreven aan dezelfde soort mensen, dan lijken de groepen al erg op elkaar en hebben we de meeste confounding verwijderd2. De lezer van observationeel onderzoek moet zichzelf iedere keer afvragen of de actieve controle geschikt is en confounding genoeg vermindert.
We kunnen actieve controles niet alleen gebruiken bij observationeel onderzoek naar medicijnen. Ook als we willen weten of een chirurgische behandeling effectief is actieve controle handig. Bijvoorbeeld als je wilt weten of een operatie bij mensen met ernstig overgewicht zorgt voor minder hart- en vaatziekten. Uit een recent onderzoek blijkt dat we de mensen die zo’n operatie kregen beter kunnen vergelijken met mensen die een knie- of heup operatie hebben ondergaan, dan een vergelijking maken met helemaal geen operatie4.
De eerste veelvoorkomende blunder in medisch onderzoek is dus wanneer we onterecht uit een observationeel onderzoek concluderen of een behandeling werkt of niet, terwijl er confounding aanwezig was. Vraag jezelf bij het lezen over medisch onderzoek dus altijd af of appels met appels zijn vergeleken, of toch met peren!
1 Feitelijk zorgt randomisatie ervoor dat beide groepen dezelfde prognose hebben. Het is niet noodzakelijk dat alle kenmerken (leeftijd, geslacht etc) perfect gebalanceerd zijn tussen beide groepen.
2 Fu EL, Clase CM, Evans M, Lindholm B, Rotmans JI, Dekker FW, van Diepen M, Carrero JJ. Comparative Effectiveness of Renin-Angiotensin System Inhibitors and Calcium Channel Blockers in Individuals With Advanced CKD: A Nationwide Observational Cohort Study. Am J Kidney Dis. 2020 Nov 24:S0272-6386(20)31121-5. doi: 10.1053/j.ajkd.2020.10.006. Epub ahead of print. PMID: 33246024.
3 Edouard L Fu, Merel van Diepen, Yang Xu, Marco Trevisan, Friedo W Dekker, Carmine Zoccali, Kitty Jager, Juan Jesus Carrero, Pharmacoepidemiology for nephrologists (part 2): potential biases and how to overcome them, Clinical Kidney Journal, 2020;, sfaa242
4 Rassen JA, Murk W, Schneeweiss S. Real-world evidence on bariatric surgery and cardiovascular benefits using electronic health record data: A lesson in bias. Diabetes Obes Metab. 2021 Feb 10. doi: 10.1111/dom.14338. Epub ahead of print. PMID: 33566434.