Voor epidemiologisch onderzoek maken we veel gebruik van data. Maar wat doe je nu met vragenlijsten die niet helemaal zijn ingevuld? Weggooien? Dat is ook een beetje zonde van al die informatie. Wat we wel doen? Imputeren!
Imputeren is maar een raar woord. Als ik het over m’n onderzoek heb op feestjes en partijtjes (toen die nog bestonden) is imputeren een van die dingen die ik vaak maar achterwege laat. Het is geen woord dat iedereen kent, laat staan snapt. Als mensen vragen stellen als “maar niet iedereen vult zo’n vragenlijst toch helemaal in?” dan gebruik ik vaak vage metaforen om de vraag te ontwijken. Ik mompel dan iets als: “ja, dat klopt. Maar we gebruiken dan gewoon alle informatie die we wél hebben.”
Dat antwoord is wel waar, maar het is niet echt informatie waar mensen wat aan hebben. Op dat soort momenten weet ik niet de woorden en tijd (en aandacht) te vinden om het subtiele maar essentiële verschil uit te leggen tussen fabriceren (data verzinnen, een wetenschappelijke doodzonde), en imputeren. En dat terwijl ik het gebruik voor bijna al mijn analyses, en er zelfs een paper over heb geschreven! Tijd dus om het eens over imputeren te hebben en uit te leggen wat het betekent en waar het toe dient!
In epidemiologische studies zitten vaak grote gaten. Veel data zijn gewoon niet beschikbaar, bijvoorbeeld omdat het niet is ingevuld. Soms vergeten mensen een antwoord in te vullen, of weten ze het even niet en laten ze het weg. En dat zorgt wel voor problemen.
Incompleet
In epidemiologische onderzoeken moeten vaak veel deelnemers zitten. En als je dan gegevens verzamelt van zoveel mensen, kan het wel eens voorkomen dat je niet alle gegevens van iedereen hebt. Als je vragenlijsten afneemt bij mensen, vult niet iedereen alles in. Ik heb zelf voor een reanimatiestudie vaak genoeg mensen op moeten bellen die niet alle pagina’s van de vragenlijst hadden teruggestuurd. Maar helaas is het niet anders, en blijf je vaak tóch nog zitten met incomplete gegevens. Meestal lukt het niet om een dataset volledig te krijgen.
En toch wil je je onderzoeksvraag met de data zo goed mogelijk beantwoorden. Maar om relaties in de data te onderzoeken, heb je wel de onderliggende datapunten nodig. Het is echter zonde om alleen de patiënten te analyseren waarvan je alle data hebt, want je hebt eigenlijk meer informatie verzameld. Ook kan het een vertekenend resultaat geven: misschien zijn patiënten waarvan we alle gegevens hebben wel heel anders dan patiënten waar we iets niet van weten. Het uiteindelijke resultaat wat je krijgt kan dan heel anders zijn, omdat je het in een niet representatieve groep onderzoekt. Om zoveel mogelijk gebruik te maken van alle informatie, en om zo´n juist mogelijk resultaat te krijgen, imputeren wij vaak dus onze data. Maar waarom is imputeren meer dan gewoon data ‘verzinnen’?
Imputeren is het schatten van missende gegevens door een wiskundig model, om daarna een dataset te hebben waarbij alle gegevens compleet zijn. Het is dus anders dan data fabriceren, waarbij een onderzoeker de datapunten naar eigen wens invult. In plaats daarvan gebruik je een transparant model die alle relaties die bestaan in de data gebruikt om zoveel mogelijk informatie te benutten voor je uiteindelijke analyse. Het maakt dan vervolgens ook niet uit of de ‘echte waarde’ goed is geschat, het gaat erom dat je de goede conclusie uit je analyse trekt.
Simulatie
Om dit soort ingewikkelde ideeën inzichtelijk te krijgen, simuleren statistici vaak allerlei scenario’s in computerprogramma’s. Zo’n simulatie wil ik ook gebruiken om dit idee intuïtief uit te leggen.
Ik heb onderzoek gedaan naar traumatisch hersenletsel, wat eigenlijk een overkoepelende term is voor hersenen die minder goed functioneren door schade na een ongeval. Of door koppen bij voetbal, een geweerschot door het hoofd, of omdat ze van drie meter hoogte met hun hoofd op de stoep zijn gevallen. Mensen met traumatisch hersenletsel hebben vaak nog lang last van beperkingen, doordat hun hersenen niet volledig kunnen herstellen.
Voor onze simulatie verzin ik (nu heb ik het wel echt verzonnen!) data van de uitkomsten na zo’n ongeval, data over de kwaliteit van leven (de belangrijkste uitkomst), de mate van depressie, en de mate van functioneren (kan iemand zichzelf nog aankleden, kan iemand nog lopen, etc.). En ik ben benieuwd naar wat het effect is van de mate van depressie en functioneren op de kwaliteit van leven.
Maar inderdaad, helaas hebben deze data ook missende waarden: hoe slechter iemand functioneert, hoe moeilijker hij of zij het vond om de mate van depressie in te vullen. Daarom hebben slechter functionerende patiënten vaker een missende waarde voor mate van depressie.
Door deze waarde te imputeren, kunnen we wél alle patiënten meenemen in onze analyse. Als je dan kijkt naar het effect van depressie op de uitkomst, zie je dat het wel of niet imputeren eigenlijk niet minder vaak tot een goede conclusie leidt (figuur 1&2): dit is natuurlijk ook terecht, omdat de data hiervoor ook mistten. Maar wel kan het effect van mate van functioneren op kwaliteit van leven nu veel beter worden onderzocht. Alle data zijn gebruikt, dus we weten veel zekerder wat het effect kan zijn.
Kortom, imputeren heeft er hierbij voor gezorgd dat de data niet mooier werden dan ze zijn (we weten ook echt niet meer over het effect van mate van depressie op kwaliteit van leven, want die data hebben we niet), maar tóch trokken we vaker een betere conclusie.
Don’t try this at home
Natuurlijk zitten er veel haken en ogen aan, en moet je goed weten wat je doet als je gaat imputeren. Wel is het dus een eerlijke methode, die ons als onderzoekers in staat stelt zekerdere conclusies te trekken. Voor wie kritisch is naar wat ik heb gedaan, en het zelf wil nabootsen, heb ik hier de code en wat meer uitleg staan. Voor wie mij nog op toekomstige feestjes en partijtjes de vraag stelt wat ik doe als “niet iedereen de vragenlijst in heeft gevuld”, zeg ik voortaan “die imputeer ik dan”.