Een score gebaseerd op de concentraties van 14 biochemische stoffen in het bloed, voorspelt de kans op overlijden iets beter dan bekende risicofactoren als bloeddruk, overgewicht en cholesterol. Maar of de ene voorspelling echt beter is dan de andere, is nog niet zo simpel vast te stellen. Want wil je vooral weinig vals negatieve, of weinig vals positieve voorspellingen?
Het zorgde eind augustus voor enige reuring in de media: een bloedtest die, bij schijnbaar gezonde mensen, kon vaststellen of ze over een paar jaar dood zouden gaan. Het was alsof bij iedereen al ‘de dood in het bloed zit’: analyse van één druppel bloed zou met 83 procent trefkans de personen er uit pikken die nog minder dan vijf of tien jaar te leven hebben.
De realiteit is een stuk genuanceerder. Ten eerste is die 83 procent trefzekerheid niet per se indrukwekkend. Als het middelbare scholieren betreft, voorspel je gewoon dat ze allemaal over tien jaar nog leven, en dan krijg je (althans in Nederland) in meer dan 83 procent van de gevallen gelijk.
Moet je de tien-jaarsoverleving voorspellen voor een verpleegtehuis, dan voorspel je dat iedereen over tien jaar dood is en scoor je ook ruim hoger dan 83 procent. Leeftijd en een eerste indruk van iemands gezondheid zijn statistisch al behoorlijk voorspellend. 83 procent goed scoren is pas knap, als de kans op overleven/overlijden ongeveer 50/50 is.
Biochemische voorspellers
Daarnaast is zo’n soort test niet geheel ‘nieuw’. Er bestaat al langer een schattingsmethode voor de 5- en 10-jaarsoverleving, gebaseerd op klassieke risicofactoren als leeftijd, hoge bloeddruk, overgewicht en hoog cholesterol. De nieuwe methode meet de concentratie in het bloed van 14 biochemische stoffen die met de stofwisseling te maken hebben (‘metabolieten’). Die 14 stoffen vormen de biomarkers, waaruit een score wordt samengesteld die het overlijdensrisico in de onderzochte bevolkingsgroep iets beter voorspelt dan de klassieke risicofactoren.
Het is een misvatting, dat deze bloedtest 83 procent van de zeldzame pechvogels eruit zou pikken die veel te vroeg gaan overlijden. Moleculair epidemioloog Eline Slagboom, verbonden aan het LUMC en een van de onderzoekers die de methode testte: “Ik zou niet eens weten hoe waardevol deze 14 biomarkers zijn voor jongere mensen, want de cohorten mensen waarop deze test gebaseerd is, hadden allemaal een gemiddelde leeftijd boven de zestig. Dat is namelijk wat we zoeken: een test die de kwetsbaarheid van ouderen kan voorspellen.”
Gezondheid van de hersenen
Slagboom ziet dit vooral als een startpunt. De 14 biomarkers zijn geselecteerd als de meest voorspellende uit 220 onderzochte metabolieten, en die hebben allemaal iets te maken met de vet- en suikerstofwisselling. Maar er zitten wel 3500 metabolieten in het bloed. Slagboom: “Stel dat we ook metabolieten uit heel andere domeinen in de test kunnen opnemen, dan zou de voorspellende waarde nog groter kunnen worden.” Ze denkt dan aan amines, stoffen die te maken hebben met de gezondheid van het zenuwstelsel en de hersenen.
Slagboom ziet als groot voordeel van dit type meting, dat maar een enkele druppel bloed nodig is, en dat de resultaten goed reproduceerbaar zijn. Bloeddruk als meetwaarde, bijvoorbeeld, is berucht omdat die metingen van de ene op de andere keer flink kunnen verschillen.
De 14 biomarkers zijn geselecteerd, door van diverse cohorten (een cohort is een vaste groep mensen die jarenlang intensief gevolgd en onderzocht wordt) 220 metabolieten te meten. Jaren later, als een substantieel deel van het cohort overleden is, kun je nakijken welke metabolieten statistisch het meest voorspellend waren voor de overlijdenskans. Voor sommige biomarkers geldt: hoe lager de concentratie, hoe beter, voor de rest is het andersom. In totaal zijn 44.000 mensen gevolgd, waarvan er op het eind van de studie 5500 overleden waren.
Grotere kans op overlijden
De optimaal gewogen combinatie van die 14 markers geeft een score op een schaal van ongeveer -2 tot +2. Als je 1 punt hoger scoort op die schaal, neemt de mortaliteit met een factor 2,73 toe. De mortaliteit is de kans per jaar dat iemand overlijdt.
Tenslotte is in een ander cohort (een grote groep Finnen) gecheckt, hoe goed deze 14 biomarkers de sterftekans in dat cohort voorspelden. En daar komt dat succespercentage van 83 procent vandaan.
Een bijna drie keer zo hoge kans op overlijden lijkt heftig, maar dit is een relatieve kans: als de mortaliteit van een groep als geheel laag is, levert je hoge score maar weinig extra sterftekans op; is de groepsmortaliteit hoog, dan tikt die toename met een factor 2,73 veel harder aan. En als je alleen kijkt naar leeftijd als criterium, is de mortaliteit van tachtigers vele malen hoger dan die van zestigers.
Slagboom is specifiek geïnteresseerd in effectieve voorspellers voor ouderen: “Voor mensen boven de zeventig zijn hoge bloeddruk en hoog cholesterol geen duidelijke risicofactoren meer. Maar wij willen toe naar een betrouwbare test voor een tachtigjarige die, bijvoorbeeld, een operatie moet ondergaan, en die voorspelt hoe kwetsbaar deze patiënt is. En buiten de kliniek om, zal zo’n test ook nuttig zijn om mensen te stimuleren hun levensstijl te veranderen.”
Ook dat raakte ondergesneeuwd in het nieuws over de per bloedtest aangekondigde dood: voor een flink deel heb je je score zelf in de hand, omdat die verbetert door zaken als goede voeding en voldoende bewegen. Wat dat betreft is er niets nieuws onder de zon.
Hoe test je een test?
Het is trouwens nog niet zo simpel om zulke medische tests objectief met elkaar te vergelijken. In het artikel in Nature Communications wordt nergens geclaimd dat deze score in 83 procent van de gevallen de juiste voorspelling geeft, of woorden van gelijke strekking. Zoals de twee hypothetische voorbeelden aan het begin al aangaven, zegt dit ook weinig als je niet heel precies aangeeft wat je daarmee bedoelt.
In het artikel wordt de receiver operating characteristic van de nieuwe en de klassieke meting vergeleken (zie de zijkaders). Het verschil tussen de twee methodes wordt dan niet gekwantificeerd door één of een paar getallen, maar door het verschil tussen twee curves. Zo’n ROC-curve geeft het verband aan tussen twee grootheden die bij zulke voorspellingen hand in hand gaan: de true positive ratio en de false positive ratio .
In dit geval betekent ‘positief’, al klinkt dit vreemd, de voorspelling dat iemand dood gaat. Je wilt betrouwbare voorspellingen, dus een hoge true positive ratio, maar helaas gaat dit over het algemeen samen met een hoge false positive ratio.
Hoe dit werkt, wordt hieronder geïllustreerd:
Van een cohort mensen dat jarenlang is gevolgd, is bekend welke nog in leven zijn (bovenste deel van het diagram), en welke overleden (onderste gedeelte). De onderzoeker doet alsof ze dit nog niet weet, en wil op grond van de biomarker-score ‘voorspellen’ wie overlijdt. Dan zal ze een grenswaarde voor die score moeten kiezen (de verticale lijn). Heeft iemand een score lager dan de grenswaarde, dan is de voorspelling ‘blijft in leven’, is iemands score hoger, dan is de voorspelling ‘overlijdt’.
- voorspelling ‘nog in leven’ correct (linksboven)
- voorspelling ‘overleden’ correct (rechtsonder)
- voorspelling ‘overleden’ fout (vals positief; rechtsboven)
- voorspelling ‘nog in leven’ fout (vals negatief; linksonder)
De true positive ratio is het aantal mensen in het vakje rechtsonder, gedeeld door het aantal mensen dat werkelijk overleden is. De false positive ratio is het aantal mensen in het vakje rechtsboven, gedeeld door het aantal mensen dat nog in leven is.
In het diagram is met de blauwe schakering aangeduid, dat mensen die in leven blijven gemiddeld een lagere biomarker-score hebben dan mensen die overleden zijn. Als je in gedachten de schuifbalk beweegt, zie je dat de verhoudingen in de hoeveelheden blauw (= het aantal mensen) in de paren hokjes veranderen.
Elke instelling van de schuifbalk levert dus een andere combinatie van de false positive ratio x met de true positive ratio y op, en dus telkens een nieuw punt (x,y) in het ROC-diagram. Al die punten samen vormen de ROC-curves in de diagrammen in de zijkaders.
Een testmethode die geen enkele voorspellende waarde heeft, geeft een diagonaal door het ROC-diagram (de stippellijn). De voorspellende kracht wordt gegeven door de area under the curve (AUC): hoe meer de lijn opbolt naar de ideale linkerbovenhoek (waar je alleen maar goede voorspellingen hebt), des te beter. De AUC van de nieuwe bloedmeting met 14 biomarkers is 8 procent groter dan die van de klassieke risicofactoren voor de 5-jaars voorspelling, en 5 procent groter voor de 10-jaars voorspelling.
Wat betekent ’83 procent’?
Maar wat betekent dan het succespercentage van 83 procent dat in de media terecht kwam? Dit is het punt op de ROC-curve – en dus een keuze voor de grenswaarde – dat zo dicht mogelijk bij de linkerbovenhoek ligt. In dat punt is het percentage vals negatieve + vals positieve voorspellingen 17 procent.
Dit is echter niet per se de beste keuze voor de grenswaarde. Bij medische tests kan het veel belangrijker zijn om zo min mogelijk vals negatieve uitslagen te hebben (‘valse geruststelling’), terwijl vals positieve (‘te vaak alarm slaan’) minder erg is. Andersom kan ook voorkomen. Dat zal leiden tot een andere keuze van de grenswaarde, en dat is maatwerk. Daarom wordt bij medische tests letterlijk en figuurlijk het hele plaatje bekeken.