Statistikk er vanskelig, også for forskere | Atle Fretheim
Statistiske tester er en av bærebjelkene i medisinsk forskning. Det er et problem.
I Uviten skriver Nina Kristiansen, Atle Fretheim, Marit Simonsen og Simen Gaure hver uke om det de mener er dårlig forskning, flau formidling, kunnskapsløse politiske forslag og ren fusk.
Som skribentkollega Simen Gaure også var inne på nylig: Mange forskere forstår ikke de statistiske tester som de selv benytter. Nå er det skjedd igjen, til og med i et av de mest prestisjetunge tidsskriftene: Forskerne har misforstått en av de mest grunnleggende statistiske metodene. Det preger måten de rapporterer resultatene på.
En effekt, eller en tilfeldighet?
Forskning dreier seg ofte om å finne ut om noe virker bedre enn noe annet.
Tenk deg at 10 syke personer skal prøve ut et nytt legemiddel. De deles i to grupper. Den ene halvparten får medikamentet, den andre ikke. Av dem som fikk legemiddelet ble 4 av 5 friske, men i den andre gruppen var det kun 2 av 5 som ble friske. Det var altså dobbelt så mange som ble friske blant dem som fikk medisin.
Skyldes forskjellen medikamentet, eller kan den like gjerne skyldes tilfeldigheter?
100 år gammel metode
I nesten 100 år har forskere benyttet en statistisk metode for å forsøke besvare dette spørsmålet. Metoden gir svar på hvor sannsynlig det er å få tilsvarende resultat gitt at behandlingen ikke virker.
Med andre ord: Om ingen av pasientene hadde fått behandlingen, hvor sannsynlig er det at man likevel ville endt opp med en så stor forskjell mellom gruppene? Regner man på det, finner man at sannsynligheten for det (p-verdien) er ganske høy, omkring 20 prosent. En så høy p-verdi forteller oss at tilfeldighetene godt kan ha spilt oss et puss – det er ganske sannsynlig at forskjellen ikke hadde noe med legemiddelet å gjøre.
I eksempelet over inngikk bare 10 personer. Med så få deltagere blir sammenligningen sårbar for tilfeldige utslag. Hadde de vært ti ganger så mange, og forskjellen hadde vært den samme (40 friske mot 20 friske), kunne vi i ha sett bort fra tilfeldigheter som forklaring (p-verdien ville vært 0,005 prosent). Da ville vi sagt at forskjellen antagelig skyldes legemiddelet.
Magisk grense på 5 prosent
Av til dels uklare grunner, har 5 prosent blitt en slags magisk grense for p-verdier i medisinsk forskning: For å kunne konkludere at en behandling virker må p-verdien være under 5 prosent.
Dette gir både merkelige og uheldige utslag. Ett ferskt eksempel er altså rapporteringen, av en stor studie i tidsskriftet JAMA, utført av en gruppe garvede forskere. De sammenlignet to forskjellige behandlingsmetoder alvorlig syke pasienter (blodforgiftning). Det var 212 pasienter i hver gruppe. Blant dem som fikk standardbehandling døde 92 (43 prosent), mens det var 74 (35 prosent) som døde blant dem som fikk den nye behandlingen.
Dette er en betydelig forskjell, men ettersom p-verdien var så vidt over 5 prosent, konkluderte forskerne at den nye behandlingen var virkningsløs. Dersom én eller to til hadde overlevd ville p-verdien ha havnet like under 5 prosent. I så fall ville forskerne ha konkludert motsatt: Den nye behandlingen er effektiv!
Opprop fra forskerne
At den mer eller mindre tilfeldig valgte 5-prosentgrensen brukes for å avgjøre om noe virker eller ei, er ganske meningsløst – og en kilde til misforståelser.
Nå har mange hundre akademikere sett seg lei på dette og skrevet under et opprop om at denne praksisen bør skrinlegges, en gang for alle.
Det høres ut som et godt forslag.