En grund til at nogle videnskabelige undersøgelser kan være forkerte

Der er en replikerbarhedskrise i videnskab - uidentificerede "falske positive" er gennemsyrer selv vores topforskningstidsskrifter.

En falsk positiv er et påstand om, at en effekt eksisterer, når den i virkeligheden ikke gør det. Ingen ved, hvor stor andel af offentliggjorte papirer, der indeholder sådanne forkerte eller overdrevne resultater, men der er tegn på, at andelen ikke er lille.

Epidemiologen John Ioannidis gav den bedste forklaring på dette fænomen i et berømt papir i 2005, provokerende med titlen “Hvorfor de fleste offentliggjorte forskningsresultater er falske”. En af grundene til, at Ioannidis gav for så mange falske resultater, er blevet kaldt “p hacking ”, som kommer fra det pres, forskere føler for at opnå statistisk signifikans.

Hvad er statistisk signifikans?

For at drage konklusioner fra data stoler forskere normalt på betydningstest. Enkelt sagt betyder det at beregne “p værdi ”, hvilket er sandsynligheden for resultater som vores, hvis der virkelig ikke er nogen effekt. Hvis den p værdi er tilstrækkelig lille, erklæres resultatet for at være statistisk signifikant.

Traditionelt set a p værdi på mindre end 05 er kriteriet for betydning. Hvis du rapporterer en p<.05, læsere vil sandsynligvis tro, at du har fundet en reel effekt. Måske er der faktisk ingen effekt, og du har rapporteret en falsk positiv.


indre selv abonnere grafik


Mange tidsskrifter offentliggør kun undersøgelser, der kan rapportere en eller flere statistisk signifikante effekter. Kandidatstuderende lærer hurtigt at opnå det mytiske p

Dette pres for at opnå pp hacking.

Lokningen af p hacking

Til at illustrere p hacking, her er et hypotetisk eksempel.

Bruce har for nylig afsluttet en ph.d. og har modtaget et prestigefyldt stipendium for at slutte sig til et af de øverste forskerteam inden for hans felt. Hans første eksperiment fungerer ikke godt, men Bruce forbedrer hurtigt procedurerne og kører en anden undersøgelse. Dette ser mere lovende ud, men giver stadig ikke en p værdi på mindre end 05.

Overbevist om, at han er på noget, samler Bruce flere data. Han beslutter at droppe et par af resultaterne, som så tydeligt langt væk.

Han bemærker derefter, at et af hans mål giver et klarere billede, så han fokuserer på det. Et par flere justeringer og Bruce identificerer endelig en lidt overraskende, men virkelig interessant effekt, der opnås p

Bruce prøvede så hårdt på at finde den effekt, at han vidste lurede et sted. Han følte også presset for at ramme p

Der er kun en fangst: der var faktisk ingen effekt. På trods af det statistisk signifikante resultat har Bruce offentliggjort en falsk positiv.

Bruce følte, at han brugte sin videnskabelige indsigt til at afsløre den lurende effekt, da han tog forskellige skridt efter start af sit studie:

  • Han indsamlede yderligere data.
  • Han faldt nogle data, der syntes afvigende.
  • Han droppede nogle af sine foranstaltninger og fokuserede på de mest lovende.
  • Han analyserede dataene lidt anderledes og foretog et par yderligere justeringer.

Problemet er, at alle disse valg blev foretaget efter ser dataene. Bruce kan, ubevidst, have kirsebærplukket - udvalgt og justeret, indtil han fik det undvigende pp

Statistikere siger: Hvis du torturerer dataene nok, vil de tilstå. Valg og tweaks foretaget efter at have set dataene er tvivlsom forskningspraksis. Brug af disse, bevidst eller ej, for at opnå det rigtige statistiske resultat er p hacking, hvilket er en vigtig årsag til, at offentliggjorte statistisk signifikante resultater kan være falske positive.

Hvor stor en andel af de offentliggjorte resultater er forkert?

Dette er et godt spørgsmål og et sværligt vanskeligt spørgsmål. Ingen kender svaret, som sandsynligvis vil være forskelligt inden for forskellige forskningsområder.

En stor og imponerende indsats for at besvare spørgsmålet om social og kognitiv psykologi blev offentliggjort i 2015. Ledet af Brian Nosek og hans kolleger på Center for Open Science, Replikeringsprojekt: Psykologi (RP: P) havde 100 forskningsgrupper rundt om i verden hver udført en omhyggelig replikering af et af 100 offentliggjorte resultater. Samlet set, ca. 40 replikerede ret godt, hvorimod replikationsundersøgelserne i omkring 60 tilfælde opnåede mindre eller meget mindre effekter.

100 RP: P replikationsundersøgelserne rapporterede effekter, der i gennemsnit kun var halvdelen af ​​størrelsen af ​​de effekter, der blev rapporteret i de oprindelige studier. De nøje udførte replikationer giver sandsynligvis mere nøjagtige estimater end muligvis p hackede originale studier, så vi kunne konkludere, at de originale studier overvurderede virkelige effekter med i gennemsnit en faktor på to. Det er alarmerende!

Hvordan man undgår p hacking

Den bedste måde at undgå p hacking er at undgå at foretage valg eller justeringer efter at have set dataene. Undgå med andre ord tvivlsomme forskningsmetoder. I de fleste tilfælde er den bedste måde at gøre dette på at bruge præregistrering.

Forregistrering kræver, at du på forhånd udarbejder en detaljeret forskningsplan, herunder den statistiske analyse, der skal anvendes på dataene. Derefter registrerer du forud planen med datostempel på Åben videnskabsramme eller et andet online-register.

Derefter gennemføre undersøgelsen, analysere dataene i overensstemmelse med planen og rapportere resultaterne, uanset hvad de er. Læsere kan kontrollere den forudregistrerede plan og dermed være sikre på, at analysen blev specificeret på forhånd og ikke p hacket. Forregistrering er en udfordrende ny idé for mange forskere, men sandsynligvis fremtidens vej.

Estimering snarere end p værdier

Fristelsen til p hack er en af ​​de store ulemper ved at stole på p værdier. En anden er, at psnarere som at sige, at der findes en effekt eller ikke.

Men verden er ikke sort og hvid. For at genkende de mange gråtoner er det meget bedre at bruge estimering snarere end p værdier. Målet med estimering er at estimere størrelsen på en effekt - som kan være lille eller stor, nul eller endda negativ. Med hensyn til estimering er et falsk positivt resultat et skøn, der er større eller meget større end den virkelige værdi af en effekt.

Lad os tage en hypotetisk undersøgelse af effekten af ​​terapi. Undersøgelsen kan for eksempel estimere, at terapi i gennemsnit giver et 7-punkts fald i angst. Antag, at vi beregner ud fra vores data a konfidensinterval - en række usikkerheder på begge sider af vores bedste skøn - på [4, 10]. Dette fortæller os, at vores skøn på 7 sandsynligvis ligger inden for ca. 3 point på angstskalaen for den sande effekt - den sande gennemsnitlige fordel af behandlingen.

Med andre ord angiver konfidensintervallet, hvor præcist vores estimat er. At kende et sådant skøn og dets konfidensinterval er meget mere informativ end nogen anden p værdi.

Jeg henviser til estimering som en af ​​de "nye statistikker". Teknikkerne i sig selv er ikke nye, men at bruge dem som den vigtigste måde at drage konklusioner på baggrund af data ville for mange forskere være nye og et stort skridt fremad. Det vil også hjælpe med at undgå forvridninger forårsaget af p hacking.

Om forfatteren

Geoff Cumming, emeritus professor, Trobe Universitetet

Denne artikel blev oprindeligt offentliggjort den The Conversation. Læs oprindelige artikel.

Relaterede Bøger:

at InnerSelf Market og Amazon