Statistisk signifikans - det kan man designe sig til

Forskningslitteraturen er spækket med eksempler på, hvordan vores forståelse af os selv og omverdenen næres af falske tanker og forudindtagede ideer. Psykologer og logikere har givet dem specifikke navne - f.eks. comfirmation bias, stråmandsfejlslutninger, eskalationseffekter, overlegenhedsillusioner, følgesætningsfejlslutninger, cirkelslutninger, rækkefølgebias og mange flere. Confirmation bias er f.eks. vores tendens til kun at opdage, acceptere og huske de data, som bekræfter det, vi allerede troede på fra start og omvendt ignorere, glemme og bortforklare de data, som modsiger vores oprindelige antagelser.

Den bedste måde at modgå de psykologiske faldgruber på er den videnskabelige metode, hvor man laver hypoteser, designer eksperimenter, analyserer data og be- eller afkræfter hypoteserne. Men det er stadig svært. Nogle gange resulterer et forsøg på at undgå én faldgrube blot i, at man havner i en anden.

Et af de steder, hvor det står værst til med den slags forblændelser, er i de discipliner, hvor man stadig bruger det statistiske signifikansbegreb. At et resultat er 'statistisk signifikant' betyder, at hypotesen understøttes af en test, der viser, at der er mindre end f.eks. 5 procents risiko for, at data er tilfældige. I lægemiddelforskningen arbejder mange nu om dage med et signifikansniveau på p < 0,01 eller mindre, altså med 1 eller mindre end 1 procents risiko for at resultatet er tilfældigt, mens man i økonomien ofte er tilfreds med et signifikansniveau på p < 0,1 - altså 10 procent.

Al den talbehandling baserer sig på en antagelse om, at et eksperiment er relativt entydigt, og at de data, man får ud af en test, er objektive udsagn om en hypoteses styrke. Men det er langt fra tilfældet. Entydighed er nemlig en sjælden gæst i et laboratorieforsøg. Værst af alle fejl er de falsk positive resultater, som viser en effekt, når der i virkeligheden ikke er nogen. Disse fejl slipper ofte igennem til fagtidsskrifterne, fordi forskningssystemet er skruet sådan sammen, at det belønner resultater frem for ikke-resultater, og når resultaterne først har fundet vej til et publikum, er de svære at afkræfte igen. Det fører ofte til enormt ressourcespild, håbløse forskningsprojekter - og ikke mindst til forkerte politiske prioriteringer.

Signifikans er en smal sag

Ifølge en artikel fra oktober af Joseph Simmons, Leif Nelson og Uri Simonsohn fra University of Pennsylvania og Berkeley er det uacceptabelt let at offentliggøre et 'statistisk signifikant' resultat under eksisterende krav om, hvordan et eksperiment bør udføres. Årsagen er eksperimentatorernes høje grad af metodisk frihed. De kan vælge og vrage med hensyn til, hvordan eksperimentet sættes op, hvordan data opsamles, hvilke observationer der bør medtages, hvilke konditioner der kan kombineres og hvilke korrelationer der kan sammenlignes.

Helt konkret har de tre forskere designet et forsøg, der kan eftervise en sammenhæng, som i virkeligheden er umulig. De har vist, at forsøgspersoner kan blive yngre af at lytte til Beatles-sangen 'When I'm Sixty-Four'. Forsøgspersonerne føler sig ikke bare yngre - de er yngre. Det må kaldes en hidtil ukendt foryngelseskur, som, hvis den var sand, ville føre til tidsmaskiner og alskens andre revolutionerende terapier.

Forsøget gik ud på at lade 20 studerende lytte til én af to sange. Den ene var 'Kalimba', et instrumentalnummer af Mr. Scuff, som er gratis tilgængeligt på Windows 7, og den anden var 'When I'm Sixty-Four' af The Beatles. I en ikke-relateret opgave skulle de studerende angive deres fødselsdag og deres fars alder. Den 'statistiske analyse' var så følgende: Ved at sammenligne gennemsnitsalderen af Kalimba-gruppen med Beatles-gruppen (de to antoges som udgangspunkt at være ens, da det jo var randomiserede grupper) efter at de havde lyttet til sangene, fandt forskerne, at Beatles-gruppen var yngre (men ikke signifikant meget yngre) end Kalimba-gruppen. Det var tilfældigt. Men korrigerede forskerne for eventuelle store aldersforskelle hos individerne ved at bruge faderens alder som baggrundsvariabel, blev forskellene i de to gruppers alder signifikant. I gennemsnit var Beatles-gruppen pludselig halvandet år yngre end dem, som havde lyttet til Kalimba. Det giver ingen mening og viser, at brugen af en overflødig baggrundsvariabel (faderens alder) kan forvandle en insignifiant forskel til en signifikant effekt.

Det går galt selv uden ond vilje

Det umulige resultat er selvfølgelig med vilje, og pointen er, at man som eksperimentator ikke behøver at handle i ond vilje for at nå derhen. Det er nok med et par tåbelige (men alt for almindelige) antagelser som ovenstående: I starten af et eksperiment antages to grupper at være lige gamle. Bagefter viser den ene gruppe sig at være yngre end den anden, ergo: Beatles skal ordineres i pilleform. Men hvordan foregår det ellers i laboratorierne? Hvilke andre små antagelser og manipulerende fortolkninger kommer i anvendelse, når man som forsker kigger på sine eksperimenter? Et par computersimuleringer af et typisk forsøgsforløb viser, hvad der foregår, siger Simmons, Nelson og Simonsohn i deres artikel, som blev publiceret i fagbladet Psychological Science.

Som eksempel på, hvad der foregår, kan vi også forestille os en kræftforsker, som prøver at eftervise, at der er en sammenhæng mellem at spise bønner og udvikle kræft. Resultatet er i første omgang negativt. Ikke overbevist går forskeren i gang med at teste, om det ikke snarere er gule bønner, eller røde bønner, eller grønne bønner, eller kombinationen af hvide og grønne bønner, der forårsager en højere kræftrisiko, og så sandelig: På et eller andet tidspunkt rammer forskeren jackpot, publicerer resultatet i Journal of Positive Results, og sikrer sig sin næste bevilling.

Et andet hyppigt problem er eksperimentatorens frihed til at ændre antallet af datapunkter, indtil en effekt viser sig. Kommer der ingen interessante resultater med 20 forsøgspersoner, fortsætter man bare med 10 forsøgspersoner mere. Denne type manipulation viser sig ifølge Simmons, Nelson og Simonsohn at øge sandsynligheden for at finde noget signifikant med 50 procent. Som eksperimentator kunne man også vælge at kontrollere for kønsfordelingen eller for en vekselvirkning mellem køn og en anden uafhængig variabel. Dette øger chancen med 11,7 procent. Og vælger man at være lidt fleksibel med enten at rapportere to ud af tre forsøgsbetingelser eller at rapportere alle tre, øger man chancen for at formidle et positivt resultat med 12,6 procent.

Alt i alt viser det sig, at man mere eller mindre ubevidst kan skrue sandsynligheden for at finde et positivt resultat op på 61 procent. Dette fortjener en gentagelse: Gængse standarder for at tjekke en videnskabelig hypotese med en normal signifikanstest gør det muligt for en forsker at finde en sammenhæng i 61 procent af tilfældene. Det er intet mindre end en skandale og degraderer den naive brug af statistisk signifikans til en narresut. Det betyder nemlig, at så længe man har en hypotese, som lyder plausibel (og ikke involverer raceargumenter eller tidligere diskrediterede påstande om at kunne læse tanker og lignende), så kan man med 2-3 passende eksperimenter bekræfte den.

Brug for strammere regler

Hvad kan man gøre? Ifølge Simmons, Nelson og Simonsohn er der brug for at stramme gevaldigt op omkring den videnskabelige metode og pålægge eksperimentatorer en lang liste af ekstra krav til et forsøgsdesign. Blandt kravene er, at man i forvejen skal beslutte, hvor mange datapunkter, man ønsker at indsamle, og ikke, som flertallet gør det i dag, først kigge lidt på resultatet før man beslutter sig for, om man vil stoppe eller fortsætte med eksperimentet. Man skal også samle og afrapportere alle variable og eksperimentelle betingelser, inklusive mislykkede manipulationer, og hvis der fjernes data fra evt. fejlkilder, skal grunden til, at de er fjernet, anføres. Hvis man bruger en baggrundsvariabel, skal den statistiske analyse uden brug af baggrundsvariablen også afrapporteres. Det burde alt sammen være standardkrav til videnskabelige protokoller, men er det sjældent, siger forskerne.

For redaktører af fagblade burde der også gælde langt skrappere regler. De burde sikre sig, at eksperimenterne overholder de nye retningslinjer og være langt mere tolerante over for forskningsresultater, der ikke fortæller noget nyt. De skal kunne kræve en demonstration af, at resultatet ikke er fremkommet på baggrund af arbitrære valg i den eksperimentelle situation, og peer-reviewers burde kunne kræve en eksakt replikation af forsøget, når de ikke føler sig overbeviste.

Forslagene har i de sidste måneder været flittigt debatteret blandt statistikere, og der viser sig en generel velvilje til at implementere de fleste af dem. Forskerne ved, at legitimiteten af de statistiske signifikanstest er truet på grund af sager om fabrikationer, især hvis man tænker på skandaler som den om lægemidlet Vioxx og lignende sager fremhævet af professor John Ioannidis i hans efterhånden berømte artikel med titlen 'Why Most Published Research Findings Are False'. Ioannidis analyserede i 2010 49 af de mest profilerede forskningsresultater inden for medicin de sidste 13 år: 45 af dem påstod at have påvist en effektiv intervention, men 41 procent af dem viste sig enten at være forkerte eller stærkt overdrevne.

Hvis legitimiteten skal genvindes, må der altså strammes gevaldigt op, siger forskerne. Men selv hvis dette sker, er det selvfølgelig aldrig nok udelukkende at basere sine forskningsresultater på et signifikansbegreb. Det skyldes blandt andet, at korrelation ikke nødvendigvis medfører årsagssammenhæng. Hvis vi for eksempel i et eksperiment finder ud af, at det regner (vores data) kan vi være 100 procent sikre på, at der er skyer på himlen (vores hypotese). Men det omvendte behøver ikke at gælde: Hvis vi i et eksperiment finder ud af, at der er skyer på himlen (vores data), så er det ikke sikkert, at vores hypotese om, at det regner, er sand.

Der er mange andre logiske og især psykologiske faldgruber at tage højde for, når man laver empirisk arbejde. Mange af de vigtigste videnskabelige discipliner, som f.eks. lægevidenskaben, psykologien, etnografien, økonomien og sociologien, har dog ikke så mange andre redskaber at falde tilbage på end korrelations- og regressionsanalyser. De er dybt afhængige af at teste hypoteser og lægge et nogenlunde fornuftigt fortolkningsapparat hen over usikre data. De såkaldt 'bløde' videnskaber er derfor paradoksalt nok også dem, som burde have de 'hårdeste' krav til holde sig til den videnskabelige metode - og gerne også forbedre den.

sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først

Div. patientforeninger har det med at få drejet tal så det passer ind i deres kram.

"Man kan kun have tiltro til en statistik, man selv har forfalsket. Winston Churchill"

  • 0
  • 0

Fra KU's grunduddannelse i statistik:

Selv med 100% signifikans mellem antallet af fødte og antallet af storke i Skåne under mellemkrigstiden, er det ikke bevis for nogen relation.

Min bror Karl Vind har i bogen "Independence, Additivity, Uncertainty" i kap. 18: A foundation for statistics behandlet dette.

Når vi (han og jeg) debatterede statistiske metoder, kom han hele tiden tilbage tll, at jeg måtte have en fysisk forklaring inden jeg "opfandt" (statistiske) relationer.

Mvh Tyge

  • 0
  • 0

Alle ordentlige introduktionskurser i kvantitativ metode på universiteterne bruger en meget stor andel af tiden på kritisk hypoteseformulering og undersøgelsesdesign før man får lov til at nærme sig statistikpakkerne. Målet er at kursisterne gerne skulle være langt bedre kvalificeret til at bedømme ANDRES undersøgelser kritisk end at kunne gennemføre en selv perfekt. Der burde derfor være langt flere mennesker “derude”, som kunne afsløre dårlige undersøgelser end som fabrikerer dem.

Eksemplet i artiklen afslører sig selv på mindst to måder: Der gives ingen teoretisk begrundelse for at medtage variablen faders alder i modellen og konklusionen understøttes ikke af metoden. Enhver med basal viden om kvantitativ metode vil spotte det med det samme.

På den anden side er det vigtigt ikke at afvise statistik bare fordi det er statistik og går imod ens for-dom. Hvis man ønsker at stille sig kritisk overfor et resultat, så må man i det mindste gøre sig den ulejlighed at forholde sig kritisk til metoden og ikke bare resultatet. Derfor er den type afvisning, som Hans Andersen foretager mindst lige så slem som forkert brugt statistik metode. Kritik er ikke det samme som afvisning, men en kritisk forholden sig til metode og data

  • 0
  • 0

Er der ikke en fare for at hypoteseformuleringer kan komme til at ligne den gammelkendte metode, hvor man venter at skrive sin problemformulering, indtil man er godt på vej med løsningen af opgaven? Hermed menes at der jo ikke rapporteres om evt. ændringer i nul-hypotesen/hypotesen under forløbet. Jeg ved ikke, om det er et reelt problem, men måske de der er stærke ud i sådanne sprøgsmål har en kommentar!

  • 0
  • 0

"Hvis legitimiteten skal genvindes, må der altså strammes gevaldigt op, siger forskerne."

Dette gaelder vist kun legitimiteten af experimentel psykologi. Matematisk statistik er stadig det eneste redskab vi har til at skille signal fra støj i forsøgsdata. Udover de oplagte fejl og uetiske mangler i eksperimentet (publikation kun af den ene baggrundsvariabel, der gav signifikans, udaf mange maalte; signifikanstest af randomiseringsfordelingen, der per definition er tilfaeldig )), kan man undre sig over, hvad saadan et eksperiment selv i princippet kunne opluyse. Et eksperiment udfoert paa psykologistuderende giver sikkert ganske god information om en population af ... psykologistuderende. Er det relevant for resten af befolkningen?

"Et andet hyppigt problem er eksperimentatorens frihed til at ændre antallet af datapunkter, indtil en effekt viser sig. Kommer der ingen interessante resultater med 20 forsøgspersoner, fortsætter man bare med 10 forsøgspersoner mere..."

Ikke indenfor klinisk afproevning. Der ville saadan en eksperimentator ende i faengsel.

  • 0
  • 0

Jeg var meget fascineret af artiklen "Statistisk signifikans - det kan man designe sig til". Du skriver, at der bør stammes op. En af måderne at gøre det på, ville være at universiteter i højere grad anvendte uddannede statistikere til analyser af rent statistisk natur. Men måske burde man også se på uddannelsessystemet. At drage for vidtgående slutninger ud fra et for spinkelt datamateriale, er noget, som dagligt sker i gymnasiet og andre steder i skolesystemet. De bedste lærere er opmærksomme på problemet og kræver, at eleverne tager forbehold, når de konkluderer i forbindelse med forsøg eller analyse af data fra en opgave.

Et eksempel fra kemi: Her kan man måle om en reaktion er af første eller anden orden mm. En reaktion af første orden svarer matematisk til et radioaktivt henfald. Her laver man typisk en logaritmisk afbildning af koncentrationen, som funktion af tiden. I en gammel studentereksamensopgave gjorde jeg netop det, og fik en korrelationskoefficient på 0,99 (hvor det ideelle er 1,00). Fint tænkte jeg, men så ville jeg lige se, hvordan det så ud, hvis jeg tegnede en graf svarende til en reaktion af 2. orden. Her var korrelationskoefficienten 0,98. Det er også ganske tæt på 1,00. Punkterne lå pænt, tæt og jævnt fordelt omkring grafen svarende til første orden, men de lå lige så tæt ved grafen svarende til 2. orden, men her var der en tendens til en krum kurve. Min konklusion passer med den velkendte statistiske viden, at en korrelationskoefficient tæt ved 1,00, ikke er en tilstrækkelig betingelse for, at den statistiske sammenhæng holder. Men mange elever lærer ikke dette forbehold - tværtimod! Det er heller ikke noget der hver gang lægges vægt på ved vurdering af opgaver, der tæller med til studentereksamen. Det kan gælde fag som fysik, kemi, samfundsfag, biologi og geografi, altså hvor man benytter statistiske metoder.

Der er flere eksempler på, at der kludres med anvendelse af de videnskabelige metoder i gymnasiet, og de dårlige vaner, bliver i nogle tilfælde videreført til Universitetet. I fag hvor modellering og statistik er nøglebegreber, opstår der problemer.

Med venlig hilsen

Anni Kjeldgård Højeloft Vænge 142 3500 Værløse

  • 0
  • 0

...ville hjælpe generelt er at journalister blev bedre til at fortolke statistiske resultater. Et er at man kan have sin tvivl om den metode der er anvendt i en videnskabelig artikel, noget andet er at se resultaterne fuldstændigt ukritisk videreformidlet som som den endegyldige sandhed på f.eks. ing.dk.

Tænk hvis vi en dag kunne se denne overskrift på ing.dk: "Forskere har nu dokumenteret X påvirkning af Y, men anvender en tvivlsom statistisk metode."

Det er desværre de færreste forskere som er stærke på statistik. Når så journalisterne heller ikke er det, er det kedeligt for formidlingen.

  • 0
  • 0
Bidrag med din viden – log ind og deltag i debatten