Sådan løser vi forskernes statistiske mareridt: Gør data til open source
more_vert
close
close

Vores nyhedsbreve

close
Ved at tilmelde dig accepterer du vores Brugerbetingelser og accepterer, at Mediehuset Ingeniøren og IDA-gruppen lejlighedsvis kan kontakte dig om arrangementer, analyser, nyheder, tilbud mm via telefon, SMS og email. I nyhedsbreve og mails fra Mediehuset Ingeniøren kan findes markedsføring fra samarbejdspartnere.

Sådan løser vi forskernes statistiske mareridt: Gør data til open source

En lang række videnskabelige undersøgelser har vist, at de statistiske metoder, der i stor udstrækning bruges inden for medicin og psykologi og andre forskningsområder, kan give tvivlsomme resultater.

Læs også: Forskningskontrol: Over halvdelen af hundrede resultater kunne ikke reproduceres

I de fem fodboldsæsoner fra 2009/10 til 2013/14 modtog Mario Balotelli i alt syv røde kort i kampe for Inter, Manchester City, Milan og Italien. Her bliver han udvist i opgøret mellem Manchester City og Arsenal 8. april 2012. Statistiske analyser peger på, at han nok havde fået færre røde kort, hvis hans hudfarve var lysere.

Senest har en undersøgelse af, om sorte fodboldspillere får flere røde kort end hvide, vist problemstillingen.

29 forskellige forskergrupper, der analyserede samme data, komme frem til vidt forskellige svar på, hvor mange flere røde kort sorte spillere får, og om man i det hele taget kan sige med sikkerhed, at de rent faktisk får flest røde kort. Hovedparten af forskningsgrupperne konkluderede dog, at sorte spillere fik omkring 1,3 gange så mange røde kort som hvide.

Læs også: Statistikere dybt uenige: Får sorte fodboldspillere flere røde kort end hvide?

En af forklaringerne på, at alle forskningsgrupper ikke kom til samme resultat, er, at der nu findes så mange forskellige metoder og værktøjer til at lave statistiske analyser af forsøgsdata, at overblikket kan gå tabt, når man skal vælge den bedste analysemetode.

»Det er en fantastisk og revolutionerende udvikling inden for statistikmetoder og it, men også en udvikling med udfordringer. Jeg tror ikke, der findes nogen enkeltperson på planeten, der er i stand til følge med i alle detaljerne af alle de forskellige metoder,« siger Per B. Brockhoff, der er professor i statistik ved DTU.

Ralph Silberzahn fra IESE Business School i Barcelona i Spanien og Eric L. Uhlmann fra Insead i Singapore, der tog initiativ til fodboldundersøgelsen, peger på, at den bedste måde til at opnå mere troværdige konklusioner er at lade flere forskningsgrupper analysere samme data og kommentere hinandens metoder i form for crowdsourcing.

Erik Parner, der er professor i biostatistik ved Aarhus Universitet, mener det største problem ved den metode er, at mange forskerne holder på deres data.

»Data kan være dyre at fremskaffe, og de giver ejeren mulighed for at lave flere undersøgelser og dermed få flere videnskabelige artikler publiceret. Det er den måde, forskere bedømmes og belønnes på. Derfor er der en vis modstand mod at gøre frit tilgængelige for alle,« siger han.

Erik Parner mener, at de videnskabelige tidsskrifter burde stille krav om, at data blev gjort frit tilgængelig. Men et sådant krav er ikke uden omkostning for tidskriftene, som også konkurrerer mod hinanden.

»Problemet er dog, at de så risikerer, at de mest spændende resultater bliver offentliggjort i andre tidsskrifter,« siger han.

Hans professorkollega på Københavns Universitet, Claus Ekstrøm, er enig:

»Open source-tankegangen spreder sig, og situationen er bedre i dag end for ti år siden. Men data koster penge, og de giver mulighed for publikationer og karriere.«

Claus Ekstrøm peger desuden på et andet problem.

»Der er en del arbejde med at gøre data offentligt tilgængelig. Sådanne opgaver giver forskningsrådene ikke støtte til,« siger han.

Kan eller vil man ikke stille data til rådighed for andre, så bør forskerne selv analysere de samme data med forskellige metoder, mener Claus Ekstrøm.

Forskerne må dog være ærlige om analyserne og ikke blot vælge den, der støtter deres hypotese.

»Det er så et krav, at alle resultater skal afrapporteres,« siger han.

Et forhold taler dog mod at offentliggøre data, når det drejer sig om genetiske undersøgelser.

»Det kan være muligt at identificere den enkelte person, og det ønsker man ikke,« siger Claus Ekstrøm.

Kommentarer (1)

Reproducibility er et stort krav i modern statistiksundervisning.... f.eks. Data Science at John Hopkins Univ., sikkert også DTU. Problemet er, at det kræver en masse tid og resourser at gentage alle regninger. fra de oprindelige data med de oprindelige metoder til de påståede resultater.
Mulige studenterjobs ved de videnskabelige tidssskrifter??

  • 0
  • 0