Kronik: Usandt at komplet kildekode for covid-19-prognoser er lagt frit frem

 

Mikkel Freltoft Krogsholm er Full Stack Data Scientist ved Teradata og forfatter til adskillige officielle og uofficielle R pakker og skaber af covid19data.dk, der løbende stiller danske covid-tal til rådighed som API. Illustration: Privatfoto

Hvis der er én ting, som denne corona-epidemi har lært os, så er det, at der skal være åbenhed omkring de data og modeller, der ligger til grund for myndighedernes vidtrækkende beslutninger.

Det er mere end to måneder siden, Danmark gik i lockdown, og der er endnu ikke blevet fremlagt ét eneste reproducerbart kodeeksempel fra myndighederne for hverken smittetryk eller prognoser.

Det er på trods af, at et flertal i Folketinget tidligere på måneden krævede åbenhed og fremsatte et såkaldt åbenheds-manifest. Et manifest, der lagde vægt på at data og kildekode skulle lægges frem.

Smittetrykket har været et vigtigt tal fra starten og det er blevet brugt til både at begrunde nye politiske tiltag og til at bevise deres effektivitet.

På trods af den vægt, der er lagt på dette tal, er der på intet tidspunkt fremlagt kode eller data, der viser, hvordan SSI beregner smittetrykket.

Derimod er der faldet små krummer af information af hist og pist, der desværre kun tegner et halvt billede af, hvilken metode instituttet bruger og hvilke data.

Smittetrykket er der seneste blevet sat spørgsmålstegn ved i Berlingske Tidende. Avisen har kunnet dokumentere, at der har været en regnefejl i smittetrykket hos SSI i epidemiens tidlige dage.

Hertil kan nævnes, at når jeg selv eller andre forsøger at beregne smittetrykket, så har jeg endnu ikke set nogen version, der visuelt har samme begyndelse som SSI’s graf – netop den begyndelse, der er fremhævet i Berlingske.

Kildekoden og data for de første prognoser, der tog udgangspunkt i to forskellige scenarier (et såkaldt italiensk og et kinesisk) er aldrig blevet lagt frem. Her er der kort sagt intet.

Koden til nogle af de efterfølgende prognoser blev for et par dage siden lagt på GitHub (et sted man deler kode). Der medfulgte også en interaktiv app, hvor man kunne ændre på de forskellige parametre og selv lave sine egne prognoser.

Det er i det hele taget en flot og indbydende app. Problemet er dog, at man i appen ikke kan genskabe de prognoser, der blev fremlagt i de første rapporter – i hvert fald ikke med de standardindstillinger, appen har, når man åbner den.

Appen har nemlig en række indstillinger man kan ændre på – f.eks. hvor længe man er indlagt på hospitalet – og måske kan man ved at ændre på disse indstillinger genskabe den gamle prognose, men så kræver det jo, at de bliver lagt frem, så man ved, hvad de skal ændres til – og det er de ikke.

Jeg er enig i, at der skal være størst mulig gennemsigtighed og åbenhed om de data, der ligger bag myndighedernes beregninger og vurderinger af epidemiens udviklingSundhedsminister Magnus Heunicke (S) i et svar til Berlingske

Fælles for de første og efterfølgende prognoser, var, at de skød rigtigt meget ved siden af. De havde nogle helt vilde estimater for, hvor mange danskere der ville blive indlagt på hospitalerne generelt og i respirator.

Estimater, der næsten allerede den dag, de var publicerede, var forkerte. Derfor havde det fra starten af været godt, hvis der havde været fuld åbenhed omkring data, metoder og kildekode.

I det ovennævnte GitHub repository findes der også kode for, hvordan man beregner de nyeste prognoser. Desværre har de ikke medlagt data for hospitalsindlæggelser, som modellen bygger på, men derimod en fil, hvor de numeriske kolonner er tomme.

Selv forklarer kodens forfattere, at det skyldes at data ikke kan medlægges på grund af GDPR. Det vil altså sige, at her er det heller ikke muligt at se myndigheder efter i kortene og verificere det grundlag de politiske beslutninger vedrørende genåbningen og dets faser bliver truffet på.

Ovenstående konstateringer er nedslående. Epidemiologiske modeller er ikke super avancerede og fylder ikke mange linjers kode. Ej heller er input-data særligt omfangsrigt, da vi i Danmark i det store hele beregner på antal indlagte på lands- og regionsniveau.

Samtidigt ved vi, at de programmerer i det gratis kodesprog R, som alle frit kan downloade og installere. Der er altså intet – absolut intet – til hinder for, at alt data og kode ikke for længst er blevet lagt åbent frem.

sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først

Mon ikke det i virkeligheden er fordi det er en meget simpel model og man måske er lidt pinlig berørt over den?

Kan også være der er lavet lidt "fitting", "guestimate" og "correctionfactoring" som ikke giver anerkendende nik i branchen, men som har fået beregningerne til at passe lidt til "den politiske virkelighed".

  • 3
  • 1

Hvor var samme krav omkring Danmarks involdvering i Golfkrigen? Femerenforbindelsen? Alle afstemningerne omkring EU? osv... Bare fordi nogle nu mener at det er altså vigtigt at.. fordi de lige interessere sig for dette enkelte område så kommer det ikke til at ske. Hvis alle disse folk samlet havde råbt op og krævet åbenhed genrelt så kunne der måske være sket noget. .lige nu lyder det mest som om nogle vil have noget og har fået nej og så er det verdens undergang hvis de ikke får deres vilje.

  • 7
  • 3

Hej Jesper Jepsen

Jeg er ikke sikker på at jeg forstår din logik. Udfra dine eksempler går ind for åbenhenhed generelt? Derfor går jeg udfra at du er enig i kronikkens argument om at lukkethed om COVID-19 information ikke er til nogens nytte?

Vi kan desværre ikke engagere os i alle vigitige sager - at kronikøren sandsynligvist ikke har skrevet en kronik om informationsniveauet omkring golfkrigen, eller andre vigtige emner, burde derfor dog ikke devaluere standpunktet. Kort sagt, at gøre noget (men ikke er alt) er bedre end slet ikke at gøre noget. Er du enig i ovenstående?

  • 3
  • 2

Vi vil have vores vilje og vi skal have den , vi er folket, vi regerer

Wir sind das folk.

Åbenhed er et gode. Men det kræver også, at folket kan forstå det de får at vide.

F.eks. kan oplysninger om etnicitet og kriminalitet kræve en hel del "forståelse". Men Corona informationer kan jeg ikke se på nogen måde kan misforstås.

Omvendt vil jeg ikke ønske at mit seneste estimat over en opgave til min arbejdsgiver blev delt med offentligheden. Måske man skulle kalde prognosen ved sit rette navn, et overslag.

  • 2
  • 0

Regeringen har skullet udføre crowd management. Vi har alle skullet pege næsen den samme vej. Kan det tænkes at regeringen har tænkt, at Vibeke Manniche, ing.dks ekspertpanel, Karen fra Facebook og diverse Tvindagtige diskussionsgrupper er kontraproduktive i den sammenhæng og man ikke har haft lyst til at nære dem?

  • 3
  • 1

"I flere måneder har danske forskere efterspurgt vigtige data om covid-19 fra Statens Serum Institut uden at få et klart svar på om og hvornår de kan få den.

Det begrænser forskningen i ny viden om coronavirus.

Sådan lyder det fredag fra to professorer, der er en del af en større gruppe danske forskere, som gerne vil bruge dataet til blandt andet at undersøge covid-19-patienters sygdomsforløb.

Det er dybt uansvarligt at betro data til Statens Serum Institut, når det virker som om, de vil være de eneste, der har lov til at arbejde med data, siger Christian Torp-Pedersen, professor i kardiologi og klinisk epidemiologi ved Nordsjællands Hospital, til TV 2.

Det er virkelig en stor skandale.

Han fortæller, at han allerede i marts på vegne af en række andre forskere søgte om adgang til data hos Statens Serum Institut, men aldrig fik et svar.

En af de andre forskere i gruppen er professor i kardiologi på Rigshospitalet, Lars Køber.

Det er enormt frustrerende, at vi ikke kan få adgang til offentligt indsamlet data. Vi får at vide, at vi måske godt kan få data, og så sker der bare ikke noget. Når tiden går, er det jo bare spild af en masse gode muligheder, siger han."

https://nyheder.tv2.dk/samfund/2020-05-15-professorer-retter-haard-kritik-mod-statens-serum-institut-det-er-en-virkelig

  • 1
  • 1

Hej Mikkel Vi har lagt den kode ud vi er blevet opfordret til at dele. Vi arbejder på at dele mere. Faktisk har jeg brugt timer på at få lov til at dele de data, som mangler for at køre koden bag rapporten fra d. 6. maj (og tilsvarende de to efterfølgende rapporter) . Jeg håber stadig, at det lykkes! Jeg har sagt ja til at lave myndighedsbetjening, det betyder, at jeg ikke kan dele indholdet af en bestilling og dermed heller ikke kode før efter resultaterne er offentliggjort.

  • 0
  • 0
Bidrag med din viden – log ind og deltag i debatten