close

Vores nyhedsbreve

close
Ved at tilmelde dig accepterer du vores Brugerbetingelser, og at Mediehuset Ingeniøren og IDA-gruppen lejlighedsvis kan kontakte dig om arrangementer, analyser, nyheder, tilbud mm via telefon, SMS og email. I nyhedsbreve og mails fra Mediehuset Ingeniøren kan findes markedsføring fra samarbejdspartnere.
phloggen

Hvem kan finde mønstre, hvor ingen mønstre er?

Vores hjerne har brugt mange årtusinder på at specialisere sig i at genkende ansigter og derfor genkender vi ansigter alle mulige steder hvor der ikke er nogen. Skyer. Toastbrød. Klipper på Mars. osv. osv.

Det er det vores hjerne er gode til, at finde mønstre og nogen mønstre er den nærmest overfølsom over for: Ansigter og perioder.

Allerede fra de første skriftlige overleveringer finder folk perioder for de mest underlige ting, nogle gange korrekt, andre gange ... ikke så meget.

Fourier satte fingeren direkte på problemet: Enhver funktion kan approximeres hvis man bare har sinusfunktioner nok.

En håndfuld danske forskere har skrevet en artikel om perioder i extremregn i Danmark og det sydlige Sverige og det medførte naturligvis en press-release fra DTU og en pligtskyldig artikel her på ing.dk.

Lad mig slå fast med det samme at de fire forskere har glemt mere om ekstremregn end jeg nogensinde kommer til at vide om det.

Men når det kommer til statistik og specielt detektering af periodiske signaler tror jeg vi står nogenlunde på omgangshøjde og her kommer mit statistiske bull-shit-o-meter trekvart op ad skalaen, når jeg læser at der er fundet perioder på "25-40 år" i et 137 år langt datasæt.

Rent statistisk er det en utrolig svær opgave at køre rent i hus og hvis det lykkedes er det kun fordi der er en meget klar komponent med en veldefineret frekvens.

..hvilket man ikke ligefrem kan kalde et interval på 18-29% af datasættets længde.

Problemet er, som alt for ofte, at man meget nemt kommer til at "over-fitte" sin model og lader den forklare langt mere end den faktisk kan.

Der findes en masse statistiske værktøjer man til at se om man er i farezonen, men efter at have læst artiklen kan jeg ikke umiddelbart se at nogen af dem har været brugt.

Jeg er derfor absolut ikke overbevist af artiklen.

Det er der mange grunde til, men den primære er at resultatet ikke giver nogen fysisk mening.

Der er 40km i fugleflugtslinie fra København til Lund, men det ene sted svinger ekstremregn med en periode på 30.7 år, det andet med 36.7 år. På bornholm er det 24.5 år og på Samsø er det 69.5 år.

For at citere en af mine chefideologer: man ser ikke den slags svingninger, hvis der ikke er nogen der lave den slags svingninger.

Hvor kommer disse vildt forskellige frekvenser fra ? Hvilken fysisk mekanisme gør den dramatiske forskel på de 40km fra Lund og København ?

Det kan i realiteten kun være noget der sker lokalt i København, Lund eller på Samsø eller Bornholm, hvilket vil sige menneskeskabte aktiviteter.

Men hvilke menneskeskabte aktiviteter har perioden 69.5 år på samsø og 36.7 år i København ?

Den sekundære årsag er at hvis man kigger ordentligt på data og den model artiklen bruger passer de overhovedet ikke sammen når det kommer til stykket.

En god uformel metode at danne sig et indtryk, er at plotte sin model sammen med sine data. Det har de heller ikke gjort i artiklen, men jeg har prøvet at lave lidt copy&paste her:

Foto: Privatfoto

Plottet for København er det mest overbevisende, bortset fra at kurven efter ca. 1995 bør få enhver forsikringsmand til at overveje at skifte job.

Når man laver modeller for endelige datasæt er enderne altid et problem, men det betyder ikke at man kan ignorere dem og i bedste fald kan man sige at modellen passer for københavn frem til 1970, men derefter passer den simpelthen ikke.

Kigger man på de tre sinusperioder hvor den passer, skal man være rigtig dårlig til historie for ikke at bemærke at 1895, 1925 og 1965 alle var tidspunkter hvor der var ret meget gang i økonomien i hovedstaden og den mistanke bliver bestemt ikke svagere af at vi virkelig kørte med klatten efter år 2000.

Plottet for Lund skal man have mere end almindelig uskarpe briller for at synes passer, det er et rigtig flot eksempel på "overfitting". Bemærk specielt at selvom frekvensen ser nogen lunde relevant ud, så er der ingen sammenhæng imellem modellens og datas amplitude, sidstnævnte domineres af toppen af de glade tresser med et hul på hver side, mens resten af kurven nærmest er flad.

Bornholm er ikke meget bedre, igen ser frekvensen måske relevant ud, men der er meget lidt sammenhæng imellem amplituden af data og model.

Og de andre kurver jeg har regnet efter er ikke bedre.

Jeg er sikker på at der kan isoleres faktorer og skrives modeller for ekstremregn i Danmark og Skåne, men jeg vil ikke engang kreditere den i artiklen anvendte "a + b * x + c * sin((x - x0)/d)" med at være et godt første forsøg.

Det skal forskerne bag artiklen ikke klandres for, ideen er nemlig slet ikke deres: den kommer fra Belgien.

Jeg skal ikke gøre mig klog på om den holder vand med belgisk nedbør, jeg har ikke set deres data.

Men som statistisk håndarbejde er artiklen noget bras, på den desværre alt for velkendte formel:

  1. Tag nogle data.
  2. Lav-pasfiltrer dem
  3. Fit en arbitrært valgt matematiske funktion i dekaden over filterets cut-off frekvens.
  4. Undlad at analysere residualet for evidens om over-fitting.

Og deres konklusion indeholder ikke skyggen af kritisk stillingtagen til procedurens validitet eller kvalitet til formålet.

Artiklen bliver derefter udsat for DTU's presse-afdeling der ikke fatter en hat af hvad den handler om, men finder på en god overskrift og en journalist fra ing.dk tager udgangspunkt i press-releaset og prøver at få nogle gode sound-bites fra forskerne.

Det der pisser mig så meget af ved denne statistiske fiasko er at den er lavet under et forskningsprogram der skal skaffe os viden om hvordan vi skal tilpasse os klimaforandringerne.

Det sidste vi har brug for er kloakingeniører der tror at "danskerne givetvis vil opleve færre og mindre regnskyl de kommende år" som journalisten åbenbart er kommet frem til (forskerne nævner det ikke) og at vi derfor kan vente 20 tyve år med at opgradere kloakerne til mere nedbør.

Specielt ikke, når den fem af seks stationer udviser en robust og statistisk signifikant stigning som har meget store økonomiske konsekvenser.

Men hvad afhænger ekstremregn så af, den svinger jo tydeligvis ?

Det er velunderbygget af forskning at nedbør påvirkes af den lokalgeografiske støvproduktion. Specielt franskmændene har været gode til at dokumentere hvorledes regn i Paris følger arbejdsugen og industriferierne. Formodningen er at støvkornene virker som kim for regndråberne.

Mange af kurverne i artiklen har (fælles!) artifakter der lugter langt væk af økonomiske boom-perioder og hvis jeg skulle prøve noget, ville jeg finde tal for bygge- og anlægsaktivitet og andre støvende aktiviteter for de relevante lokalgeografier og lur mig om det ikke giver mindst lige så god korrelation som med en arbitrært valgt sinusfunktion.

Ideen er hermed givet videre.

phk

Poul-Henning Kamp
er selvstændig open source-softwareudvikler. Han skriver blandt andet om politik, hysteri, spin, monopoler, frihedskampe gør-det-selv-teknologi og humor.