phloggen

Et extremt guldkorn

Jeg har i nogen tid ledt efter en god og forståelig behandling af statistiske extremværdier, men det er tilsyneladende ikke en meget dyrket gren af statistikken, for det bedste jeg har kunnet finde er en obskur publikation fra 1992.

Det er imidlertid ikke en helt tilfældig publikation, men det kommer vi til om lidt, men først vil jeg gerne lige ridse emnet op:

Forestil jer at vi har en kanon der er rustet fast, så den kan kun skyde i en bestemt retning.

Hvis vi skyder et dusin skud, forventer vi at de laver en normalfordeling omkring et gennemsnitligt "bulls-eye".

Herefter skyder vi videre, et skud om dagen, og ringer kun hjem hver gang et skud lander længere væk fra centrum end det er set før.

Til at starte med forventer vi at opkaldene kommer relativt tit, men efterhånden bliver de sjældnere og sjældnere, fordi det bliver mere og mere usandsynligt at ramme længere og længere fra centrum.

Spørgsmålet er: Kan vi, alene ud fra kalenderen med krydser ud for de datoer hvor vi fik et telefonopkald, afgøre om krudtladningerne har ændret sprængstyrke ?

Det kan man faktisk godt og metoden er forbavsende følsom overfor ændringer, men til gengæld ikke særlig præcis når det kommer til hvad der eller hvor meget der er forandret.

Hvis vi f.eks efter 100 skud pludselig får telefonopringninger 3 dage i træk, der hver dag rapporterer at kanonen har skudt længere end nogensinde før er der helt klart ugler i mosen.

Grunden til at jeg interesserer mig for det, er naturligvis at det har pisset ned i København på måder vi bestemt ikke er van(d)t til, forbavsende mange gange i de seneste fire-fem år.

Men er der overhovedet et troværdigt statistisk signal, eller var vi bare uheldige med terningerne ?

Her kommer vi nu til den overhovedet ikke tilfældige publikation fra 1992 og hvorfor den ikke er tilfældig.

For et par år siden skrev Jens Ramskov om "JASON", en uafhængig videnskabelig tænketank der svarer på besynderlige spørgsmål for USAs regering.

I 1992 var et af de besynderlige spørgsmål netop:

"Statistics of Extreme Events with Application to Climate".

Efter at have læst den, fatter jeg ikke at den rapport ikke bliver citeret mere end den gør, for den giver redskabet der kan sætte sansynlighed på om en given vejr-rekord skyldes klimaforandringer.

Ikke mindst er det tankevækkende hvilken konklusion de når og hvilket årstal de når den i:

"Analysis of the global annual average temperature record using extreme events and analysis based on an assumptions of an underlying normal distribution both confirmes the existence of a trend with high odds (10^5 - 10^6) in favor of the trend hypothesis."

phk

Poul-Henning Kamp er selvstændig open source-softwareudvikler. Han skriver blandt andet om politik, hysteri, spin, monopoler, frihedskampe gør-det-selv-teknologi og humor.
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først

Jeg har kun skimmet starten af artiklen, men en sætning falder i øjnene:

Fra side 3 øverst: "Since extremes are rare events they can be approximated as independent with negligible correlation. "

Det er en ret radikal antagelse. Eksempelvis havde sidste halvår i 2006 hele 5 rekorder for varmeste månedsmiddeltemperatur, så der er f.eks en tydelig korrelation.

Hvis man skal bruge statistik på denne her måde skal man selvfølgelig være grundig med at sikre sig at ovenstående påstand virkelig er opfyldt for de hændelser man kigger på. F.eks. kunne man se om man kunne finde en meget lang periode hvor variablen man kigger på opførte sig normalfordelt.

  • 0
  • 0

Fra side 3 øverst: "Since extremes are rare events they can be approximated as independent with negligible correlation. "

Det er en ret radikal antagelse. Eksempelvis havde sidste halvår i 2006 hele 5 rekorder for varmeste månedsmiddeltemperatur, så der er f.eks en tydelig korrelation.

Er det ikke netop det der er pointen? Hvis der ses en afhængighed, så er det ikke et tilfældigt ekstrenum, og dermed er det den grundlæggende model, der kan antages forkert?

Men spændende artikkel - ligger allerede i arkivet :)

Martin.

  • 0
  • 0

Hvis der ses en afhængighed, så er det ikke et tilfældigt ekstrenum, og dermed er det den grundlæggende model, der kan antages forkert?

Det er i hvert fald en måde at gøre det på. Det er det man gør, når man almindeligvis tester for afhængighed (fx Fishers eksakt test): antager uafhængighed og ser, om det virkeligt kan passe, at der er det.

  • 0
  • 0

Er det ikke netop det der er pointen? Hvis der ses en afhængighed, så er det ikke et tilfældigt ekstrenum, og dermed er det den grundlæggende model, der kan antages forkert?

Men spændende artikkel - ligger allerede i arkivet :)

Martin.

Nej, ikke helt. Originalposten påpeger at flere rekordhændelser i træk kan være symptom på "drift" i parametrene på en normalfordelt hændelse over tid (såsom en stigende temperaturtrend).

Jeg påpeger at flere rekordhændelser i træk også kan skyldes det helt trivielle at de er korrellerede (som i 2006 hvor forrige måneds rekordvejr øgede sandsynligheden for næste måneds rekordvejr). Men også at det bør være muligt at finde gode hændelsesdefinitioner.

Alternativt kan man tælle flere, tætte, rekordhændelser inden for en vis tidsramme som en enkelt. Tidsrammen fastlægges ud for hvor langt ud i fremtiden korrelationerne rækker (månedsmiddel i år er f.eks. nok meget svagt korreleret med månedsmiddelen i 2006).

  • 0
  • 0

Fra side 3 øverst: "Since extremes are rare events they can be approximated as independent with negligible correlation. "

Det er en ret radikal antagelse. Eksempelvis havde sidste halvår i 2006 hele 5 rekorder for varmeste månedsmiddeltemperatur, så der er f.eks en tydelig korrelation.

Det er vigtigt at forstå det med "en stokastisk variabel" rigtigt i denne sammenhæng.

Alle fem rekorder vil kun være et datapunkt i en given talserie.

Enten er datapunktet '5' i serien "antallet af månedsrekorder per år", eller også er der 12 dataserier (jan, feb, mar...dec) og i fem af disse er der et datapunkt der siger "temperaturrekord dette år".

En af styrkerne ved metoden er så vidt jeg kan gennemskue at du kan betragte f.eks hver måned som en dataserie for sig, og da hver måned har sin egen middeltemperatur og standardafvigelse, på den måde få en mere følsom ekstremum-test, der samtidig kan betragtes som et ensemble for tidsmæssig korrelation.

  • 0
  • 0

1) Da man kan få utroligt effektiv vejrforudsigelser på kort sigt ved at postulere at vejret i dag bliver som det var i går. Metoden går godt indtil der kommer en ændring i vejrsystemerne og det er der meteorolog tjener deres penge... og en del af forklaringen er jo at hvis det har regnet meget i går, kan der fordampe en masse vand og vi kommer nemmere op på mætningspunktet som giver regn igen i dag. Hvis have, jord og luft er varm fra i går, så skal der en mindre mængde energi til at få temperaturen højere op i dag. Dette gør skal vores begivenhed mindst være 1 år, hvor vinteren kan siges at ryste raflebægeret.

2) Rørlægningen af Lergravsgrøften kan nok ikke lokalt påvirke de oversvømmelser der kom i det centrale København, hvor vandet steg op og løb i kældrene før det kunne komme ned i kloakerne.

  • 0
  • 0

2) Rørlægningen af Lergravsgrøften kan nok ikke lokalt påvirke de oversvømmelser der kom i det centrale København, hvor vandet steg op og løb i kældrene før det kunne komme ned i kloakkerne.

Det er svær nød at knække. Kloakkerne i København er bygget på andre forudsætninger end de der er til stede i dag. Der skal nytænkning til - og i den forbindelse er det vigtig at erkende hvordan naturen er ved at ændre sig. Vejret er blot et element. Et andet, og meget mere interessant er såkaldt bio forurening. http://en.wikipedia.org/wiki/Biological_po...

I Danmark har vi f.eks. fået dræbersnegle (Iberisk skovsnegl). Der er såmænd ikke så meget dræber over dem andet end de ikke har nogen "naturlige" fjender - og det der tilsyneladende ligger i det ræsonnementet er blot at den oprindelige fauna (fugle etc) ikke er "vant" til sneglene og derfor heller ikke spiser dem. Naturen er blot ved at tilpasse sig en ny verden. Den ruster sig selv så og sige.

Derfor er det også meget opløftende at læse hvordan mennesker som Poul-Henning er forgangsmand for nytænkning. Nye ukendte udfordringer kræver nye tanker. Og den der med gammel vin på nye flasker - den tror jeg ikke på.

Carsten

  • 0
  • 0

Spørgsmålet er: Kan vi, alene ud fra kalenderen med krydser ud for de datoer hvor vi fik et telefonopkald, afgøre om krudtladningerne har ændret sprængstyrke ?

Svaret er vel nej. Man kan kun udregne en sandsynlighed for om det er tilfældet. :-)

Jeg vil mene at man skal bruge poisson fordelingen som udgangspunkt. Et klassisk poisson-fordelings-eksempel er :

Et hospital ligger i et område, hvor der bor 14000 ældre. Undersøgelser har vist, at chancen for at en given ældre person får et hjertetilfælde på en given dag er lig med 1:8000. Hvad er sandsynligheden for, at hospitalet på en given dag får mindst 3 ældre til behandling for hjertetilfælde?

se opgaveløsningen og mere relevant teori på http://www.matematiksider.dk/statistik2.html

  • 0
  • 0

Hvad er sandsynligheden for, at hospitalet på en given dag får mindst 3 ældre til behandling for hjertetilfælde?

  • som beskrevet i din henvisning, mener jeg, at P-fordelingen giver sandsynligheden for [b]netop[/b] 3 ældre til behandling....!(?)

(Såvidt jeg husker, blev P-fordelingen tidligere meget anvendt ifm. dimensionering af telefonnettets kapacitet).

  • 0
  • 0

PHK nævner at rapporten ikke er så udbredt som den måske burde være. Selv synes jeg den giver nogle nye vinkler på statistik over vejr og klima. Årsagen til glemselen ligger måske i følgende fra summary: Se de sidste par linier.

Analysis of observed long-term global annual average surface air temperature records and of model results show that both kinds of records are indistinguishable from a series of normally distributed variates once a trend is removed. For both kinds of records, the statistics approach those of normally distributed variates about the mean and in the tails of the distribution. For model results, this conclusion holds even for series that are several thousand years long. These observations cast doubt on the use of General Circulation Models to predict future climate deterministically .

  • 0
  • 0

These observations cast doubt on the use of General Circulation Models to predict future climate deterministically .

Det vigtige ord i den sætning er "deterministically".

En "deterministisk model af atmosfæren er en vejrmodel, der forsøger at forudsige det vejr vi faktisk vil få om nogle dage.

Det er der ingen der tror på at klimamodeller kan, det de gør er at modellere noget statistisk plusibelt vejr og behandle dets karakteristika statistisk, således at man kan få et indtryk af hvad slags vejr man vil få i fremtiden.

Jeg tror den primære grund til at denne artikel er ukendt er a den aldrig har været publiceret og derfor har været ukendt i vide kredse.

  • 0
  • 0

Et hospital ligger i et område, hvor der bor 14000 ældre. Undersøgelser har vist, at chancen for at en given ældre person får et hjertetilfælde på en given dag er lig med 1:8000. Hvad er sandsynligheden for, at hospitalet på en given dag får mindst 3 ældre til behandling for hjertetilfælde?

Nej, du vender opgaven om nu.

Spørgsmålet skal være: Givet at hospitalet regelmæssigt får op til fem patienter ind om dagen og nogen gange så mange som 8, passer "1:8000" tallet stadig ?

  • 1
  • 0

Nu tales der om klima og ikke vejr. Muligvis er det en strid om ord, men hvis han mener "klima", som jo i forvejen er middelværdier, så er jeg usikker på hvordan deterministisk skal forståes, eller hvad man i stedet kunne sige uden at det blev udvandet.

  • 0
  • 0

Nu tales der om klima og ikke vejr. Muligvis er det en strid om ord, men hvis han mener "klima", som jo i forvejen er middelværdier, så er jeg usikker på hvordan deterministisk skal forståes, eller hvad man i stedet kunne sige uden at det blev udvandet.

Det er noget lidt uklart hvad der menes hvis man alene læser "summary".

Læs istedet det afsnit der starter ca. halvvejs nede af s.57 og slutter efter graferne på s.61:

"These observations suggest the possibility of chaotic noise at low frequency with important implications for predictability. [...] Prediction, outside the trend, may thus be impossible except in a statistical sense. [...] Using the models for deterministic prediction would in this case not be possible."

Med andre ord: Fordi de ikke kan se (statistisk) forskel på temperaturserier, en kaotisk 27 variabel Lorentz model og klimamodellerne, kan de ikke udelukke at der kan være kaotisk opføresel i klimaet og derfor kan man ikke bruge klimamodellerne til præcis ("deterministisk") forudsigelse.

Jeg skal ikke gøre mig klog på hvor banebrydende denne indsigt var i 1992, men taget i betragtning at Lorenz allerede var nået til samme konklusion med sine koblede differentialligninger langt tidligere, har jeg svært ved at se det kan have været særligt nyt.

Idag ved vi meget mere om atmosfærens indehold af kaotiske cycli med perioder af størrelsesordenen 10 år, ENSO f.eks. men vi ved stadig ikke om det er de samme cycli vi vil se når vi har varmet jorden et par grader i gennemsnit.

  • 0
  • 0
  1. december 2006, Efteråret så varmt som kun hvert 10.000 år: http://vejret-dyn.tv2.dk/artikel/id-5565579 Citat: "... Der vil gå gennemsnitlig 10.000 år, før vi igen oplever et efterår, der er lige så rekordvarmt i det nordvestlige Europa som i år. Hvis klimaet vel at mærke var stabilt. ... Rekordvarmt efterår i Europa Det viser en undersøgelse fra Hollands meteorologiske institut, KNMI, som blev offentliggjort fredag. ..."
  • 0
  • 0
Bidrag med din viden – log ind og deltag i debatten