Simpel statistik kan besvare store spørgsmål

»Tag medianen,« sagde den eminente russiske fysiker Yakov Borisovich Zeldovich på et møde i den internationale astronomiske union i Tallin i 1977. Han gav følgende eksempel: Tre russiske venner mødes og sammenligner tiden på deres ure, som er af tvivlsom kvalitet. Det ene viser 'klokken 1', det andet 'fem minutter over et' og det tredje 'klokken 5'.

Mon ikke det bedste bud på den rigtige tid er 'fem minutter over et', medianværdien, snarere end et aritmetisk gennemsnit (middelværdi), der vil være et tidspunkt godt hen på eftermiddagen?

Dette simple princip benytter den amerikanske astrofysiker J. Richard Gott III fra Princeton University og hans tidligere ph.d.-studerende Wesley Colley - der i dag er ansat ved University of Alabama - til at forudsige udfaldet af det amerikanske præsidentvalg 4. november.

Som russiske ure i halvfjerdserne kunne vise forskellig tid, giver meningsmålinger ofte meget forskellige resultater, uden man altid kan forklare hvorfor. Men Gott og Colley bruger simpelthen medianen af den sidste måneds meningsmålinger, stat for stat, i deres løbende forudsigelse af valgresultatet.

Eksemplet Florida

I en af de helt afgørende stater, Florida, blev der eksempelvis i september måned foretaget 21 forskellige meningsmålinger. De 11 viste en føring til McCain på op til 8 procentpoint, fire gav et uafgjort resultat og seks viste en føring til Obama - også på op til 8 procentpoint.

Stil alle 21 målinger op på række efter stigende forskel mellem Obama og McCain. Der vil så være ti målinger, der viser, at McCain fører med mere end 1 procentpoint - og ti målinger der viser uafgjort eller en føring til Obama.

Målingen, der viser en føring til McCain på 1 procentpoint, ligger i midten - den er medianen. Opgjort pr. 1. oktober var det dermed den bedste vurdering af, i hvilken lejr Floridas 27 valgmænd vil falde, mener Gott og Colley. Wes Colley opdaterer dagligt forudsigelsen, og det gav pr. 20. oktober 367 valgmænd til Obama og 171 valgmænd til McCain - og Florida er nu Obamas.

Men er der noget belæg for at bruge en så simpel statistisk metode - udover Zeldovichs anekdote? Ja, i høj grad, mener Gott og Colley.

Som de beskriver i en artikel, der er indsendt til tidsskiftet Matematical and Computer Modelling, brugte de samme princip i forbindelse med valget i 2004 mellem Bush og Kerry. De ramte plet i alle stater bortset fra Hawaii, som kun har fire valgmænd ud af i alt 538. Det var bedre end stort set alle andre, der forsøgte at forudsige det endelige resultat. Kun en enkelt persons helt personlige vurdering af udfaldet af 2004-valget var bedre end Gott og Colleys endelige forudsigelse. Metoden var klart bedre end blot at bruge den seneste meningsmåling eller et simpelt gennemsnit af de seneste målinger.

Hubblekonstanten

Men også inden for astrofysikken, som er Gott og Colleys faglige speciale, har medianstatistik store fordele, og det var faktisk Gotts fremlæggelse af medianstatistik i forbindelse med forholdet mellem masse og lys for fjerne galakser på konferencen i Tallin, der fik Zeldovich til at fortælle ur-anekdoten.

I 2001 skrev Gott en artikel i Astrophysical Journal, hvor han bl.a. behandlede 331 stærkt varierende vurderinger af Hubblekonstanten, der beskriver universets udvidelse. Medianen af de 331 målinger var 67 km/s/Mpc. I 2003 bestemte Nasas WMAP-satellit, der målte den kosmiske baggrundsstråling, at værdien var 70,1 +/- 1,3 km/s/Mpc.

Et andet eksempel, Gott og Wesley fremhæver, drejer sig om Jordens befolkningstal.

Mikroskopets opfinder, Anton van Leeuwenhoek, var den første, der blev kendt for at give en vurdering af, hvor mange mennesker Jorden kan rumme. Hans vurdering fra 1679 var 13,4 milliarder - på det tidspunkt var befolkningsantallet kun 640 millioner. 66 ekspertestimater er foretaget fra Leeuwenhoek til i dag. De lyder på alt fra en milliard til et vildt bud på 60 millioner milliarder ud fra fysiske varmebetragtninger alene.

Et gennemsnit af alle disse tal er omkring en million milliard mennesker - medianen er derimod 12 milliarder. Der er næppe nogen tvivl om, hvad der virker mest rimeligt.

Eksemplet illustrerer forskellen mellem medianstatistik og middelværdistatistik. Helt vilde gæt eller meningsmålinger, der er helt i skoven, vil påvirke middelværdien, men ikke medianen.

Middelværdi kontra median

Når man skal teste en hypotese ud fra en række forsøgsresultater lærer man i den elementære undervisning i statistik at bruge en 'khi i anden test'. Den hviler på fire forudsætninger:

  • De individuelle data er statistisk uafhængige

  • Der er ingen systematiske fejl

  • Fejlene følger en normalfordeling

  • Fejlusikkerheden er velkendt

Under disse forudsætninger viste en række forskere i 1998, anført af Adam Riess fra University of California, Berkeley, at observationer af fjerne supernovaer med en sandsynlighed større end 97,1 pct. bekræftede en hypotese om, at universet indeholder 'mørk energi', der virker som en frastødende kraft, der accelererer universets udvidelse.

Gott kunne med brug af medianstatistik vise, at det samme var tilfældet uden at forlade sig på de sidste to forudsætninger, som er tvivlsomme i dette tilfælde.

Medianstatistik giver ikke samme statistiske sikkerhed som en 'khi i anden test', bemærker Gott i sin artikel fra 2001, men til gengæld beskytter den mod en overindflydelse af en enkelt fejlagtig måling eller observation. Derfor er medianstatistik rigtig god at bruge, før man har indsamlet dokumentation, der kan retfærdiggøre metoder med stærkere hypoteser.

Tendenser er dog et særligt problem, når det gælder medianstatistik anvendt på meningsmålinger. Har McCain eksempelvis ført i en stat i 14 meningsmålinger i træk, men Obama haft overtaget i de seneste 12, så er det nok fordi, den folkelige opbakning har ændret sig. Så når medianstatistik udpeger McCain som vinder, er det nok forkert.

For at komme ud over dette problem vælger Gott og Colley (lidt arbitrært) udelukkende at se på den seneste måned. Denne periode sikrer, at der stadig er mange meningsmålinger med i analysen, og den kan opfange tendenser med en vis forsinkelse, forklarer de.

Metodens anvendelighed bekræftes af analysen fra 2004, hvor der i fire stater var uoverensstemmelse mellem medianen baseret på alle meningsmålinger i perioden 7. juli-2. november og medianen baseret på den sidste måneds meningsmålinger (3. oktober-2. november). Sidste månedsanalyse fik tre af de fire stater rigtige. Medianen baseret på alle målinger ramte kun rigtigt i den ene af de fire, Hawaii.

Goulds advarsel

Eksemplerne viser, at medianstatistik er en enkel metode med store fordele i mange sammenhænge. Men det vil være passende også at bringe en advarsel fra en af verdens mest kendte evolutionsbiologer, Stephen Jay Gould.

I et meget berømmet essay fra 1985, 'The Median isn't the Message', viser han tydeligt, at man i visse sammenhænge skal passe gevaldigt på med at komme med umiddelbare fortolkninger, når et mediantal bliver slynget ud.

Gould fik i 1982 stillet en diagnose for den sjældne sygdom lungehindekræft (mesothelioma), som almindeligvis er forbundet med asbest. Som en ægte intellektuel spurgte han lægen, hvad der ville være den bedste litteratur at læse om emnet. 'Der er ikke rigtig noget, der er værd at læse,' lød det forsigtige svar.

Gould gik alligevel på opdagelse i Harvards store bibliotek og fik et chok, da han læste: 'Mesothelioma er uhelbredelig, og mediantiden fra opdagelse til død er otte måneder.' Derfor svarede lægen, som hun gjorde, tænkte Gould.

Han bemærker, at mange vil opfatte denne oplysning som 'jeg vil nok være død om otte måneder.' Men det er helt forkert og kan virke direkte nedbrydende for overlevelsen.

For som Gould skriver, så har den personlige indstilling stor betydning i kampen mod kræften. Gould var klar over, at en mediantid på otte måneder betyder, at halvdelen af patienterne vil leve længere end otte måneder, måske i årevis - og at fordelingen nok er meget skæv.

Den halvdel, der lever kortest tid, lever derimod i sagens natur højst otte måneder efter, at de har fået stillet diagnosen.

Der kan være en tendens til at opfatte median og middelværdi som de reelle fakta, og variationer, der gør det muligt at beregne disse, som tilfældigheder eller fejl.

Men som Stephen Jay Gould bemærker: 'Alle evolutionsbiologer ved, at variationer er de hårde fakta. Middelværdi og median er abstraktionerne.'

Gould døde i 2002 af en kræftsygdom, som ikke var relateret til diagnosen 20 år tidligere.