Statistikkens gåde: Virkeligheden er ikke en perfekt terning

Statistikkens gåde: Virkeligheden er ikke en perfekt terning

Der findes et fænomen inden for statistikken, som man ikke så gerne taler om: Hyppigheden af sjældne udfald falder, jo flere data man har. Det giver ingen mening, ingen forstår det, og klassiske statistiske test kan ikke håndtere sagen.

'Viel Geschrei und wenig Wolle,' sagde bonden, da han klippede sin so. Sådan kan man efterhånden også beskrive den moderne forsker og hans arsenal af eksperimentelle data. Til at begynde med viser de måske opsigtsvækkende resultater og stærke korrelationer, men jo oftere man gentager eksperimentet, jo mere skrumper de store effekter til det ubetydelige.

Tænk på de storsælgende antidepressive lægemidler som Fontex og Cipramil, der virkede fint for ti år siden. I dag er deres beviselige effekt skrumpet til en tredjedel eller mindre. Tænk på smitsomheden af svineinfluenzaen AH1N1, der faldt, jo større epidemien blev. Tænk på kold fusion. Tænk på antallet af fatale trafikuheld per capita, som aftager med antallet af bilister. Tænk på forretningsverdenen, hvor man længe har vidst, at profitten har tendens til at falde med kapitalvoluminet, uden at man egentlig ved hvorfor.

Hvad er det, der sker? Der synes at eksistere en henfaldstid for sjældne fænomener, som om de var radioaktivt materiale. Sunde dobbeltblinde eksperimenter med signifikante resultater kan ofte ikke gentages. Protokollerne er i orden, data korrekt indsamlet, fejlkilderne de samme - men alligevel er udfaldene dårligere end før. De signifikante data forsvinder som dug for solen. Utallige forskere har oplevet, hvordan deres eksperimenter simpelthen mister deres reproducerbarhed, og hvis der er noget, som pr. definition er uvidenskabeligt, er det ikke-reproducerbare data.

(Tegning: Lars Refn)

Oversanselige evner - ESP

Videnskaben har kendt til fænomenet længe. Men i stedet for at kaste et kritisk blik på den videnskabelige metode, har man som regel blot forkastet de eksperimenter, der udviste den slags datainflation og i stedet mistænkt forskerne for fusk. Ikke usandsynligt er dette en grund til, at de såkaldt 'bløde' videnskaber som sociologi, psykologi og medicin har fået et dårligere ry end fortjent.

Faktisk stammer de første beretninger om denne tabuiserede og endnu ikke navngivne effekt fra den 'alternative' scene. Psykologen Joseph Banks Rhine fra Duke University udviklede i 1930'erne en test for telepati ved hjælp af de såkaldte Zener-kort - 25 kort med ét af fem forskellige symboler printet på den ene side af hvert kort. Forsøgspersoner skulle gætte, hvilket symbol der var på kortene.

Som forventet ramte de plet i cirka 20 pct. af tilfældene - undtaget studenten Adam Linzmayer, en helt almindelig arbejdersøn fra New Jersey. Han ramte rigtigt i 36 pct. af tilfældene. Sandsynligheden for, at sådan noget sker, er en ud af to millioner. Men Linzmayer gjorde det tre gange i træk, og i et uofficielt forsøg i Rhines bil ramte Linzmayer 21 ud af 25. Dette burde kun ske i ét ud af 92.027.922.393 forsøg.

Rhine var begejstret og skrev flere forskningsartikler om eksperimentet. Men da han senere ville reproducere sine resultater, kunne Linzmayer ikke mere. Han havde mistet evnen. Senere forsøgte Rhine sig med andre 'medier', men han måtte se det samme tab af evne ske igen. I mellemtiden opfandt Rhine begrebet parapsykologi, inspirerede utallige forskere til at eksperimentere med telepati, telekinese og andre oversanselige evner (også kaldet ESP, en forkortelse for 'extrasensory perception'), og var samtidig en af de første, der beskrev dette forfald af 'spændende' data i en metaanalyse i 1940.

Man skal huske på, at den videnskabelige viden om ESP var meget begrænset i 1940'erne og 1950'erne. Derfor kunne forskere stadig håbe på at offentliggøre data fra deres blinde eksperimenter i respekterede fagblade som Nature (dobbeltblinde eksperimenter var endnu ikke opfundet). Men efterhånden blev det klart, at det eneste, disse velkontrollerede eksperimenter viste, var, at der findes et stabilt og uforståelig fald i antallet af 'overnaturlige' fænomener: De begynder med at være mange, men udviskes til sidst til at være uskelnelige fra støjsignaler.

Den gængse forklaring på fænomenet er den såkaldte publikationsbias, også kaldet 'file-drawer'-effekt: kun de eksperimenter, som viser en positiv korrelation, bliver publiceret, mens dem, som ikke viser nogen effekt (eller en negativ effekt) forbliver i skuffen. Problemet er dog, at publikationsbias umuligt kan være hele forklaringen. Mange eksperimenter er vitterlig blevet gjort under velkontrollerede forhold, hvor alt er blevet publiceret. Effekten viser sig stadig.

Heller ikke de store tals lov, dvs. en simpel konvergens hen imod et gennemsnit, er en tilstrækkelig forklaring. Det kan f.eks. ikke forklare, hvorfor der i begyndelsen er så mange usandsynlige. Den amerikanske statistiker John Ioannidis fra Tufts University mener, at forskere altid jagter signifikans, og at årsagen må findes i en dybereliggende bias end en publikationsbias. En slags psykologisk refleks hos forskeren, som bider sig fast i en hvilken som helst korrelation, og bliver blind for alt andet.

Mønstre overalt

I en meget læseværdig artikel i The New Yorker fra 13. december skriver Jonah Lehrer om andre forskere, der har oplevet fænomenet. Den danske zoolog Anders Pape Møller fra Uppsala Universitet sparkede f.eks. i 1991 en hel serie af eksperimenter i gang, da han opdagede, at svalehunner har en langt større tendens til at parre sig med symmetriske svalehanner end med hanner med en asymmetrisk fjerdragt.

Inden længe opdagede man fænomenet (kaldet fluktuerende asymmetri) hos alt fra bananfluer til mennesker, men jo flere undersøgelser der kom, jo mindre blev effekten. I 1993 var det 10 ud af 10 artikler, der bekræftede fænomenet, i 1994 8 ud af 14, i 1995 4 ud af 8, og frem til 1998 var det 3 ud af 12. Og selv dem, som understøttede Møllers teori, så korrelationen falde med 80 procent.

En andet eksempel fra New Yorker-artiklen er psykologen Jonathan Schooler, som i de sene 1980'ere opdagede, at vi mennesker har tendens til at glemme ting, som vi har beskrevet med ord. Han kaldte fænomenet 'verbal overshadowing', og blev berømt på det. Men samtidig blev det sværere og sværere for ham at gentage sine egne eksperimenter. Han gjorde præcis det samme som før, men effekten aftog, jo mere han forsøgte. Schoolers private betegnelse for denne statistiske mærkværdighed var 'cosmic habituation', og han indrømmer, at den var meget frustrerende.

Forklaring søges

Selvom statistikere siden 1950'erne har udviklet dobbeltblindtest og funnelgrafer, er der altså stadig noget underligt på færde. Ifølge Dean M. Brooks fra Ekaros Analytical Inc. i Vancouver var den første, der tog problemet alvorligt den engelske matematiker og filosof George Spencer-Brown, der havde været kollega til Bertrand Russell og studeret under Ludwig Wittgenstein. Desværre er Spencer-Browns arbejde stort set glemt i eftertiden.

I bogen Probability and Scientific Inference fra 1957 foreslog Spencer-Brown, at alle disse typer af ESP-eksperimenter ikke var andet end tilfældighedsmaskiner, og hans tanke var, at forfalds-effekten måske var tegn på en subtil defekt ved sandsynlighedsteorien som sådan. For at teste sin hypotese gentog han Rhines klassiske Zener-kort-eksperiment, men denne gang var det ikke en person, som skulle gætte, men et andet sæt Zener-kort, der skulle simulere forsøgspersonen, godt blandet. Det var smart, for på den måde blev alle eventuelle paranormale og subjektive komplikationer visket af bordet som irrelevante.

Eksperimentet viste den velkendte effekt: Sjældne hændelser, som f.eks. at ramme rigtigt syv gange i træk, klyngede sig sammen i begyndelsen, men aftog med tiden. I et forsøg med kun 100 gæt ville den første fjerdedel have signifikant flere sjældne udfald (p<0,05) end den sidste fjerdedel. Da Spencer-Brown offentliggjorde resultatet i fagbladet Nature, var der kritik, men en uafhængig kontroltest bekræftede sagen. Mærkeligt nok blev Spencer-Browns arbejde hurtigt glemt.

I nyere tid er sagen dukket op igen - i en ny forklædning. Forskere som Herbert Simon, Benoit Mandelbrot og danske Per Bak opdagede nemlig, at naturen består hovedsageligt af denne type af distributioner (tænk på jordskælv, artsuddøen, skovbrande og trafikpropper).

Data fra den virkelige verden er ofte givet ved Benfords lov, Zipfs lov, Smeeds lov og lignende empiriske power-love - alle sammen kendetegnet ved at være udpluk fra en dynamisk proces. Hvis Spencer-Browns eksperiment derfor er et udslag af ikke-ligevægtsdynamik, så er vores forståelse af, hvad et tilfældigt tal er, stadig alt for primitiv.

Som løsning foreslog Spencer-Brown i 1957 at teste tilfældighed ved ikke kun at bruge standardmetoden, nemlig at kigge på sekvensen af individuelle hændelser, som man definerer som (håber på er) uafhængige. Man skal også teste for uafhængigheden af grupper af hændelser (to et-taller i træk i forhold til andre totalskombinationer, tre sekstaller i træk i forhold til andre tretalskombinationer, etc.). Denne procedure vil afsløre, at korrelationer kan leve længe, og at ægte tilfældighedsmaskiner er meget (meget!) svære at lave i virkeligheden.

Helten hedder Edwin Jaynes

Ifølge Brooks findes der dog en god forklaring på, hvorfor Spencer-Brown og alle os andre ser hyppigheden af sjældne udfald falde, jo flere data der haves. Forklaringen blev faktisk givet samme år af fysikeren Edwin T. Jaynes i en artikel i Physical Review Series II, og er siden blevet kendt som princippet om maksimal entropi - eller blot 'MaxEntteorien'.

MaxEnt går kort fortalt ud på at antage, at vores viden om et givent datasæt er så ufuldstændig, at vi må maksimere entropien af distributionen, for i det mindste at få et retvisende billede af vores uvidenhed. Det svarer lidt til, når du bliver sendt i supermarkedet af din kone for at købe ind til aftensmaden, desværre uden at du har hørt efter, da hun fortalte, hvad der skal kokkereres. Kvik som du er, køber du de mest sandsynlige ting for de penge, som hun har givet dig i hånden, for på den måde at maksimere muligheden for at ramme plet. Dette svarer til at maksimere sin entropi.

Det gode ved Jaynes tilgang er, at den er komplet uafhængig af det konkrete fysiske system. Den har ikke nogen foretrukken kausalitet, og kan bruges i enhver situation, også i situationer, hvor data er genereret af en ukendt flux. Metoden kan derfor bruges til at luge ud i de ofte hjemmelavede sandsynlighedsfordelinger over fysiske processer, hvor forskeren har svært ved at adskille viden og uvidenhed. Den bruges allerede med stor succes inden for fysisk modellering og kvantemekanikken, men har endnu ikke fundet indpas inden for de statistiske signifikanstest (kaldet Diehard), der anvendes af lægevidenskaben og andre evidensbaserede forskningsområder.

Som et konkret eksempel, tag en terning og kast den rigtig mange gange. Teoretisk set vil MaxEnt-distributionen konvergere mod den klassiske distribution, idet vores uvidenhed om udfaldet er maksimeret ved at sætte sandsynlighederne for de seks sider ens - en sjettedel til hver. I det virkelige liv findes der dog ikke nogen perfekt terning. Det kan være, at kanten mellem 5 og 6 er skæv og hjørnet mellem 1 og 2 og 3 er en smule fladt.

Antag, at det gennemsnitlige udfald bliver 3,4 og ikke 3,5 som forventet ved en perfekt terning. Den klassiske statistiske test, som automatisk antager perfekte og uafhængige data, vil inden længe 'opdage' kold fusion og en mystisk kur mod cancer, som dog aldrig kan reproduceres. Princippet om maksimal entropi vil blot vise, at der er noget i gære, og få forskeren til at arbejde videre og tænke sig om en ekstra gang.

Kommentarer (20)

Spencer-Brown skulle have fortsat sin målerække indtil signifikansen ligeledes forsvandt fra hans egne målinger, hvilket havde været det ypperste bevis for at han havde ret... og tog fejl på samme tid.

Altså hans eget eksperiment er en statistisk anomali, der beviser at sådanne anomalier forsvinder efterhånden som man tester videre.

Pudsigt nok har vel fulgt nøjagtig de samme videnskabelige metoder, som alle de andre, der også har en tidlig overrepræsentaton af anomalier.

  • 0
  • 0

Det er nok derfor - når man spiller wist med familien til jul og først på aftenen kan der være mange gode spil hvor man har gode kort, men efterhånden bliver kortene bedre blandet og spillene bliver dårligere..... Nå ja en lille juleteori :-)

  • 0
  • 0

Lad os sige, at man vil undersøge, om æblekerner mindsker gigt.

I en dobbelt-blindtest finder man, at 30 personer ud af 100 i en placebogruppe "ja" til, at de har mindre smerter. I æblekernegruppen er tallet 29 ud af 100.

Man konkluderer altså, der æblekerner ikke virker. Fint.

Nu gentager man forsøget med:

  • Gulerødder
  • Pistacienødder
  • Guitarspil (placebogruppen spiller mundharpe i stedet for guitar)
  • Sang (placebogruppe skal tale i stedet for at synge)
  • Dyne med elektriske felter
  • Kyllingekød
  • Dyne med magnetiske felter

Og man får tallene (placebo, ikke-placebo):

31, 26
30, 30
26, 28
60, 61
30, 25
37, 34
60, 11

Vi kan ved "Dyne med magnetiske felter" se, at 60% - 11% = 49% får det bedre, statistisk set! Altså må det hjælpe.

Så hvis man udfører et tilstrækkeligt stort antal eksperimenter, så vil man på et tidspunkt ad tilfældighedens vej finde en mirakelkur med statistisk set fantastiske resultater. Men eksperimentet kan ikke reproduceres.

I visse tilfælde vil et resultat kunne reproduceres. Men dette har også været en statistisk fluktuation hvilket skaber endnu mere forvirring, som Linzmayer i artiklen oplevede.

I dag hvor meget forskning sker automatisk med datamining af kæmpe mængder statistiske data fra sygehuse, fødevareinstanser, mv, vil der opstå mange af den slags ikke-reproducerbare resultater.

  • 0
  • 0