Nordisk Grid-netværk parat til at kværne tal fra Cern
Norden har påtaget sig at behandle en tiendedel af de data, der kommer ud af Cerns nye atomaccelerator. Der er tale om en strøm på otte Gbit/s, som kommer til at kræve et netværk med 2.610 CPU'er at fordøje.
I disse dage prøvekøres dele af den fællesnordiske supercomputer NDGF (Nordic Data Grid Facility), som skal kværne tal fra Cerns nye atomaccelerator LHC (Large Hadron Collider experiment). Computeren - eller grid-systemet - har været seks år undervejs.
Det er enorme mængder af data, som de nordiske lande har påtaget sig at behandle, fortæller lektor Josva Kleist, Aalborg Universitet. Han er eksper i distribueret computing og står i spidsen for Nordic Data Grid Facility.
»I Norden har vi påtaget os at behandle cirka en tiendedel af data fra eksperimenterne. Når acceleratoren kører, bliver det til en strøm på 8 Gbit/s rå data, som vi skal kunne aftage, lagre hurtigt nok og siden databehandle,« siger han.
De store datamængder kræver omfattende regnekraft, og i første omgang har man beregnet, at den nordiske del får brug for 1.340 CPU'er (Central Processing Units), harddisk-lagre på 440 terabytes (440.000 mia. bytes) samt databånd på 435 terabytes. Året efter stiger behovet til 2.610 CPU'er.
Men det, der skal testes nu, er evnen til at modtage og lagre de massive datastrømme hurtigt nok.
»Vi skal have harddisk-plads nok til at kunne tage imod i store bursts og helst også nok til, at vi kan flytte data over på magnetbånd samtidigt. Vi har ikke tilstrækkeligt med harddiske og cpu'er endnu, og det er et særligt, nordisk logistik-problem, fordi vi som det eneste Cern-center har fire bevilgende myndigheder. Men vi regner med, det hele falder på plads.«
Selve databehandlingen sker efter algoritmer, som justeres løbende af Cerns fysikere, men afviklingen skal fordeles på den rigtige måde.
»Vi skal vurdere, om det betaler sig at holde et datasæt i en lokal kø, eller om det er bedre at sende den hen til nogle ledige cpu'er et andet sted i netværket. Det sker automatisk, men metoden kan tunes, og det bliver vi ved med, også når det hele er i drift,« siger Josva Kleist.
I tilknytning til den nye accelerator er der i alt 11 computercentre forskellige steder i Europa som det nordiske, altså såkaldte Tier-1 computercentre, som skal fordele og behandle rå data fra acceleratorens forsøg. De behandlede data sendes derpå videre til andre centre, som viderebehandler resultaterne.
»Vi ved jo ikke rigtig, hvordan maskinen hos Cern virker. Det skal vi først lære. Så de første, mange data skal bruges til at kalibrere acceleratoren med, og det vil vi så blive bedre og bedre til, så når de første indkøringer er ovre, regner vi med at skulle kalibrere en gang om året. Og så skal alle tidligere data naturligvis behandles en gang til, så der kan komme forskning ud af det,« siger Josva Kleist.
I de øvrige europæiske beregningscentre er datakraften samlet på ét center, men det nordiske datacenter er spredt og forbundet med lysledere. Niels Bohr-Instituttet har for eksempel over 500 cpu'er, og de øvrige er samlet i store klumper, seks steder i Sverige, et sted i Finland osv.
Josva Kleists team på syv udviklere består af nordmænd, svenskere, finner og en enkelt dansker. I alt er der næsten 30 mand tilknyttet, og de er også spredt over hele Norden, for de har blot brug for en pc med netforbindelse for at styre det store grid.
»NDGF er opbygget som en Linux-klynge, hvor de mange processorer arbejder parallelt. Opgaven egner sig til parallelisme, fordi beregningerne ikke er afhængige af hinanden. Det betyder, at der kan distribueres et datasæt til hver cpu, og det er ikke betydningsfuldt, hvilke cpu'er der bliver først færdige Det betyder, at hele klyngen kan holdes beskæftiget hele tiden, og fuld beskæftigelse er sædvanligvis et svært problem i cpu-klynger,« siger han.
Men netop det er de nordiske grid-udviklere rigtig gode til.
»Vi er oppe på 80 procents udnyttelse af cpu'erne. Nogle af de andre centre er nede omkring 30 procent,« siger han.
De første datastrømme fra Cern ventes omkring november. Senest tre måneder før vil Josva Kleist gerne være i drift med fuldskala test-datastrømme.






