Risøs supercomputer kortlagde det danske referencegenom på rekordtid
more_vert
close
close

Vores nyhedsbreve

close
Ved at tilmelde dig accepterer du vores Brugerbetingelser og accepterer, at Mediehuset Ingeniøren og IDA-gruppen lejlighedsvis kan kontakte dig om arrangementer, analyser, nyheder, tilbud mm via telefon, SMS og email. I nyhedsbreve og mails fra Mediehuset Ingeniøren kan findes markedsføring fra samarbejdspartnere.

Risøs supercomputer kortlagde det danske referencegenom på rekordtid

Der er afsat 3.500 kvadratmeter til supercomputeren på DTU's Risø-campus. Foto: DTU

Med 16.048 computerkerner og 3 PB superhurtig lagring kan Danmarks kraftigste supercomputer – som i november 2014 rykkede ind på DTU Risø i Roskilde – tygge sig igennem enorme mængder data på ganske kort tid.

Og den egenskab er i stigende grad blevet en nødvendighed for de forskere, der arbejder med life science, fortæller Head of Super Computing Peter Løngreen fra Institut for Systembiologi på DTU.

»Biologiske data er i disse år eksploderet som en tsunami, fordi prisen på at generere data er faldet så drastisk. I sin tid kostede det flere milliarder kroner at kortlægge et genom, nu er prisen nede på under tusind kroner,« siger han og vurderer, at mængden af data fordobles for hver seks måneder, der går.

Samtidig vil forskerne i dag gerne mere end blot se på dna-sekvenser. For at finde frem til det virkeligt interessante om sygdomsrisici og sygdomsudvikling er det nødvendigt at koble viden om dna sammen med f.eks. data fra patientjournaler.

Selve supercomputeren fylder et område på 50 m2 og bruger én megawatt i strøm. Foto: DTU

»På globalt plan vil datamængden over de kommende fem år vokse til over 20 zettabytes (1.000.000.000.000.000.000.000 bytes, red.), hvoraf 60 procent er relateret til biologi, f.eks. sensordata fra individer,« siger Peter Løngreen og fortsætter:

»En enkelt menneskelig organisme, hvor vi ikke kun ser på human-genomet, men også på bakterier i f.eks. vores tarmsystem, svarer faktisk til 160 petabytes, så det stiller store krav til skaleringen af vores infrastruktur,« siger han.

Læs også: Risø-supercomputer med 16.048 kerner skal knække biologiens Big Data

Supercomputeren har allerede flere end 400 brugere på systemet fra både ind- og udland, og blandt projekterne har computeren spillet en vigtig rolle i kortlægningen af det danske referencegenom, som danske GenomeDenmark arbejder på.

På blot to måneder samlede supercomputeren dna-stumperne i alle generne for 150 danskere – en avanceret opgave, der ellers nemt kunne have taget flere år og med et ukomplet resultat, fortæller professor i bioinformatik på Københavns Universitet Søren Brunak.

»Når man sekventerer et genom, klipper man dna’et i småstykker for at analysere det, og det puslespil skal så sættes sammen igen bagefter,« siger Søren Brunak, som forud for sin ansættelse på Københavns Universitet var leder af Center for Biologisk Sekvensanalyse på DTU i mere end 20 år og var med til at bestille supercomputeren hjem. Han har givet den navnet Computerome.

»Problemet er, at puslespillet for det menneskelige genom har ret meget 'blå himmel', dvs. sekvensdata, der ligner hinanden, så derfor skal man prøve virkelig mange brikker af for at se, hvordan de passer sammen,« fortæller han.

Læs også: Milepæl nået i kortlægning af danskernes genom

Supercomputeren kan rumme 7,5 petabyte data – alle amerikanske forskningsbiblioteker rummer tilsammen 2 petabyte data. Foto: DTU

Søren Brunak forklarer videre, at tidligere endte analysecomputerne op med måske hundredvis af delpuslespil, hvoraf en del af sekvensen ikke kunne samles ordentligt. Det gav huller i data, hvor vigtige informationer om relationer mellem styringssignaler og generne kan være gået tabt.

»Nu er vi nede på et minimum af huller, og derfor har vi nu endelig kunnet lave en reference for, hvordan et dansk gennemsnitsmenneske nogenlunde ser ud. Det betyder, at vi har noget at sammenligne med, når vi vil undersøge, hvordan en bestemt sygdom kommer til udtryk i generne,« siger han.

Søren Brunak understreger, at ankomsten af Computerome, som ved bestillingen stod som nr. 121 på verdensranglisten over supercomputere, generelt har givet anledning til stor kreativitet blandt forskerne, som nu ikke længere er så begrænset af computerkapacitet, men kan udføre reel systembiologi på et højt niveau.

»Der er selvfølgelig mange data i et genom, men de er til gengæld ret homogene,« siger Søren Brunak.

Computeren har mere end 92 terabyte ekstremt hurtig hukommelse fordelt på over 560 servere. Den har kostet 40 mio. kroner. Foto: DTU

»Udfordringen kommer, når vi vil integrere mange typer data, f.eks. dna-data med kliniske patientdata og analyser af bakterier eller proteiner for at få en dybere forståelse af, hvordan de forskellige niveauer i biologien spiller sammen. Det er eksperimenter, der i stigende grad også er blevet billigere at lave, og vi kan så lægge mange forskellige datatyper ind på én gang,« siger han.

Læs også: Ingeniørens biotek-blogger: Det er den vildeste oplevelse at surfe rundt i sit indre

Tidligere måtte forskerne ofte kigge på et enkelt gen ad gangen for at se på, hvilke egenskaber det besad. Men eftersom risikoen for bestemte sygdomme som diabetes kan være delt ud på mange gener, giver det mening at tænke i systemer, fortæller Søren Brunak videre.

Ud over de danske projekter har også udlandet fået øjnene op for Computeromes muskler.

I DeIC’s årsrapport fra 2014 (Danish E-Infrastructure Cooperation) fortæller forsker Bent Petersen om en konference i Brasilien, hvor forskerne blev så imponerede over Computerome, at der nu er kommet et fælles projekt på banen, hvor dna-analyser skal undersøge bakterier og svampe i brasilianske saltvandssøer.

Og alle de samarbejder, som computeren har affødt, giver anledning til i stigende grad at tænke i cloud-løsninger, så forskerne nemmere kan dele data og forskningsresultater. Det arbejder instituttet derfor hårdt på i denne tid, fortæller Peter Løngreen.

Læs også: Bakterie-cocktails skal afhjælpe autisme og astma

DTU's supercomputer med navnet Computerome stod ved bestillingen som nr. 121 på verdensranglisten over supercomputere. Foto: DTU

»Denne ’hybrid life science cloud’ er ret central for os, for ellers vil det tage en krig at sende data rundt mellem os. Når datamængderne bliver så store, er vi nødt til at have mere distribuerede modeller,« fortæller Peter Løngreen, som mener, at det vil revolutionere systemforskningen, når man kan begynde at kombinere genomdata med videnskabelige artikler og lærebøger på tværs af institutioner.

Søren Brunak mener ligeledes, at udvekslingen af data fremadrettet bliver udfordringen, der skal styr på.

»Tidligere fokuserede man meget på cpu’en i en computer, men nu handler det mere om at flytte en masse data ind og ud af computeren og om at deles om de data, der ligger. Derfor skal vi bruge superhurtige diske, der er sat op med cloud-løsninger,« understreger han.

»Jeg vil tro, at vi om ganske få år vil se, at forskernes egne mindre computere på en sikker måde kan snakke med supercomputere som Computerome,« lyder det fra Søren Brunak.

Det ville klæde et fagblad som Ingeniøren at undlade billedtekster som nedenstående :

Selve supercomputeren fylder et område på 50 m2 og bruger én megawatt i strøm.

Altid noget at areal angivelsen er korrekt og ikke udtrykt i antal "parkeringspladser".

  • 12
  • 2

Et spørgsmål som rejser sig efter læsning af artiklen er, hvad man mener med et dansk referencegenom?

Mange danske statsborgere er af f.eks. afrikansk etnisk oprindelse og deres genom er væsensforskelligt fra alle ikke-afrikanere pga. menneskets evolutionshistorie. Er de medtaget eller er det kun dem af hos som nedstammer direkte fra Gorm den Gamle?

Den genetiske diversitet blandt danske (mennesker) adskiller sig vel ikke meget fra den globale pga. indvandringen, så hvorfor kan man ikke bruge et global reference genom?

  • 0
  • 0