Danmarks nye referencegenom er årets vigtigste forskningsresulatat

Illustration: Nanna Skytte

VIDENSKABENS TOP-5 – VINDER

Et referencegenom er af afgørende betydning for at kunne diagnosticere og behandle genetiske sygdomme. At lave et sådant helt fra bunden uden simplificerende antagelser er en kompliceret opgave, der kræver mange forskere, kompliceret udstyr og stor computerkraft.

Med støtte fra Danmarks Innovationsfond og andre kilder har forskere fra DTU, Københavns Universitet og Aarhus Universitet i samarbejde med blandt andre det kinesiske firma BGI og dets europæiske hovedkontor i København samt forskere fra udenlandske institutioner gennem fem år arbejdet for at skabe et dansk referencegenom.

Et delresultat blev allerede offentliggjort for to år siden, men i år kom forskerne helt i mål, da de i en artikel i Nature i august kunne præsentere det fuldt færdige referencegenom – og ikke mindst den metode, de har anvendt.

Professor Karsten Kristiansen fra Biologisk Institut på Københavns Universitet har ledet projektet. Professor Søren Brunak, der både er tilknyttet DTU og Københavns Universitet, og professor Mikkel Heide Schierup fra Aarhus Universitet er to af de andre ledende kræfter bag det danske referencegenom.

Referencegenomet er i sig selv så unikt, markant og betydningsfuldt, at det alene berettiger det til at komme i betragtning som årets bedste danske forskningsresultatet inden for natur­videnskab eller teknik.

Når vi ikke er i tvivl om, at det skal helt til tops, er det, fordi forskerne har anvendt en helt unik fremgangsmåde, der løfter forskningsprojektet op over den nationale interesse.

Farlige og ufarlige variationer

Når man skal finde årsager til genetiske sygdomme, skal man have en reference for raske personer at sammenligne med. Det humane genom, der blev kortlagt kort efter årtusindskiftet, og hvis nuværende udgave betegnes GRCh38, tjener som en sådan sammenligning.

Men da der findes naturlige genetiske varianter mellem forskellige befolkningsgrupper, er et referencegenom, der udtrykker en lokal gennemsnitspersons genetiske arvemateriale, i mange sammenhænge mere velegnet.

Skal man finde de mønstre i arve­materialet, der relaterer sig til bestemte sygdomme, må man nemlig bedst muligt vide, hvad der er normale og ufar­lige mønstre eller variationer i lige præcis den aktuelle befolkningsgruppe – og mange variationer findes kun i bestemte befolkningsgrupper.

Det har man eksempelvis indset i Korea, hvor forskerne bemærker, at det humane referencegenom er domineret af folk med kaukasisk og afrikansk oprindelse. Sidste år kunne koreanske forskere derfor præsentere et koreansk referencegenom.

Etniske danskere udgør også en relativt homogen befolkning, så et dansk referencegenom vil være gavnligt og af stor betydning for eksempelvis udviklingen af personlig medicin.

Dna fra 150 personer

Det danske referencegenom er baseret på arvemateriale fra 150 danskere, som indgår i Den Københavnske Familiebank.

Først udvalgte man 60 familier bestående af far, mor og et barn. Syv familier blev fravalgt, da de var af blandet herkomst - blandt andet norsk - og en familie blev fravalgt, fordi der var for lidt blod til analysen, som kræver mindst 278 mikrogram blod fra hver person.

Af de 52 familier, der var tilbage, udvalgte man 50 trioer, eller 150 personer, til den videre analyse. Netop ved at have 50 familier frem for 150 tilfældige enkeltpersoner får de genetiske analyser ekstra styrke på grund af de familiemæssige sammenhænge.

Dna-analyser foregår oftest og mest simpelt ved, at man sammenligner data med det humane referencegenom, når genomet skal sættes sammen ud fra delmålingerne. For det danske referencegenom valgte man at gøre arbejdet helt fra bunden – de novo, som det hedder i fagsproget – uden at benytte det humane referencegenom.

Når man bruger den mere simple metode med at sammenligne med det humane referencegenom, kan man ikke se noget, som referencen ikke indeholder. Når man sekventerer helt fra bunden, får man mange flere variationer med.

Da man begyndte projektet, var der kun en håndfuld mennesker på verdensplan, der havde fået kortlagt deres genom på denne måde, og metoden har betydet, at det danske referencegenom samlet set har den næsthøjeste kvalitet i verden – kun overgået af det humane referencegenom.

Klip i stykker og sæt sammen igen

Arvematerialet for hver enkelt person er analyseret dybdegående gennem sekventering, hvor man groft sagt klipper dna i stykker og aflæser rækkefølgen eller sekvensen af nukleotiderne, der indeholder en af fire forskellige baser, i dna-strengen.

Hver streng har typisk nogle få hundrede nukleotider. Et helt genom indeholder omkring tre milliarder nukleotider, så der er mange strenge, der skal analyseres og holdes styr på.

For at opnå helt sikre konklusioner er hvert nukleotid i gennemsnit sekventeret 78 gange.

Efter sekventeringen skal man sætte det hele sammen igen. En stump data indgår måske både i begyndelsen af en delstreng og i slutningen af en anden – derved kan computeren udregne, hvordan de to delstrenge skal sættes sammen.

Dataanalysen foregik på supercomputeren Computerome, der er placeret på DTU's campus ved Risø.

Supercomputeren, der blev indviet for tre år siden, består af 16.048 CPU-kerner med 92 terabyte hukommelse, som er direkte forbundet til et eksternt lager på 7,5 petabyte. Den kan teoretisk set udføre 483.000 milliarder flydende tal opera­tioner i sekundet (483 teraflops).

Computerome er opbygget, så den er specielt velegnet til beregninger inden for life sciences.

Det har taget 11 dage at beregne 27 genomer, som beregnes parallelt. Før Computerome blev taget i brug, tog det på en ældre computer næsten en måned at beregne blot to genomer.

Uden Computerome var der ikke noget dansk referencegenom.

Emner : Genteknologi