Her går supercomputeren aldrig i sort
more_vert
close

Få de daglige nyheder fra Version2 og Ingeniøren. Læs mere om nyhedsbrevene her.

close
Ved at tilmelde dig accepterer du vores Brugerbetingelser, og du accepterer, at Teknologiens Mediehus og IDA-gruppen lejlighedsvis kan kontakte dig om arrangementer, analyser, nyheder, job og tilbud m.m. via telefon og e-mail. I nyhedsbreve, e-mails fra Teknologiens Mediehus kan der forefindes markedsføring fra samarbejdspartnere.

Her går supercomputeren aldrig i sort

Illustration: Laurids Hovgaard

På afstand ser containerpladsen i det nordlige hjørne af DTU Risø ikke ud af meget. Men det er her, nogle af Danmarks største og hurtigste computere kører. Og der kommer flere i fremtiden. De kraftige supercomputere kaldes HPC-klynger (High Performance Computing) og består af en række servere, der er forbundet i et højhastighedsnetværk.

Det er nemlig ikke kun danske forskere, der gerne vil have adgang til beregningskraft ud over det sædvanlige. Også læger i sundhedsvæsnet ønsker sig adgang til hurtige, kraftfulde beregninger af eksempelvis DNA for at kunne diagnosticere kræftpatienter.

En af de HPC-klynger, der står på DTU Risøs supercomputer-containerplads, er Computerome, som blandt andet laver beregninger af genomsekventeringer af patienters DNA-materiale. Den type beregninger bliver der kun behov for flere af i fremtiden, og derfor er DTU også i gang med at indkøbe en ny og meget kraftigere generation HPC-klynge, Computerome 2.0, der har en forventet pris på 97 millioner kroner.

DTU Risø håndterer også HPC-klyngen Jess, der bruges til beregninger af vindenergi, ligesom Risø også driver en backup af alle DTU’s it-systemer.

Failure is not an option

I takt med, at det ikke kun er forskningsresultater, der skal beregnes, men også kliniske sundhedsdata, der bruges til diagnostik, er der ikke plads til, at infrastrukturen på serverpladsen fejler.

Derfor har forsknings-it-afdelingen på DTU Risø ved Roskilde over de seneste år arbejdet intensivt med at etablere en infrastruktur til at drive fremtidens danske supercomputere.

»Vores opgave er grundlæggende at levere mest mulighed regnekraft per krone, altså flest beregninger til den laveste pris. Men i takt med, at vores HPC-anlæg også skal beregne på kliniske data fra blandt andet regionerne på eksempelvis Computerome 2.0, bliver oppetid også et parameter, og det har vi arbejdet ret intensivt på over det seneste år,« fortæller Michael Rasmussen, leder af forsknings-it-sektionen på DTU.

»Vi har en belægningsprocent på op mod 90 procent på de HPC-anlæg, som vi driver hernede, og interessen er kun stigende,« siger Michael Rasmussen.

Læs også: DTU køber supercomputer med 16.768 kerner

Supercomputerne består af store serverrum i containere. Illustration: Laurids Hovgaard

Redundans på alle systemer

Når man gerne vil have, at serverne kan køre upåagtet videre, uanset hvad der sker, så skal der etableres en redundant infrastruktur, og det er, hvad DTU Risø har arbejdet på det seneste år.

»Vi har brugt og bruger stadig meget tid og mange ressourcer på at gøre infrastrukturen her på DTU Risø redundant, uanset hvor i systemet du er. Hvis vi har en fejl det ene sted, kan vi køre upåagtet videre. Vi har fået lavet et redundant kølesystem i vores serverrum, og vi har fået en redundant strømforsyning, så vi har to separate 230 kV-strømforsyninger, dels fra Jyllinge nordpå og dels sydpå fra Roskilde, ligesom vi har fået redundant fibernet på hele vores campusområde,« siger Bent Bøgelund Hansen, der står for den fysiske vedligeholdelse af HPC-anlæggene på DTU Risø.

I takt med, at Computerome 2.0 kommer til at skrue op for mængden af data, der skal beregnes, bliver tid også en kritisk faktor. Det er blandt andet også derfor, man har etableret flere 100 GB-fiberforbindelser, som er dedikeret til Computerome 2.0.

Fibernetværksringen er lavet for at sikre, at it-infrastrukturen bag de store forskningsfaciliteter på DTU Risø kan fortsætte, selvom der opstår en fejl et sted i systemet.

Ud over Computerome-installationerne omfatter forskningsfaciliteterne på DTU campus Risø også Poul la Cour Vindtunnelen og Large Scale Facility, der anvendes til storskala-test af vindmøllevinger.

Fibernetværksringen, som består af hårtynde såkaldte single mode-lysledere, danner forbindelse mellem to datacentre på DTU Risø. Lyslederne sørger for, at data kan transmitteres hurtigt over store afstande.

Læs også: DTU’s nye supercomputer skal regne på batterier og solceller

Her er ingen dieselgeneratorer

Redundans i datacentre bliver typisk målt efter det såkaldte Tier-rating-system, der skelner mellem fire niveauer af pålidelighed i et datacenter, fra det laveste niveau et til det højeste niveau fire. Dele af serverpladsen på DTU Risø bliver på niveau tre, hvor der er krav om en oppetid på 99,982 procent, og hvor du ikke må have mere end 96 minutters nedetid fordelt over et helt år.

Her skal du også kunne foretage vedligehold af systemet, uden at der bliver afbrydelser i HPC-klyngernes beregninger. Det bliver dog ikke hele serverpladsen, der kommer op på det høje sikkerhedsniveau.

»Vores ambition er at drive kraftige, men også skalerbare regne-anlæg til så lave omkostninger som muligt, og hvor man - meget forsimplet - kommer med en container med servere, et strømstik, et netværksstik og et vandstik. Det betyder også, at det vil blive for dyrt, hvis hele serverpladsen skulle være indrettet til Tier-3 niveau, hvor alle systemer er redundante, men uden krav om fortsat drift under vedligehold,« siger Bent Bøgelund Hansen.

Du kan eksempelvis ikke finde en nødstrømsgenerator, der kører på diesel, på DTU Risø. Det skyldes ifølge Michael Rasmussen, at den den danske forsyningsinfrastruktur i forvejen er ekstremt stabil og pålidelig.

»Det har vi fravalgt, fordi vi har adgang til to separate 132 kV-højspændningsforsyninger. Hvis de begge går ud af drift, er Sjælland de facto uden strøm, og så bliver vi nok også tilgivet for at stoppe beregningerne,« fortæller Michael Rasmussen.

Michael Rasmussen og Bent Bøgelund Hansen lyser op, da de viser noget af det senest indkøbte hardware frem: en ny eltavle i et lille anonymt lokale. Den sørger for, at supercomputerne kan regne videre, selvom strømmen går.

Den ser ikke ud af meget, men eltavlen sørger for, at strømforsyningen og kølingen på DTU Risøs supercomputere ikke forsvinder. Illustration: Laurids Hovgaard

»Den her eltavle er vores helt store stolthed for tiden. Den ser måske ikke ud af meget, men den er specialdesignet til os og har været forholdsvis dyr. Eltavlen består af en primær og en sekundær forsyning, så hvis strømmen går nordfra i Jyllinge, hvor den normalt kommer fra, så vil den automatisk skifte over til Roskilde,« siger Michael Rasmussen.

Læs også: Ny supercomputer sætter turbo på vindforskning

Plads til at opskalere

»Vi kan selv bestemme, hvor hurtigt overgangen sker, fordi hullet bliver dækket af vores nødstrømsforsyning, så de beregninger, der kører på HPC-klyngen, lider ikke skade. Lige nu går der et minut på overgangen, for at sikre at køleanlægget kører ned og starter godt op igen, for hvis man laver et for hurtigt skift, kan controlleren gå helt fejl,« fortæller Michael Rasmussen.

Ud over life science-supercomputeren Computerome og DTU Vindenergis nye HPC-klynge så kører også Landstrafikmodellen fra serverpladsen, og der er plads til flere supercomputere på pladsen, som har eksisteret i omkring tre år.

»Vi har installeret 5 MW strøm, og der arbejdes på en ny transformerstation til at hæve det tal, så vi er godt rustet til at skalere op.«

Der bliver bygget ud på serverpladsen i den nordlige del af DTU Risø, så der i fremtiden bliver plads til flere HPC-anlæg. Illustration: Laurids Hovgaard

Læs også: Danmark tøver med nye EU-supercomputere

Virtualisering giver færre HPC-anlæg

Det er ikke kun behovet for voksende beregningskraft, der taler for at samle supercomputere. Den teknologiske udvikling af HPC-klynger gør det også nemmere og mere oplagt at centralisere regnekraft på færre geografiske lokationer.

Traditionelt har de forskellige HPC-klyngers supercomputere været bygget specifikt til de applikationer, som forskerne har behov for. Derfor har DTU Fysik, ligesom DTU Vindenergi, sin egen supercomputer mens de på Syddansk Universitet bruger supercomputeren Abacus 2.0 til meget nøjagtige kvantemekaniske baserede beregninger.

»De forskellige forskningsanlæg har forskellige behov. Det er meget afhængigt af, hvilket problem du skal regne på, om det er hukommelsen, forbindelsen udefra eller noget helt tredje, der kan give flaskehalsproblemer. Vindforskerne på DTU Vindenergi har eksempelvis behov for at få det hurtigst mulige netværk til deres parallelle Computational Fluid Dynamics-beregninger, mens DTU Fysik har andre krav. Derfor har det indtil videre også givet god mening at have HPC-klyngerne placeret fysisk ude i forskningsmiljøerne, men det tror jeg ændrer sig i fremtiden,« siger Michael Rasmussen.

I dag er det nemlig muligt at virtualisere applikationerne, uden at det går voldsomt ud over ydeevnen på supercomputerne.

Det kommer formentligt til at ændre på den HPC-infrastruktur, der er i Danmark og Europa i dag.

»I dag kan du lave en virtualisering, der kun koster to procent i ydeevne, så jeg tror, at udviklingen bevæger sig mod, at du har en fysisk HPC-klynge med det størst mulige samling af sorte bokse, altså servere, stående, med det hurtigste netværk, og så lægger du alle dine applikationer på toppen med en virtualisering. Det betyder, at du fremover ikke vil se anlæg, der i lige så høj grad er bygget og installeret specifikt til bestemte forskningsområder, men snarere, at HPC-klyngerne kan bruges til mange forskellige formål og dermed udnyttes bedre. Derudover bliver det i højere grad de meget store mængder af data, der bliver bestemmende for, hvor beregningskraften placeres,« siger Michael Rasmussen.

Læs også: Danmark vil bygge supercomputere med 21 andre EU-lande

Grønne løsninger

Debatten om datacentrenes energiforbrug er blevet ekstra aktuel i forbindelse med, at store teknologi-giganter som Facebook og Apple har taget de første spadestik til byggerierne af flere hyperskala-datacentre.

Det kræver et kompliceret kølesystem at holde temperaturen nede i serverrummene. Årets varme sommer har kostet ekstra på køle-kontoen. Illustration: Laurids Hovgaard

»Det koster penge, mange penge, at drive den her type HPC-klynger i energiforbrug. Faktisk er driftsomkostningerne til køling og strøm lige så store som det at indkøbe selve hardwaren og softwaren, og udstyret skal skiftes omkring hvert femte år. Så vi arbejder meget med at indtænke grønne løsninger. Vi har eksempelvis etableret varmegenindvinding, så vi kan bruge op mod 25 procent af restvarmen fra computerne i vores fjernvarmeanlæg. Det er vigtigt, at vi ikke bare bevidstløst lukker CO2 ud,« siger Bent Bøgelund Hansen.

Når så mange servere er presset ind på lidt plads, er der brug for køling. Til at starte med bruges der frikøl, altså udeluft, så lang tid det er muligt, før man overgår til kompressorkøling, som er markant mere energikrævende.

Sommeren 2018 slog varmerekorderne i et væk, og det kunne også mærkes i serverrummene på DTU Risø.

»Vi var pressede på flere områder. Når temperaturen er over 30 grader udendørs, så kræver det noget at køle serverrummene indvendigt. Især noget af det ældre hardware kæmpede en hård kamp med varmen i sommer, mens vores nyere servere kan klare over 30 grader i indsugningstemperatur,« siger Michael Rasmussen.

Læs også: Exascale-supercomputere kræver nye CPU'er med mindre elforbrug

Emner : Datacentre
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først

JEG forstår godt begrebet og 99,99....% oppetid -når der er mennesker involveret - f.eks. dankort og checkin systemer.

Men hvorfor er det kritisk her ? Som jeg har forstået det, så laves der "TALKNUSNING" dvs. beregning over lang tid, hvor jeg får ud fra, at genstart er en mulighed ?
Og ja, der tabes beregningstid tilbage til sidste genstart-punkt .....

Så med et andet design og e.g. oppetid på 99% (nedbrud = 3,5 døgn/år)til den halve pris (IFØLGE ARTIKLEN) - HVORFOR er det så ikke godt nok ?

  • 2
  • 5

Jeg vil ikke tage en diskussion om computer-oppetid i forhold til resultat-tilgængelighed. DEN fører til alle mulige sidespor som: "mit internet var nede, jeg kunne ikke sende opgaven" (som er en analogi til "gamle dage": "strømmen svigtede - jeg kunne ikke skrive færdig, kopiere, printe eller eller lignende" - eller ældre endnu "Knippels Bro var oppe".

Hvis en opgave kører e.g. 100 dage, og to genstarter koster ialt 20 timer, så er forsinkelsen under 1% - og DET berettiger ikke system-meromkostning på faktor 2.
Hvis det ikke er muligt at genstarte på 5 dage, altså 5%, så måske .....

Mit spørgsmå var af it-teknisk uvidenhed (på dette emne): "Hvordan er genstart på de benyttede programmer lavet (kan laves) i relation til tidsforbrug ?
Hvis tidsforbruget er ringe (5-10%), er det beskrevne setup så berettiget ?

  • 1
  • 0

Jeg har begrænset indsigt i emnet, men den type beregninger omfatter typisk mange processorer og gigantiske RAM-mængder, og jeg tror simpelthen, at det er umuligt at stoppe på en velordnet måde, og nå at skrive status af alle hukommelses-elementer til hard-disk under et strømnedbrud. Derfor er de allerede udførte beregninger tabt, og det er selvfølgeligt ikke sjovt, hvis beregningen har kørt i en uges tid eller to.

  • 1
  • 0
Bidrag med din viden – log ind og deltag i debatten