Moores lov halser efter nye kunstige neurale netværk

Illustration: Ingeniøren

Det er langt fra uden omkostninger at optimere og forbedre nye typer algoritmer, der er baseret på kunstige neurale netværk, også kendt som deep learning. Et nyt studie fra det amerikanske universitet MIT viser, at selv små forbedringer i den type algoritmer ofte kræver meget store stigninger i den nødvendige regnekraft, der skal til, for afvikle algoritmen. Faktisk stiger algoritmernes regnekraft hurtigere end chipproducenterne kan nå at øge regnekraften med.

Der er altså fuldt fart på software-udviklingen, og det kniber med hardware-udviklingen ikke følge med.

Det betyder at algoritmerne på sigt bliver dyrere at optimere, og det vil samtidig øge energiforbruget i eksempelvis datacentre.

Konkret har forskerne gennemgået 1.058 artikler fra pre-print-serveren Arxiv.org, hvor de har undersøgt sammenhængen mellem deep-learning-algoritmernes performance og behovet for regnekraft. De har især fokuseret på algoritmer til billedklassificering, objektgenkendelse, maskinoversættelser og spørgsmålsbesvarelser.

Algoritmerne, der er beskrevet i de tusind artikler, er blevet kategoriseret efter hvor meget regnekraft, altså antallet af de nødvendige floating-point operations(FLOPS), der er blevet anvendt for at foretage en ændring i modellen, fx en justering af vægte i en given model. Derudover har de undersøgt, hvor meget regnekraft der har været på den hardware, modellerne er kørt på.

Over en bred kam, bortset fra maskinoversættelser fra engelsk til tysk, finder forskerne, at selv små forbedringer af algoritmen kræver store stigninger i behovet for regnekraft.

De anslår, at tre års optimering af algoritmer svarer til en tidobling af den nødvendige regnekraft.

»Samlet set viser vores resultater klart, - på tværs af mange forskellige områder af deep learning - at fremskridt i træningsmodellerne er afhængige af store stigninger i den nødvendige regnekraft,« skriver de i studiet.

Læs også: Glemte data udleder store mængder CO2

Illustration: MIT

Moores lov kan ikke følge med

Op til 2012 fulgtes Moores lov - der siger at antallet af transistorer i et lukket kredsløb fordobles med 18 måneders intervaller - med det øgede behov for regnekraft til algoritmer som deep learning. Det viste en rapport fra Stanford University sidste år. Der var altså ingen omkostninger forbundet med øgede krav til regnekraft. Men siden 2012 er algoritmernes krav om regnekraft vokset hurtigere end Moores lov.

Mens det tager chipproducenter op mod to år at fordoble regnekraften, så fordobles algoritmernes behov for regnekraft med tre til fire måneders intervaller. Og det er den udvikling, som MIT-forskerne nu har dokumenteret igen.

På den korte bane betyder udviklingen, at det bliver dyrere at udvikle og træne nye typer deep learning-algoritmer, fordi de kræver kraftigere hardware i form af flere processorer og grafikkort, og så længe algoritmerne skal afvikles på hardware, der får energi fra fossile energikilder, vil det på sigt også have en klimamæssig konsekvens.

Tidligere i år kunne Ingeniøren fortælle hvordan energiforbruget i verdens datacentre også er presset til det yderste i forhold til at holde energiforbruget nede i takt med, at databehovet stiger.

En videnskabelig artikel i tidsskriftet Science viste i foråret, at det hardware og software, der bruges i datacentre, formentlig kun kan håndtere en fordobling af den nuværende datacenterkapacitet, uden at energiforbruget stiger, og det sker allerede i løbet af tre til fire år.

Derefter vil energiforbruget vokse dramatisk, hvilket vil resultere i øget udledning af drivhusgasser, med mindre elektriciteten stammer fra 100 pct. vedvarende energi. Det er der ikke udsigt til inden for de næste fire år, og derfor er der brug for politisk handling, lyder det fra forskerne bag Science-studiet.

Læs også: Energiforbrug i datacentre er på vej til at løbe løbsk

Illustration: MIT

Der er masser af plads til forbedringer

Selvom de nye resultater kan virke en anelse nedslående for udviklere af deep learning-algoritmer, så er der faktisk masser af muligheder for at forbedre algoritmerne, så de kræver mindre regnekraft.

Ifølge MIT-artiklen skyldes det, at udviklerne i dag ikke tager højde for behovet for regnekraft, når de designe og programmerer de nye typer algoritmer-

»Vi viser, at det ikke er et tilfælde, men et spørgsmål om design, at deep learning kræver meget regnekraft. Den samme fleksibilitet, der gør den fremragende til at modellere forskellige fænomener og overgår andre ekspertmodeller, gør den også dramatisk mere beregningsmæssig krævende,« skriver MIT-forskerne i deres nye studie.

Og i MIT-studiet peger de også på en række faktorer, som allerede har været medvirkende til at bremse behovet for regnekraft. De nævner blandt andet hardware-acceleratorer som Google’s tensor processing enheder, field-programmable gate arrays (FPGAs), og applikationsspecifikke chips, der målrettet deep learning.

Læs også: Så meget energi sluger dit dataforbrug

sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først

Problemet er som sædvanligt store O funktionen. Den eneste måde, at vi kan løse problemer, som har for stor kompleksitet, er ved at vente på, at computerne bliver hurtigere. Computere har traditionelt ændret deres hastighed exponentielt med tiden. Det er et problem for hardwaren at vedblive med det.

Der er kun en løsning til problemet - at opdage algoritmer, der ikke kræver så stor regnekraft. Vi bliver ikke ved med at bare kunne vente på, at computerne bliver store nok, til at løse store O problematikken.

  • 0
  • 5

At simulere en massivt parallel process på en sekventiel enhed er ikke overraskende en i længden dødfødt ide.

Menneskehjernen opererer 100 mia enheder hver med 10.000 forbindelser med et energiforbrug som en 25 watt elpære. Og fuglehjerner er 10 gange så effektive pga. den meget tættere pakning.

Neurale netværk skal køre på neural hardware uanset om denne hardware så er biologisk eller af silicium

  • 6
  • 0

At simulere en massivt parallel process på en sekventiel enhed er ikke overraskende en i længden dødfødt ide.

Det er ligegyldigt om det er en sekventiel eller parallel enhed. Du står med samme problem. Kræves flere beregninger, bliver prisen større, effektforbruget større, og der kræves større chipareal.

Den bedste måde er at finde bedre algoritmer, som ikke kræver så mange beregninger.

Det store problem, er kompleksiteten som funktion af størrelsen af det neurale netværk. Dette problem, kan vi reelt kun løse ved bedre algoritmer. Det giver ingen mening, hvis et netværk der er en smule større, kræver 10 eller 100 gange større regnekraft. Vi vil hurtigt løbe ind i grænserne for det mulige.

  • 0
  • 1

kan næppe bruges, da man ikke har "høns" før de er kommet ud af - et æg;-)

Tjek evt https://ocw.mit.edu, kursus 6.172 i 2018 udgaven; 2010 udgaven kan stadig ses på youtube. (Ikke hele svaret - endnu - men er god begyndelse.)

Løsningen er hverken Python eller andre "nye" sprog; det er nok en god idé, at se på hvad de "gamle" kan med nye tanker. Altså: før HW kan kodes, så det kan følge med SWs behov, kommer vi ikke videre.

  • 1
  • 0

Løsningen er hverken Python eller andre "nye" sprog; det er nok en god idé, at se på hvad de "gamle" kan med nye tanker. Altså: før HW kan kodes, så det kan følge med SWs behov, kommer vi ikke videre.

Jeg tror også, at det vi har brug for er nye algoritmer.

Hvis det kun er en lille-O optimering, hvor vi behøver en faktor 10 - 100, så er det sandsynligvis simpelt at anvende hardware, eller en større computer, til at udføre opgaven. Men, sandsynligvis hjælper en faktor 100 eller 1000 ikke noget. Opgaverne vil stadigt vedblive at være for store til at hardwaren kan følge med. Ellers, har vi ikke sat målene store nok.

  • 0
  • 1

Artiklen roder rundt i begreberne Optimering, Kompleksitet, Effektivitet, Præcision, Model og Algoritme. Resultatet er temmelig forvirrende. Et KNN er en model, ikke en algoritme. Feed Forward (FF) og Back Propagation (BP) er Algoritmer der anvendes ifbm. KNN. Modeller kan være mere eller mindre komplese og mere eller mindre præcise. Effektivitetsbegrebet knytter sig til algoritmer. Når man øger kompleksiteten i et KNN (flere nuroner) kan man være heldig at man får en mere præcis model, men effektiviteten af FF og BP forbliver den samme! Optimering af et KNN kan både gå på at reducere kompleksiteten (ved at fjerne neurale links eller neuroner) og bibeholde præcision eller på at øge præcisionen (ved at tilføje neurale links eller neuroner).

Jeg tror at budksabet i artiklen kan koges ned til: Kompleksiteten i AI modeller er siden 2012 steget hurtigere end hardwareudviklingen (jf. s.65 i MIT studiet)

Korriger gerne hvis jeg har misforstået noget.

  • 2
  • 0
Bidrag med din viden – log ind og deltag i debatten