Skjult kode gør det umuligt at gentage studier i kunstig intelligens
more_vert
close

Få de daglige nyheder fra Version2 og Ingeniøren. Læs mere om nyhedsbrevene her.

close
By signing up, you agree to our Terms & Conditions and agree that Teknologiens Mediehus and the IDA Group may occasionally contact you regarding events, analyzes, news, offers, etc. by telephone, SMS and email. Newsletters and emails from Teknologiens Mediehus may contain marketing from marketing partners.

Skjult kode gør det umuligt at gentage studier i kunstig intelligens

Illustration: BigstockJacub Jirsak

I disse år er der for alvor sat turbo på forskning i kunstig intelligens og machine learning. Men når forskerne præsenterer deres resultater i forskningsartikler og på konferencer, er det i rigtig mange tilfælde umuligt for kolleger og konkurrenter at efterprøve kvaliteten af resultaterne.

Det skriver Science.

En stikprøve bestående af 400 algoritmer præsenteret på to konferencer om kunstig intelligens viste, at kildekoden bag algoritmen kun var offentliggjort i 6 procent af tilfældene, og at det kun i en tredjedel af tilfældene var offentliggjort, hvilke data algoritmen var testet op imod. For halvdelen af algoritmerne i stikprøven havde forskerne delt en såkaldt pseudo-kode, som er et begrænset sammendrag af algoritmen.

Bag stikprøven står lektor i computer science ved Norges Teknisk-Naturvidenskabelige universitet i Trondheim Odd Erik Gundersen.

»Jeg tror, at mange uden for vores forskningsmiljø antager, at fordi vi bruger kode, er reproduktion altid en mulighed. Sådan er det langtfra,« siger Nicolas Rougier, forsker ved Frankrings nationale institut for forskning i computerscience og automation i Bordeaux til Science.

Lignende udfordringer med manglende mulighed for efterprøvning er kendt fra andre forskningsområder, eksempelvis psykologi og medicin.

Læs også: VIDEO: Forstå hvorfor man bruger grafikkort til kunstig intelligens

Hanker op i forskningsmiljøet

Forskningsmiljøerne forsøger nu i et vist omfang at reagere på problemet, senest ved et møde i Association for the Advancement of Artificial Intelligence. Her præsenterede IBM Research et værktøj, der selv genererer en kildekode på baggrund af de oplysninger, der er i en forskningsartikel.

Læs også: Det kniber med kvaliteten af forskningens kvalitetstjek

Værktøjet består af et neuralt netværk med flere lag af machine learning-algoritmer, der kan genskabe andre neurale netværk. Værktøjet fungerer ved at scanne en konkret forskningsartikel for eksempelvis diagrammer, data og tekst og derefter generere et forslag til en kildekode.

Værktøjet skal ifølge IBM have reproduceret hundredevis af publicerede neurale netværk, og IBM planlægger at gøre det offentligt tilgængelig online.

Læs også: Machine learning gætter Version2's emneord med en træfsikkerhed på 98 pct.

Men selvom andre AI-forskere har adgang til kildekoden bag en algoritme, så det er i visse tilfælde ikke nok til at gentage forsøg og resultater fra den oprindelige forskningsartikel. I mange machine learning-algoritmer varierer resultaterne, alt efter hvilke datakilder algoritmen bliver fodret med, og derfor er det også nødvendigt at vide, hvilke data algoritmen er fodret med.

Nicolas Rougier har lanceret et helt tidsskrift, Rescience, der er dedikeret til gentagelser af forskningsresultater inden for computer science, mens Joaquin Vanschoren, der er computer scientist på det tekniske universitet i Eindhoven i Holland, har lanceret siden OpenML, hvor machine learning-forskere kan uploade datasæt, opgaver og resultater i et åbent miljø.