Professor spår: De store datasæts tidsalder er forbi

Frem for datasæts skal vi have simuleringsmiljøer, mener AI-professor Serge Belongie. Her er det miljøet SAPIEN, som forskere fra blandt andet UC San Diego præsenterede sidste år. Illustration: Sapien

I to årtier er de hastige fremskridt inden for ­deep ­learn­ing blevet målt med såkaldte benchmark-datasæt.

Enorme samlinger af millioner af billeder, tekster, videoer, lydfiler med mere har skabt trænings­materiale til alskens AI-løsninger og fungeret som referenceramme for nye forskningsindsatster. Og de er selv blevet en integreret del af historien om deep learning, som da det neurale netværk AlexNet i 2012 slog konkurrenterne af banen i ImageNet-udfordringen, der går ud på at genkende objekter i billeder, hvilket for alvor fik åbnet omverdenens øjne for teknologiens potentiale.

Serge Belongie er leder af Pionercentret for Kunstig Intelligens i Danmark, som han håber kan medvirke til at skabe »et helt brand omkring kunstig intelligens og Danmark, som resten af verden har set det med f.eks. møbeldesign og arkitektur,« som han sagde i en pressemeddelelse i forbindelse med udnævnelsen. Illustration: Jesse Winter/Cornell Tech

Men til trods for de store datasæts nytte og bidrag, så er deres tid ved AI-forskningens front ved at være slut. Det mener Serge Belongie, der indtil for nylig var professor ved Cornell Tech på Cornell University i New York og nu skal lede Pionercentret for Kunstig Intelligens i Danmark.

»Vi er på vej ud af æraen for datasæt-AI,« indleder han og tilføjer, at det er en æra, der har tjent feltet rigtig godt. Men nu er AI-miljøet blevet for knyttet til støvede bench­mark-datasæt, og hver gang state-of-the-art bliver rykket med en promille, har det kostet uanede mængder af ressourcer at komme dertil.

»I stedet for at hamstre data i datasæt og hamre imod dem, skal vi ændre vores perspektiv til en forståelse af, at data konstant flyder,« siger Serge Belongie og taler om et paradigmeskift fra datasæt-AI til Embodied AI.«

Læs også: Er pionercentre vejen til nobelpriser – eller en blindgyde?

Embodied AI er grundlæggende ideen om at lade AI-systemer lære gennem interaktioner med et miljø – enten fysisk, simuleret eller en hybrid mellem de to. Frem for at lære af statiske datasæt, møjsommeligt annoteret og sorteret i kategorier, kan en Embodied AI lære konstant gennem interaktion med omverdenen.

»Der er domæner, hvor vi har nok data og ekspertviden til at slå bolden ud af parken. Og selvfølgelig skal vi stadig gøre det,« siger Serge Belongie, men understreger, at det for nogle opgaver simpelthen ikke er realistisk, at et AI-system kan lære at løse dem med et snapshot af verden i et datasæt.

»Hvis du f.eks. vil tackle spredning af misinformation online, så er det ikke et felt, hvor du bare kan sige, at svaret er transformer eller deep learning. Det er et enormt komplekst landskab, og det involverer så mange menneskelige interessenter, at det ikke er noget, hvor du bare kan sige ‘brug metode XYZ’. Det er en levende organisme og et mål i konstant bevægelse.«

Fortabt i obskure hjørnetilfælde

Et af de ikoniske benchmarks til datasæt-AI, MNIST, blev i 1998 samlet af deep learning-pioneren Yann LeCun. Datasættet samler ­tusindvis af håndskrevne cifre, som skal sorteres i ti kategorier, og er i flere omgange blevet beskrevet som en slags ‘Hello world’-opgave inden for deep learning.

»Da jeg lavede min ph.d.-afhandling i slut 1990’ene, var det stadig et udfordrende datasæt,« fortæller Serge Belongie.

»Folk opdagede specifikke eksempler, som gav problemer – som et bestemt femtal og et bestemt tretal, der ofte blev byttet rundt. Og rigtig mange forskningsgrupper endte selvfølgelig med at overfitte på det datasæt.«

Og det er symptomatisk, mener han.

»Vi har som felt i nogle år været fokuseret på hjørnetilfælde – virkelig obskure og svære eksempler, som er artefakter af, at de her datasæt er så statiske.«

Alternativt kan man forestille sig en simulering med et embodied system, der kan flytte sig og få et lidt anderledes syn på objektet, der volder problemer. Eller vente på, at skyerne flytter sig, og lyset falder på en anden måde.

»Det er aspekter, som bare ikke dukker op i klassisk datasæt-AI,« siger Serge Belongie.

»Hvis du skal konkurrere på de gamle benchmarks, så har du virkelig ingen andre metoder end at hamre løs på det med mere og mere computerkraft. Jeg tror, at folk i fremtiden simpelthen skærer den gordiske knude og spørger, ­hvorfor vi har brugt så mange kræfter på ét eksempel, når vi kan bruge en tusindedel af den beregningskraft, hvis vi bare få et lidt anderledes vinkel på. På samme måde som, at du lægger hovedet på skrå, når du forsøger at løse et problem.«

For mange forskere er Embodied AI også vejen frem, hvis AI på sigt skal udvikle sig til en Artificial General Intelligence. For nylig kaldte datalogiprofessor Melanie Mitchell ideen om, at intelligens kan isoleres til hjernen, en af de store fejlslutninger i AI-feltet.

Forskere inden for kognitiv psykologi og neurovidenskab har længe fundet evidens for, at kognition er forbundet til kroppen, påpegede Melanie Mitchell.

Serge Belongie er enig i perspektivet:

»Det er ikke sikkert, at man kan få en moden forståelse af ­intelligens uden handling som en del af det loop. Det kan være, at du skal ­have sanser og evnen til at påvirke verden.«

Fra datasæt til miljøer

I fremtiden vil forskere holde op med at frigive datasæt som MNIST, mener Serge Belongie.

I stedet vil de frigive en kombina­tion af ægte og simulerede ­habitater eller miljøer. Den multiinstitutio­nelle indsats, der står bag f.eks. Image NEt vil blive til multiinstitu­tionelle partnerskaber for at skabe mere og mere realistiske læ­rings­miljøer.

»Du kan skabe fotorealistiske billeder af byer, tale med klimatologer for at lave simuleringer af vejret, lære om fodgængeres handlinger. Og så kulturelt gå mod et sted, hvor vi er stokastisk enige om, hvad der foregår i det miljø,« siger han.

Virksomheder som Facebook, ­Google, Unity og OpenAI har allerede frigivet forskellige simulationsmiljøer til træning af AI. Her hersker blandt andet teknikker som Deep Reinforcement Learning, der f.eks. har ladet DeepMind bygge AlphaStar, der har slået verdens bedste menneskelige spillere i StarCraft.

Serge Belongie vil ikke spå om, hvilke teknikker der bliver afgørende for Embodied AI. Men han forventer dog, at feltet bliver mindre afhængige af de komplekse black box-modeller, når først data bliver tilgængelige på en dynamisk måde.

»Så er det fuldt ud muligt, at algoritmer fra for ti år siden kan levere de resultater, du har brug for,« siger han.

15-binds leksikon – hvorfor?

Serge Belongie sammenligner skiftet væk fra datasæt-AI med, hvordan nogle generationer i dag måske har svært ved at forstå, at børnebørnene ikke ønsker at arve de antikke møbler og leksikonet i 15 bind. De unge ved, at de kan skaffe den information, hvis de får brug den, pointerer han.

Læs også: Teknologiens Mediehus går sammen med landets universiteter om ny, stor tech messe

Belongie selv går på ingen måde fri. Hans egen forskningsgruppe har bidraget med mange datasæt inden for vision-domænet fine grain visual categorization, som en del af projektet Visipedia, som samler data om dyr, planter, museumsgenstande, tøjstykker og mere.

»Jeg har arbejdet på Visipedia i omkring ti år, hvor de her deep ­ learning-tilgange har slået alle andre metoder af banen. Og det er fantastisk,« siger han, men tilføjer:

»I dag betyder diverse apps, som identificerer fugle eller planter, at der på et givent tidspunkt vil være en million brugere mobiliseret og online. Det betyder ikke, at du kan skrive til dem tilfældigt og bede dem om at tage et billede af en fugl for dig. Men pointen er, at der er et konstant flow af data, som kan fanges og bruges. Og det er en kæmpe mulighed.«

Det kulturelle skift vil for nogle være hårdt, bemærker AI-professoren.

»De studerende, der fanges i midten af overgangen, vil få det svært. De vil tage snapshots af simulering for at forsøge at gøre det til et data­sæt, for det er, hvad de er vant til. Men den nye generation vil forstå det. At verden konstant giver dem data.«

Mød Serge Belongie på Digital Tech Summit, der finder sted 30. november og 1. december 2021. Læs mere på digital-tech-summit.com