Nysgerrige maskiner lærer hurtigere

Ingeniører, der udvikler systemer baseret på kunstig intelligens og maskinlæring, har lært af psykologien at benytte belønningssystemer, når systemet skal oplæres.

AlphaGo fra Google Deepmind har eksempelvis lært sig at blive verdens bedste til det asiatiske brætspil Go ved hjælp af teknikken reinforcement learning (RL). Det er en metode, der tager udgangspunkt i behavioristisk psykologi, hvor den kunstige intelligens belønnes for at opnå en ønsket sluttilstand.

Læs også: Google melder Go for digital intuition

Men i mange situationer er det svært at opstille et belønnings­system baseret på et ønsket resultat. Det gælder for børn, der ikke aner, at de færdigheder, de lærer på lege­pladsen, kan have betydning for deres liv mange år senere.

Man opmuntrer dem næppe til leg og udforskning ved at henvise til sådanne langsigtede gevinster. Alligevel kan børn sagtens holde sig selv beskæftiget, fordi de besidder en egenskab, som nogle kalder intrinsisk motivation og andre blot nysgerrighed.

På samme måde kan et system baseret på kunstig intelligens i visse tilfælde lære alene ud fra nysgerrig­hed.

Men hvordan gør man det? Og hvilke fordele – eller ulemper – kan det give?

Det har en del forskergrupper set på gennem en årrække. Et af de mere interessante eksempler kommer fra en forskergruppe ved University of California, Berkeley.

Her har Deepak Pathak sammen med tre kolleger for nylig vist, hvordan et nysgerrigt program kan lære sig selv at spille det klassiske computerspil Super Mario Bros, der kom på markedet i 1985, og som stadig er et af de bedst sælgende computerspil nogensinde.

I spillet skal man styre karakteren Mario forbi en række forhindringer med simple tastekombinationer.

I datalogiens sprog skal man bringe systemet fra en tilstand s_t til tilstanden s_(t+1). Det sker generelt ved, at systemet trænes til at optimere summen af den intrinsiske motivation og den ekstrinsiske motivation, sidstnævnte vil i mange situationer være nul.

Den intrinsiske motivation genereres af et såkaldt Intrinsic Curiosity Module (ICM), som er nøglekomponenten i det nye system.

Under sin oplæring laver systemet først en matematisk analyse af det nuværende billede i spillet, og ud fra dette en forudsigelse af, hvad der vil ske i billederne længere fremme – overlever Mario, eller dør han?

Belønning for fejl

Det er en helt normal og almindelig procedure ved maskinlæring, men ICM tilfører noget afgørende nyt. Det giver en belønning til systemet, som er bestemt af, hvor forkert denne forudsigelse er.

Jo mere forkert forudsigelsen er – eller jo mere overrasket systemet bliver – desto højere er belønningen. På den måde belønnes systemet for at være nysgerrigt, og det kommer derved hurtigere til at udforske og lære noget, som ellers ville tage lang tid.

I takt med at systemet lærer mere og mere, dvs. at dets forudsigelser bliver mindre og mindre forkerte, bliver der skruet ned for belønningen fra ICM.

Deepak Pathaks artikel ‘Curiosity-­driven exploration by self-supervised prediction’ illustrerer på god vis fordelene ved nysgerrighed, men hans medforfatter, Pulkit Agrawal, advarer også om, at man ikke må falde i nysgerrighedsfælden.

Tag f.eks. et gammeldags billed­rørs-tv med ‘sne’ på skærmen i form af et støjsignal, hvor det gælder, at billedet på ét tidspunkt er helt ukorreleret med et billede på et andet tidspunkt.

Her vil det næste billede altid være maksimalt overraskende. Et system baseret på nysgerrighedsdreven læring kan derfor blive fanget stirrende på sådanne billeder i al uendelighed.

Nysgerrighed er godt, men det er ikke godt at være alt for nysgerrig. Heller ikke for kunstig intelligens.j

sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først

Det kræver meget lidt med div spil af regnekraft, selv GO som man påstår kræver menneskelig intuition er stadig lineær logik, selvom der er stor forgrening.

Det der imo kræver højest dygtighed af en AI er RTS (real time strategy games) hvor de fleste ting er subjektive, og ikke bare kan beregnes med matematiske formler.

  • 0
  • 0
Bidrag med din viden – log ind og deltag i debatten