AlphaGo beviser: Kunstig intelligens bliver bedre uden ekspertviden fra mennesker
more_vert
close

Få de daglige nyheder fra Version2 og Ingeniøren. Læs mere om nyhedsbrevene her.

close
Ved at tilmelde dig accepterer du vores Brugerbetingelser, og du accepterer, at Teknologiens Mediehus og IDA-gruppen lejlighedsvis kan kontakte dig om arrangementer, analyser, nyheder, job og tilbud m.m. via telefon og e-mail. I nyhedsbreve, e-mails fra Teknologiens Mediehus kan der forefindes markedsføring fra samarbejdspartnere.

AlphaGo beviser: Kunstig intelligens bliver bedre uden ekspertviden fra mennesker

Brætspillet Go har 10^170 mulige kombinationer. Den nye version af AlphaGo har lært sig selv spillet uden nogen som helst form for menneskelig hjælp og er nu indiskutabelt verdens bedste Go-spiller. Illustration: DeepMind

Forskere og ingeniører fra DeepMind i London, der er ejet af Googles moderselskab Alphabet, har udviklet et ny version af sin Go-spillende algoritme AlphaGo, der er markant bedre end sin forgængere.

DeepMinds administrerende direktør og grundlægger Demis Hassabis forklarer, at det langsigtede formål hos DeepMind ikke er at udvikle Go-algoritmer, men at opnå gennembrud inden for algoritmeudvikling til at tackle store problemer fra den 'rigtige verden' som foldning af proteiner, der er relevant for bioteknologi, og udvikling af nye materialer.

Go-spillet er uhyre velegnet til se, hvor langt man kan komme med kunstig intelligens, da spillet er meget kompliceret i forhold til andre brætspil som skak.

Den nye AlphaGo Zero har efter kort tids træning slået sin forgænger AlphaGo, der har vundet over de allerbedste menneskelige Go-spillere, med 100-0 i en match over 100 partier.

Begynd med en blank tavle

Hemmeligheden bag succesen for AlphaGo Zero er, at programmet begynder med det psykologerne kalder en blank tavle (Tabula Rasa) - heraf tilføjelsen ‘Zero’.

Det betyder, at AlphaGo Zero lærer sig selv at spille Go uden nogen som helst hjælp eller rådgivning om taktik eller strategi i spillet.

De tidligere versioner af AlphaGo er alle under deres læring blevet tilført viden om, hvordan de bedste menneskelige Go-spillere agerer i bestemte situationer og fodret med udfaldet af en lang række spillede partier mellem de bedste spillere.

AlphaGo benytter en ny form for reinforcement learning, hvor programmet bliver sin egen lærer.

I sit udgangspunkt har systemets neurale netværk ingen som helst viden om Go. Herefter spiller programmet mod sig selv ved at kombinere sit neurale netværk med en effektiv søgealgoritme. Under spillene justeres det neurale netværk og opdateres til at forudsige såvel træk som den endelige vinder af spillet.

I en artikel i Nature redegør David Silver fra DeepMind sammen med en lang række kolleger for, hvordan princippet er for programmet under og efter træning.

I modsætning til de tidligere versioner af AlphaGo har Zero kun et neuralt netværk i stedet for to, hvor et policy-netværk udvalgte det næste træk og et value-netværk forudsagde, hvem der ville blive den endelige vinder.

Ved at kombinere disse i et enkelt netværk kan AlphaGo Zero meget hurtigere lære sig at spille Go, forklarer DeepMind. Nøglen til det opnå dette er den nye reinforcement learning-algoritme.

Efter tre dages træning og spil af 4,9 millioner partier mod sig selv var AlphaGo Zero på samme niveau som AlphaGo Lee, efter den var trænet i månedsvis og spillet 30 millioner partier.

Det interne AlphaGo-mesterskab

Efter oplæringen deltog AlphaGo Zero i en intern konkurrence med tre andre Alpha Go-versioner: AlphaGo Fan der i 2015 besejrede europamesteren Fan Hui, AlphaGo Lee der sidste år vandt over topspilleren Lee Sedol, og AlphaGo Master der i år har besejret alle de stærkeste topspillere 60-0 i en række online-partier.

Både Alpha Go Zero og Alpha Go Master kører på en enkelt maskine med 4 tensor processorer (TPU), mens AlphaGo Fan og AlphaGo Lee kører på flere maskiner med sammenlagt henholdsvis 176 grafikprocessor og 48 tensor-processorer.

I matcher over 100 partier vandt AlphaGo Zero over AlphaGo Lee med 100-0 og 89-11 over AlphaGo Master. Hvert program havde fem sekunder til at beregne det næste træk.

Verdens bedste menneskelige Go-spiller har i dag en Elo-rating på 3664.

AlphaGo Lee ligger på 3739, AlphaGo Master på 4858 og AlphaGo Zero på imponerende 5185.

Mennesker er stadig overlegne på andre områder

Satinder Singh fra University of Michigan fremhæver i en kommentar i Nature, at det nu er vist, at kunstig intelligens baseret på reinforcement learning kan præstere bedre end systemer, der udelukkende er baseret på menneskelig ekspertise.

Han understreger dog, at AlphaGo Zero som alle andre af de mest imponerende eksempler på kunstig intelligens, vi har set, er meget begrænset i det, den ved og kan gøre i sammenligning med mennesker og dyr for den sags skyld.

Singh tilføjer, at AlphaGo Zero uden tvivl vil kunne bruges af de bedste Go-spillere til at forbedre deres spil og i det hele taget opnå bedre indsigt i spillet, foruden princippet sikkert kan finde nytte inden for andre områder, som forskerne fra DeepMind peger på.

Se og hør DeepMinds egen forklaring

I denne to-minutters video produceret DeepMind fortæller David Silver om AlphaGo Zero og perspektiverne om at benytte samme princip til at tackle interessante videnskabelige problemer inden for andre områder.

sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først

Jeg har ikke adgang til Nature, og kan derfor ikke se om mit spørgsmål er besvaret.
Spørgsmål: hvordan kan en AI vurdere hvad der er den bedste løsning uden en kriterie-funktion ?
Eksempel: alle (bræt-)spil har indbygget et vinderkriterie. OK.
Men, uden kriterie-funktion, hvordan afgøres det så om eet spil, eet forløb, er bedre end et andet ? Antag, naturligvis, at spillene vindes, men er 27 træk bedre end 21, eller er 713 lige så godt ? Og nogen spil kan vel resulterer i "uafgjort" ?

Er der en forklaring jeg har overset ?

  • 2
  • 0

Jeg har ikke adgang til Nature, og kan derfor ikke se om mit spørgsmål er besvaret.

Gode spørgsmål Jan, som det nok vil tage mig et stykke tid at finde det bedste svar på - og du har jo også givet mig et par ekstraopgaver i forbindelse med GW170817 (neutronstjernesammenstødet)! Og lige nu ser jeg på nyt om molekylær evolution, som der måske kommer en lille artikel ud af.

Egentligt vil jeg også gerne se mere på på tensorprocessorerne, og hvordan de adskiller sig fra grafikprocessorerne. Det aner jeg ikke noget som helst om endnu. Er det noget, vi eller vores venner på Version 2 nogensinde har skrevet om?

Jeg kan dog oplyse dig og andre interesserede, at hos DeepMind kan man nederst på denne side

https://deepmind.com/blog/alphago-zero-lea...

finde et link til artiklen under Read the paper.

Hvem kommer først med den ønskede forklaring? Der må da sidde nogle læsere, der har god tid her i efterårsferien.

  • 3
  • 0

Det er vel ikke oplagt at de kan få systemet til at virke godt i andre sammenhænge, som jo er det målet er. Måske kommer det ikke videre, ligesom med Deep Blue der slog Kasparov, og vi venter stadig på et gennembrud med IBM's Watson der vandt Jeopardy!

  • 1
  • 0

Det er lineært intelligens som computere kan beregne sig frem til, jeg vil blive mere imponeret hvis de lavede en AI der kunne slå RTS (real time strategi) spillere, der kræver meget højere analyse end rå beregninger.

  • 1
  • 2

Jeg er til gengæld meget imponeret. Dette er et nyt gennembrud. Af historiske dimensioner. Maskin intelligens og neurale net har udviklet sig stille og roligt gennem de sidste 30 år, sammen med hardware performance. Først skak, siden jeopardy og sidst go. Alle isolerede, højt specialiserede og domænespecifikke. Dennegang er go bare et tilfældig valgt pædagogisk eksempel. Det er, hvis man tager dette for pålydende, intelligens i så rendyrket form, at den kan overføres til et utal af andre domæner, hvor indlæring og intelligens spiller en rolle.

  • 2
  • 0

Det er netop IKKE lineært, da antallet af forskellige træk er så stort, at det ville (med nuværende hardware) ufatteligt lang tid at beregne dem alle. Computeren bliver derfor nødt til at lære en andre metoder at arbejde sig frem på, deraf via AI.

Faktisk er er IBM's eller Google's næste mission at vinde over mennesker i Starcraft som netop er et RTS. spil.

  • 1
  • 0

hvordan kan en AI vurdere hvad der er den bedste løsning uden en kriterie-funktion ?


Det kan den ikke, som minimum må sådan en AI have spillets regler forhåndsprogrammeret, inklusiv vinderkriteriet. Som regel har man også skrevet en række andre regler til at evaluere stillingen, som så kan suppleres med træning, men de regler er tilsyneladende helt udeladt i denne omgang, i stedet genererer systemet selv sådan et sæt regler når det træner.

  • 0
  • 0

Spørgsmål: hvordan kan en AI vurdere hvad der er den bedste løsning uden en kriterie-funktion ?

Ja, der skal normalt være et eller andet at træne ud fra, på den ene eller den anden måde.

Der står lidt om det her:

https://en.wikipedia.org/wiki/Reinforcemen...

Eksempel: alle (bræt-)spil har indbygget et vinderkriterie. OK.
Men, uden kriterie-funktion, hvordan afgøres det så om eet spil, eet forløb, er bedre end et andet ? Antag, naturligvis, at spillene vindes, men er 27 træk bedre end 21, eller er 713 lige så godt ? Og nogen spil kan vel resulterer i "uafgjort" ?

Som jeg læser artiklen, så ligger det implicit i søgealgoritmen, at de tager det træk der ser ud til at være stærkest til at føre til en sejr. Det vil vel sjældent i den her slags spil være et afventende træk.

Hvis man nu forestillede sig et mere virkelighedsnært eksempel som at køre bil, så er målet vel normalt at komme så hurtigt frem som muligt, under hensyntagen til komfort og sikkerhed.

Anyway, resultatet her virker betydeligt mere interessant end det tidligere resultat (for en der ikke interesserer sig for Go).

Vil dog påpege at en forudsætning her har været at der foreligger en simulering som kan overføres til virkeligheden som programmet har kunnet gentage om og om igen, og dermed træne sig selv.

  • 0
  • 0

Antag, naturligvis, at spillene vindes, men er 27 træk bedre end 21, eller er 713 lige så godt ?

Forsimplet: Vinderen overlever og taberen dør. To versioner af vinderen prøver noget nyt og spiller mod hinanden. Processen gentages. "Systemet" finder selv ud af hvad der er bedst (long term reward).

Lidt godnatlæsning:
http://incompleteideas.net/sutton/book/boo...

Eller søg efter Richard Sutton 2017 på youtube. Hans foredrag er fremragende og underholdende.

  • 0
  • 0

Mange tak til Peter Juul Noer for virkeligt gode referencer.
Den foreslåede "godnatlæsning" er på 538 sider. Bemærk, at der på side 14, nederste 13 linier, er et forslag til forkortet læsning for andre end "natteravne".

Jeg hæfter mig indledningsvis ved en bemærkning på side 9:
".... the simplest of the ideas, which had long been taken for granted, had received surprisingly little attention from a computational perspective. This was simply the idea of a learning system that wants
something, that adapts its behavior in order to maximize a special signal from its environment."
som egentlig bekræfter mit oprindelige spørgsmål, idet "spillereglerne" for de kendte spil kræver eet yderligere kriterie (kriterie-funktion i tillæg til spillets regler): "få træk er bedre end mange" eller "en hurtig sejr er bedre end en sen sejr".
Derfor er den omtalte clean slate / Tabula Rasa - kun med spillets regler - utilstrækkelig.

Det nævnte "special signal from its environment" - e.g. minimalt antal træk / tid - er netop den nødvendige kriterie-funktion, som skal tilføjes til Tabula Rasa sammen med reglerne. Og så vil AI kunne løse problemet / overvinde modstanderne.

  • 0
  • 0

Derfor er den omtalte clean slate / Tabula Rasa - kun med spillets regler - utilstrækkelig.

Da spillet slutter når der er en vinder, vil det automatisk medføre at det er godt at vinde hurtigt. De langsomme dør inden de når at få afkom.

De hurtige har endda den fordel at de kan lave flere generationer (og derfor spille flere spil) per realtidsenhed.

(Indlæringsalgoritmerne er nok ikke helt så simple som beskrevet ovenfor, da et sådan system vil have stor risiko for at overspecialisere sig.)

God weekend.

  • 0
  • 0

@Peter Juul Noer
Ingen tvivl om, at du er meget vidende om emnet, og igen tak for referencerne, men du skriver:
Da spillet slutter når der er en vinder, vil det automatisk medføre at det er godt at vinde hurtigt. De langsomme dør inden de når at få afkom.

Jeg kan ikke forstå hvoraf du udleder "hurtigt" - altså lige bortset fra, hvis det ligger eksplicit eller implicit i den "kriterie-funktion" som jeg har omtalt - og mangler i fremstillingen. Derimod "vinde" er en del af spillets regler - uden tvivl.

Jeg har det helt perfekt med "hurtigst er bedst", men det indgik bare ikke i artiklens omtale af "spillets regler".

  • 0
  • 0
Bidrag med din viden – log ind og deltag i debatten