Gennembrud inden for digital intuition: Google-program slår europamesteren i brætspillet Go

Med helt nye metoder inden for kunstig intelligens har Google udviklet et program med en form for digital intuition, der for første gang kan vinde over professionelle spillere i Go, verdens mest komplicerede brætspil.

I Go kæmper to spillere om at omringe modstanderens sten. I dette berømte parti fra 1846 mellem den kun 17 år gamle Shusaku og den næsten 50-årige Gennan Inseki kom Shusaku som sort dårligt fra start, men spillede derefter bedre. Efter Gennan havde placeret den hvide sten med den røde cirkel, placerede Shusaka den sorte sten med tallet 1. De fleste af Gennans elever, der så spillet, var overbeviste om, at Gennan stod bedst og ville vinde. Men en læge var sikker på, at Gennan ville tabe. Da han blev spurgt hvorfor, svarede han: »Jeg kender ikke meget til spillet, men da Shusaku placerede sin sten, blev Gennans ører røde. Det er et tegn på, han er bekymret.« Og ganske rigtigt: Shusaku vandt med to point efter 325 træk. Den sorte sten nr. 1 var helt afgørende for både forsvar og angreb. Spillet kendes nu som som ørerødmen-spillet.

For første gang har et computerprogram vundet over en professionel Go-spiller i en match over fem partier med de klare cifre 5-0.

Det vil have dramatisk betydning for vores fremtidige relationer til maskiner, skriver det videnskabelige tidsskrift Nature i en leder og en kommentar til den forskningsartikel fra Google DeepMind, der præsenterer det nye program kaldet AlphaGo.

Når maskiner i fremtiden som AlphaGo udstyres med en form for digital intuition, kan vi aldrig tjekke, om maskinen har regnet rigtigt.

'Vi kommer til at erstatte tillid med tiltro', skiver Nature.

Lige siden IBM's Deep Blue i 1997 slog den regerende verdensmester i skak, Gary Kasparov, med cifrene 3½-2½ i en match over seks partier, har forskere inden for kunstig intelligens kastet deres øjne på andre brætspil, som er endnu sværere at mestre.

I 2010 vandt et japansk program over en af verdens bedste kvindelige shogi-spillere, Ichiyo Shimizu. Shogi er et japansk spil, der minder om skak, men som har langt flere kombinationsmuligheder.

Læs også: Første computersejr over menneske i japansk skak

Den helt store udfordring har dog altid været at udvikle et program, der kan vinde over de bedste spillere i det næsten tre tusinde år gamle kinesiske brætspil, der i Vesten kendes som Go.

Match om én million dollars til marts

For to år siden købte Google det mindre britiske firma DeepMind, der arbejder med kunstig intelligens.

Læs også: Google køber robotfirma med speciale i kunstig intelligens

Resultatet af tredje parti i matchen. Fan Hui (sort) opgav mod AlphaGo (hvid).

Det er Google DeepMind, der har udviklet programmet AlphaGo, som vandt matchen mod den regerende europamester i Go, Fan Hui.

Hajin Lee, der er generalsekretær for den International Go Federation, forklarer, at det klart var hans indtryk, at AlphaGo var stærkere end Fan Hui, men ikke tydeligt hvor meget stærkere.

»Jeg tvivler stadig på, at programmet er stærkt nok til at spille mod verdens allerbedste professionelle, men måske bliver det stærkere, når det møder en stærkere modstander,« forklarer han i en pressemeddelelse fra British Go Association.

Det bliver afgjort til marts, når AlphaGo skal møde en verdens mest allerbedste Go-spillere nogensinde, Lee Sedol fra Korea, i en match om én million dollars. Lee Sedol er optimist:

»Jeg har hørt, at AlphaGo er overraskende stærk og bliver bedre og bedre, men jeg er overbevist om, at jeg i det mindste vil vinde denne gang.«

Skulle AlphaGo vinde, vil pengene gå til velgørenhed.

Fan Hui forklarer til Nature, at hvis han ikke vidste bedre, ville han ikke kunne have skelnet AlphaGo fra en menneskelig modstander, selv om programmet nogle gange opførte sig lidt underligt.

Matchens dommer, Toby Manning, er af den mening, at programmet synes at have en konservativ frem for en aggressiv spillestil.

Alt for mange beregninger

Når Go er vanskeligere for en maskine at håndtere end skak, skyldes det, at der er mange flere kombinationsmuligheder, og at alle brikker er lige meget værd.

Det vil derfor være helt uoverkommeligt at bruge brute force-metoder udelukkende baseret på dybere og dybere beregninger.

Man er nødt til at kun at gennemregne et begrænset antal muligheder. Der sker i AlphaGo med et value-netværk og et policy-netværk.

AlphaGo indeholder to hovedelementer. Et value-netværk, der bruges til at evaluere positioner på brættet, og et policy-netværk, som udvælger træk. Baseret på data fra tidligere spil og menneskelige ekspertvurderinger lærer AlphaGo selv at spille Go. Det gennemfører derefter en række spil mod sig selv for at blive bedre. Til højre vises meget skematisk, at policy-netværket og value-netværket er opbygget af mange lag.

I den videnskabelige artikel i Nature forklarer forskerne, at AlphaGo i sine partier mod Fan Hui analyserede tusindvis færre positioner, end Deep Blue gjorde mod Kasparov i 1997.

Til gengæld udvælger AlphaGo muligheder på en smartere måde med sit policy-netværk og evaluerer dem mere nøjagtigt med sit value-netværk.

I denne video forklarer forskere mere herom.

Behandling af store datamængder og avanceret søgning er naturligvis en nøglekompetence for Google at besidde, så forskerne har stor tro til, at deres teknikker kan finde anvendelse på en lang række mere relevante problemer end at spille Go. De peger selv på klimamodeller og lægevidenskab, hvor denne form for digital intuition kan bruges.

På mange måder kan anvendelsesmulighederne for AlphaGo-varianter sammenlignes med IBM’s Watson-computer, der også kan søge intelligent i store datamængder.

Google og IBM er naturligvis ikke alene på dette forskningsfelt. Facebook udvikler eksempelvis også et program, der kan spille Go, men det er dog ifølge den seneste artikel endnu ikke på omgangshøjde med AlphaGo.

Kommentarer (4)

Når man ser videoen, virker det til at de opererer med to intuitioner, en til at vurdere hvad der er et gunstigt træk, og en til at vurdere hvem der har bedst mulighed for at vinde givet en bestemt konfiguration af spillet. Og så kombinerer de det med en almindelig optimeringsalgoritme. Hver intuition er et almindeligt neuralt netværk af den dybe slags.

Så bestemt interessant, men ikke umiddelbart generaliserbart til andre problemområder. Det mest interessante er måske at et neuralt netværk tæver mere brute force-betonede metoder.

  • 0
  • 0

Så bestemt interessant, men ikke umiddelbart generaliserbart til andre problemområder.

Fra Nature artiklen:

But AlphaGo was not preprogrammed to play Go: rather, it learned using a general-purpose algorithm that allowed it to interpret the game’s patterns, in a similar way to how a DeepMind program learned to play 49 different arcade games.

Det lyder bestemt generaliserbart.

http://www.nature.com/news/google-ai-algor...

  • 1
  • 0

Beklager, jeg sad på en tablet sent i går aftes, så fik måske ikke formuleret mig skarpt nok, især min overskrift pegede nok i den forkerte retning. Min kommentar var møntet på at få det her anbragt i den rigtige kasse.

Det nyskabende, som jeg opfatter det, er at de sætter nogle dybe neurale netværk sammen med mere almindelige planlægnings-/optimeringsalgoritmer på en måde så de kan komme med de rigtige træningssæt/præprocesserede data, og så faktisk opnå et forbløffende godt resultat.

Det er ikke de neurale netværk der i sig selv bestemmer hvad der skal ske - de bliver brugt som en form for orakler eller intuitioner til at guide og evaluere søgningen. Det er vældig snedigt.

Det lyder bestemt generaliserbart.

Tror det er en farlig slutning. Der er ikke noget nyt i at dybe neurale netværk kan lære bestemte ting forbløffende godt; problemet er altid at få det problem de skal løse skåret til på den rigtige måde.

  • 1
  • 0