Få de daglige nyheder fra Version2 og Ingeniøren. Læs mere om nyhedsbrevene her.

close
Ved at tilmelde dig accepterer du vores Brugerbetingelser, og du accepterer, at Teknologiens Mediehus og IDA-gruppen lejlighedsvis kan kontakte dig om arrangementer, analyser, nyheder, job og tilbud m.m. via telefon og e-mail. I nyhedsbreve, e-mails fra Teknologiens Mediehus kan der forefindes markedsføring fra samarbejdspartnere.
teknopsykologens briks bloghoved

At puste liv i maskiner

Kender I Pepper?

En lille vaks humanoid robot, der er udviklet til indgå i relation med mennesker. Eller nærmere;

»to connect with them [humans], assist them, and share knowledge with them – while helping your business in the process. Friendly and engaging, Pepper creates unique experiences and forms real relationships.« (Softbank).

Derudover beskrives Pepper som udadvendt og charmerende, og som én der byder folk velkommen og knytter venskaber.

Dét lyder da som en medarbejder, man godt kunne tænke sig at have med på holdet. Ellers måske endda som en ny ven?

I denne blogpost skal vi kigge nærmere på, hvad der gør interaktioner mekaniske eller menneskelige (uanset om man kommunikerer med mennesker eller maskiner).

Vi skal omkring hvad der gør deep learning ’deep’, og indkredse hvorfor denne form er mere eller mindre intelligent end andre former for neurale netværksarkitekturer.

Endelig skal vi se nærmere på, hvorfor det er godt at være en anelse forudsigelig - trods selvhjælpslitteraturens romantiske prædiken om konstant fornyelse og eventyr.

Først tilbage til Pepper.


Kommercielt set er Pepper én af de mest udbredte eksempler på en humanoid kunstig intelligens, der blandt andet er skabt til at kunne lære via deep learning og oparbejde basale menneskelige egenskaber såsom small-talk. 



Og det er netop forudsætningerne for at mestre discipliner som small-talk og almen menneskelig interaktion vi starter med her.

Illustration: Alex Knight

For os mennesker er netop small-talk let og endda trivielt, men faktisk er det ikke så let endda. I hvert fald ikke let at lære for andre end mennesker. 



Small-talk set som en egenskab hænger nøje sammen med, hvad jeg har beskrevet i mine foregående blogs Fra naturlig til kunstig intelligens og Bamse er en bamse er en bamse er en bamse - nemlig at have evnen til at opbygge tillid til andre mennesker og mestre at kunne sætte sig ind i deres mentale tilstand (at kunne mentalisere). Lad os se nærmere på sammenhængen.


Kender I Rain Man?

Filmen hvor Dustin Hofmann spiller Raymond; en mand der er genial til lynhurtig og næsten maskinel kategorisering (og som gør sin skrupelløst grådige lillebror spillet af Tom Cruise himmelhenrykt på en tur til Las Vegas), men som også tydeligvis har svært ved egenskaber såsom small-talk. Raymond er et - måske lidt stereotypt - eksempel på en person der mangler evnen til at mentalisere. Her på grund af diagnosen autisme. 



I har sikkert mødt mennesker, som I har oplevet som underlige eller næsten mangelfulde i den sociale kontakt og måske selv beskrevet jeres interaktion som 'mekanisk'. På sammen måde fremhæver jeg her hvordan maskiner, der synes at begå sig godt i den sociale kontakt, kan betragtes som ‘menneskelige’. Det går altså begge veje.



Men hov! Er det rimeligt at sammenligne en person med autisme med en maskine??



Når det gælder netop dette princip; manglende mentaliseringsevne og fantastisk kategoriseringsevne; så ja. (På alle øvrige punkter er det indlysende meningsløst at drage paralleller mellem autisme og KI).



Manglende evne til at mentalisere skal ikke kun tilskrives udviklingsforstyrrelser som autisme, men i lige så høj grad hvad jeg har beskrevet i foregående blogs - en usikker tilknytning mellem barn (KI!) og forældre (programmører!!) og deraf manglende tillid til egne oplevelser og evner samt til andre mennesker. 



Så der skal altså puttes noget mentaliseringsevne og en god portion tillid i robotten, førend vi mennesker føler os bekvemme i en small-talk med den.



Hvordan KI-udviklere løser denne opgave skal vi kigge nærmere på her, men først skal vi lige have styr på begreberne og tage;


En ‘lille snak' om deep learning

De matematiske modeller og arkitekturen bag deep learning er bygget med inspiration fra et biologisk nervesystem med neuroner samlet i netværk. Når man henter inspiration her, er det fordi man går ud fra, at det er på den måde den naturlige intelligens - vi mennesker og andre biologiske organismer for den sags skyld - lærer på. (Mathworks).



Deep learning er en underkategori af hele machine learning, hvor klassificering overordnet set sker ud fra manuelt udvalgte informationer fra en specifik kilde såsom et billede (fx en bil). I deep learning derimod går man skridtet videre og lærer det kunstige neurale netværk at klassificere direkte og automatisk ud fra rå-data såsom billeder (en mikrodel af et hjørne af en bilrude) , tekst (fx streger i bogstavet B) eller lyd (fx toner i et dyt).



Når læringen betegnes som ’deep’ skyldes det, at der i netværksarkitekturen opereres med et stort antal lag, modsat ved machine learning hvor der kun er to-tre lag. Et indgangs-lag (input layer) leder videre til en lang række skjulte lag (hidden layers), som munder ud i et udfalds-lag (output layer). Lagene er forbundet med hinanden via noder a la neuroner.



De mange non-lineære bearbejdende lag betyder at netværket har stor evne til at bearbejde meget data. Hermed kan der tages højde for ekstreme mængder informationer og i sidste ende leveres nøje udregnede - intelligente - konklusioner. 



På det fundament programmeres software- eller hardwarerobotter til at kunne bearbejde store mængder data og autonomt komme op med nye, ikke-menneskeskabte outputs. Det autonome og kreerende element er nøglen til at vi giver det titlen ‘intelligent’. 



Illustration: BabsonX course ‘AI for Leaders’

KI baseret på deep learning kommer efterhånden i mange former, materialer og skikkelser. 



Vi er blevet så vant til de daglige målrettede reklameannoncer på vores skærm, at vi nok ikke længere studser over dem, skønt vores interesser og adfærd i den grad præges deraf. Og vi interagerer automatisk med vore digitale assistenter fra for eksempel Google, Amazon, Microsoft og Apple i vore daglige færden. Derudover har vi tidligere hørt om KIs imponerende skræmmende præstationer hvad angår brætspil som skak, Go samt Jeopardy. 



Men KI bidrager med meget mere, og for os almindelige mennesker meget mere relevant, end at spille spil. Det er ved hjælp af deep learning at computere på intelligent vis kan skabe og klassificere mønstre i enorme mængder data i form af billeder, tale og skrift, hvorved vi bliver markant bedre til for eksempel sygdomsdiagnosticering og forudsigelse af klimaændringer.



Forudsigelser om fremtiden på baggrund af viden om fortiden. Deri består det intelligente. Blandt andet. Dette princip skal også i brug når det drejer sig om interaktionen med mennesker, for her gælder det også om at kunne forudsige vores handlinger, ønsker og behov.



Let’s talk about… small-talk

KI KI baseret på en deep learning arkitektur kunne i princippet lige så godt stå i en kasse inde i baglokalet af butikken og tygge på algoritmer og data i fred og ro, mens medarbejderne sad ud foran og bød folk velkommen og præsenterede deres bud på løsninger - ud fra KIs output.



Men kunderne - vi mennesker - vil jo ofte gerne have en vis tryghed, når vi investerer os selv og ikke mindst vore penge i et produkt. Derfor giver det også mening, når producenten af Pepper forsøger at sætte et ansigt på sin KI - at skabe et menneskelignende væsen, som vi mennesker formodes at kunne relatere til.



Og som vi har været omkring i foregående blog Bamse er en bamse er en bamse er en bamse, så behøver vi mennesker noget så basalt og dog komplekst som tillid for at ville indgå i en relation til en anden - også når det gælder small-talk. 



For med tillid kommer evnen til at kunne sætte sig i andres sted og forstå deres behov og ønsker - at kunne mentalisere.

Så hvordan får vi tillid til en robot?

Gennemgående er autonome humanoide eller dyrelignende robotter bygget op omkring en kunstig kognitiv arkitektur, der tager udgangspunkt i hvordan mentale tilstande (det vil sige følelser) kommer til udtryk kropsligt og adfærdsmæssigt. 



Ansigtsudtryk, stemmeføring, gestikulation, tale og så videre er alt sammen signaler til os om, hvordan vores kommunikationspartners mentale tilstand er. Programmeres robotten til at kunne opfange og tolke disse udtryk, kan den også reagere passende på det menneske den kommunikerer med. (Cangelosi og Schlesinger, 2018) 



Lad mig prøve at skitsere, hvordan forskere gør interessante forsøg på at puste liv i den humanoide Pepper-robot i en sådan grad, at vi bliver trygge nok til at etablere en relation til den.



En gruppe forskere satte sig for at undersøge dette, men de startede ved at vende spørgsmålet på hovedet:

Hvordan får en robot tillid til os?

Ved at bygge en kunstig kognitiv arkitektur i den humanoide robot Pepper kunne forskerne få Pepper til at simulere henholdsvis tillid, mentaliseringsevne og episodisk hukommelse. (Vinanzi et al, 2018). 



Pepper brugte her sine erfaringer (episodisk hukommelse) med mennesker (fra en laboratorie-øvelse hvor et menneske optrådte enten ærligt eller uærligt over for Pepper) til at bygge en model a la et neuralt netværk for menneskers adfærd. Ved hjælp af denne model kunne Pepper nu simulere at forstå og reagere på menneskers adfærd (mentaliseringsevne) og derved udvise enten tillid eller mistillid. 


Illustration: Daniel Cheung

Som med mennesker viste der sig hurtigt en kausal sammenhæng mellem Peppers evne til at udvise og indgyde tillid og dens evne til at forstå menneskers mentale tilstand.

Social perspektivtagning

På DTU Compute arbejder professor Thomas Bolander og hans team i disse dage også på at gøre en Pepper-robot socialt agil.

Bolanders mål er at skabe en robot, som evner at tage sin samtalepartners perspektiv på den aktuelle situation og altså udvise mentaliseringsevne. (Pepper på DTU)

For at Pepper kan få evnen til social perspektivtagning, er den programmeret med en række komponenter;

  • Ansigtsgenkendelse ved hjælp af kamerasensor.

  • Registrering af bevægelser ved hjælp af kamera- og dybde-sensor.

  • Tekst-til-tale og tale-til-tekst moduler, så den selv kan tale og høre via højtalere og mikrofoner.

  • Perspektivtagnings-modul, som bygger på de foregående komponenter og på DTUs eget software-modul til logisk ræsonnering.

Det sidste modul er særdeles relevant for os, idet det har til formål at give robotten social intelligens i form af evne til perspektivtagning og til logisk ræsonnering. Her registreres og bearbejdes tre forskellige typer af handling i en såkaldt false-belief-task, som Pepper observerer på sidelinien;

  • 1. Person A placerer en ting på et specifikt sted, mens person B ser til og altså har kendskab til hvor tingen er placeret.

  • 2. Person B fjerner nu sit fokus fra tingen (han skal på arbejde…)

  • 3. I person Bs fravær flytter person a nu tingen til et nyt sted, som person B altså ikke kender til.

Kardinalpunktet er nu om Pepper kan forudsige hvor person B vil lede efter tingen, når han kommer hjem fra arbejde.

Herunder ser I øvelsen false-belief-task, som den oprindeligt blev illustreret af forskerne Baron-Cohen, Leslie og Frith i 1985.

Illustration: Baron-Cohen, Leslie og Frith

Peppers profeti

Det korrekte svar for os mennesker er naturligvis, at person B vil lede det sted, hvor han i første omgang så at tingen blev lagt, idet person B jo ikke er bekendt med tingens nye placering. Det ved vi - og måske Pepper - der har observeret seancen. 



Hvis Pepper har mentaliseringsevne, så vil Pepper forudsige, at person B vil lede efter tingen det første sted, idet Pepper har en forståelse for, at person B’s antagelse om virkeligheden (hvor tingen er lagt) er anderledes end den faktiske virkelighed. 



Har Pepper derimod ikke mentaliseringsevne og altså ikke formår at tage højde for person B’s perspektiv på situationen, vil Peppers forudsigelse være fejlagtig og lyde på, at person B vil lede det sted, hvor tingen faktisk ligger. 



Hvordan Pepper og Bolander fra DTU Compute kommer i hus med denne opgave, vil jeg præsentere i min næste blog, hvor jeg har talt med Bolander om hans forskning og forudsigelse af hvor de humanoide robotter er på vej hen.



Tillid kommer med forudsigelighed

Det er ingen nyhed, at vi er vanedyr og gerne holder os til den daglige trommerum med morgenritualer, onsdagsbadminton og den samme let klemte madpakke på jobbet. Men det er der faktisk en god - og sund - grund til. 



Forudsigelighed gør os trygge og i stand til at fokusere på vore opgaver og overskue alle de mange ubekendte faktorer, der ufravigeligt også rammer os i løbet af en dag; i trafikken, på jobbet, i Netto, med strømmen der pludselig går og så videre. 



Når vi skal have tillid og give os hen i en relation, skal denne også være præget af en vis grad forudsigelighed. Ikke at det ligefrem skal være kedeligt, men vi vil gerne have vished om, at den anden person i vid omgang agerer som vi forventer - og at hun ikke overraskes for meget over vores ageren. 



Som med andre mennesker så humanoide robotter; de(n) skal kunne se situationen fra vores perspektiv og hurtig fange vore pointer selv når det blot gælder en hyggelig small-talk eller vores behov for hjælp, hvis vi er faret vild på hospitalsgangene.

Lad os se hvad professor Bolander har at sige om state of the art på udviklingen af en algoritme for mentaliseringsevne i Pepper. 

Tak for interessen. Hav en god dag. Julie-Astrid

Julie-Astrid har en baggrund som militærpsykolog og udvikler af disciplinen Teknopsykologi. Her på ING.dk blogger hun om de psykologiske mekanismer, der ligger til grund for udvikling af kunstig intelligens og behandler problemstillinger, der opstår når mennesker skaber maskiner i deres eget billede - og når maskiner skaber mennesker i deres. Med Teknopsykologi behandler Julie-Astrid feltet hvor psykologien og den intelligente teknologi tørner sammen, og hun diskuterer hvordan de gensidigt påvirker hinanden i en smuk men kompleks dynamik.
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
  • ville det være rart med en ordliste.
    I vores moderne tid burde det være hot-links i teksten. Måske ikke i bloggen, men så i et separat, linket, dokument.

Markeringerne i teksten ville yderligere fremhæve ordkombinationer som er specifikke begreber - e.g. "social intelligens" eller "kunstig kognitiv arkitektur".

Som fagperson er det en faglig kvalitetsfaktor at være opmærksom på, at andre - både indenfor og udenfor den primære målgruppe - ikke nødvendigvis dels opfatter begrebtne, dels opfatter begreberne stringent.
Da det er dræbende at indlede med en ordforklaring er hotlinks en teknologisk løsning.

Ellers spændende ....
Analogt er det også spændende hvorfor nogle svar (fagpersoner, sælgere, politikere, et al) kan virke SÅ provokerende fordi de er intetsigende, medløbende, ufarlige. Måske manglende social intelligens ? Eller tillært non-konfrontatorisk adfærd ?

  • 3
  • 0

Analogt er det også spændende hvorfor nogle svar (fagpersoner, sælgere, politikere, et al) kan virke SÅ provokerende fordi de er intetsigende, medløbende, ufarlige.


Der findes noget useriöst NLP-flim-flam hvor deltagerne lärer at 'reflektere' eller 'skygge' den person man önsker at manipulere for, som det postuleres af sälgerne af kurserne, at indgyde en fölelse af sympati hos modstanderen og få dem til at 'sänke paraderne' så man kan sälge dem en masse bras - med en ekstraforsikring oveni.

Problemet er at pengene for disse kurser nok er spildt.

De fleste normale mennesker gider ikke at höre hvad de selv mener, det ved de allerede bedst i forvejen. De forventer en form for engagement i situationen fra modparten, de vil höre hvad den anden faktisk mener, noget de ikke selv ved i forvejen.

Det virker ret hurtigt dovent, lögnagtigt, arrogant og overfladisk at 'den anden' på en eller anden måde altid 'mener/gör totalt det samme'. Hvis man ikke möder noget mere end 'sig selv' reflekteret tilbage, så er konversationen meningslös og tidspilde - d.v.s. at personen man möder udviser en synlig mangel på respekt og indsigt. Naturligvis bliver man harm over dette, så 'effekten' bliver präcist modsat den tiltänkte.

  • 0
  • 0
Bidrag med din viden – log ind og deltag i debatten