Et af livets små mirakler er, når et menneskebarn opdager, at det kan gribe fat i noget, det får øje på. Det sker normalt allerede inden for tre-fire måneder efter fødslen, og inden længe er der så meget styr på fingrene, at tommel- og pegefinger i en fint koordineret bevægelse kan samle en lille brødkrumme op og føre hånden op til munden.
Nu har amerikanske forskere hos Google lært robotter at samle ting op fra en kasse blot ved at se på objekterne. I industrien kaldes det for binpicking, og den slags systemer har eksisteret i en årrække. I Danmark har virksomheden Scape Technologies specialiseret sig i dette område og leverer systemer, som kan sættes på robotarme.
Men de systemer, som Scape Technologies arbejder med, tager udgangspunkt i et nøjagtigt digitalt 3D-billede af objekterne i kassen. Herefter udregnes en bane for robotarmen og en vinkel for griberen, der resulterer i, at den kan få fat i objektet på den rigtige måde.
Hos Google er man gået en helt anden vej. I stedet for avanceret visionudstyr bruges et simpelt monokamera. Robotten bliver så sat til at 'prøve sig frem'. Med andre ord må den selv lære, hvordan den får fat i objektet – lidt ligesom et lille barn.
Deep learning er nøglen
Bagved robotten og kameraet ligger der dog en algoritme og et dybt neuralt netværk af typen CNN. I netværket bliver det hele tiden vurderet, hvor tæt robotten er på at få fat i objektet. For hvert forsøg ændres parametrene i netværket en anelse, så det næste gang går lidt bedre.
Forskerne brugte over en tomåneders periode mellem 6 og 14 robotter i døgndrift. De var sat op med hver deres kamera og i lidt forskellig belysning. Og så var det ellers bare at gå i gang med at gribe.
Og der skulle mange forsøg til. Først efter cirka 800.000 forsøg er robotterne blevet så sikre, at forskerne tør kalde det for øje-hånd-koordination:
»Vi arbejder stadig på at afgøre, hvor meget data der er brug for. Men efter 200.000 gribninger begyndte det at gå hurtigt – og det fortsatte indtil de 800.000 gribninger,« fortæller professor Sergey Levine til Spectrum.
Greb hårde ting anderledes end bløde
Robotterne havde altså ikke nogen forhåndsviden om de objekter, der skulle gribes fat om. De skulle alene ved at 'se' griberens bevægelser forsøge at optimere målet om at tage fat i noget. Det har ført til nogle overraskende opdagelser for forskerne.
Det viste sig nemlig, at griberen valgte forskellige strategier, alt efter om det var noget blødt eller hårdt, den skulle gribe fat i. Når objektet var hårdt, skulle griberen have fat på begge sider af objektet. Men hvis det var blødt, så var det nok at trykke en gribe-finger ind i midten af objektet og to på den anden side. Robotten var altså i stand til selv at udvikle strategier ud fra erfaringer.
Systemet er endnu kun på udviklingsstadiet, men forskerne ser ingen væsentlige barrierer for, at det kan udvikles mere generelt.
[video: https://youtu.be/cXaic_k80uM]
