Få de daglige nyheder fra Version2 og Ingeniøren. Læs mere om nyhedsbrevene her.

close
Ved at tilmelde dig accepterer du vores Brugerbetingelser, og du accepterer, at Teknologiens Mediehus og IDA-gruppen lejlighedsvis kan kontakte dig om arrangementer, analyser, nyheder, job og tilbud m.m. via telefon og e-mail. I nyhedsbreve, e-mails fra Teknologiens Mediehus kan der forefindes markedsføring fra samarbejdspartnere.
en intelligent fremtid bloghoved

Cloud-baseret AI – et eksperiment

I januar var jeg i Hanoi, Vietnam, hvor mit firma afholdt vores årlige partner-event. Det siger sig selv, at vi var et godt mix af nationaliteter, blandt andet vietnamsere, kinesere, japanere, koreanere, danskere, australiere og amerikanere. Vi forstår naturligvis allesammen engelsk, men én ting er at læse engelsk, en anden er rent faktisk at forstå hinanden. For der i den grad forskel på accent afhængig af, hvor i verden du kommer fra.

Det er så her, vores lille eksperiment kommer ind i billedet. Vi var nysgerrige efter at finde ud af, hvor godt cloud-baseret AI egentlig virker, så det satte vi os for at teste, og det viste sig at være ret enkelt; det krævede kun et kamera med mikrofon, en Google Cloud-konto, internetadgang og en smule software. Vi transmitterede lyden fra kameraet til Google Cloud Speech API 32 gange i sekundet, hvorefter vi modtog automatisk generede ”undertekster” fra AI-servicen baseret på tale og gemte det hele i vores database som en annotation til videoen.

Dermed blev det muligt at lave søgninger i videoen efter ord. Vi lavede også et udvidet eksperiment, hvor vi tog den transskriberede tekst og sendte den til oversættelse via Google Cloud Translation API. Det virkede, men der er stadig udfordringer:

Test 1:

Transskription og oversættelse af tale

  • ”Good morning Vietnam” -> Good morning Vietnam

  • “Welcome to MIPS” -> Welcome to Mitch (ukendt akronym)

  • “Hablas Espanyol Amigo” -> Speak Spanish friend

Vi opdagede, at placeringen af mikrofonen, ikke overraskende, har en stor indvirkning på kvaliteten af transkriptionen, mens noget, der virkelig overraskede os, var, at når vi prøvede med forskellige audio codec (ACC,G711), påvirkede det resultaterne betydeligt.

Test 2:

2 mikrofoner placeret side om side, men med brug af forskellig audio codec

  • ”Den ene sove” -> Den ene sover / Dinosaur

  • ”Someone is back” -> Someone is back / Someone got his bag

  • “Please work better” -> Please work better / Cease work better

Vores test viste også, at før en hel sætning er registreret, modtager man ikke en oversættelse. Sådan fungerer den menneskelige hjerne jo ikke, og det betyder også en unaturlig forsinkelse i tilfælde af lange sætninger. Det giver sig selv, at hele sætninger giver en bedre oversættelse, men vi mennesker kan bryde sætningerne op undervejs, så forbedringer i AI-systemet er muligt.

Det er ikke svært at forestille sig, hvordan disse oversættelser/undertekster i realtid overføres til AR-briller på fx hørehæmmede med indbygget kamera og mikrofon, specielt hvis man øger kvaliteten af transskriptionen ved hjælp af mundaflæsning. Selv i rum, hvor der er mange, der taler, ville man kunne ”høre” en bestemt person. Et muligt skrækscenarie for de eksisterende høreapparatvirksomheder rundt om i verden, hvis ikke de griber bolden – og udviklingen – nu.

Et andet eksempel: Under vores partner-event i Hanoi lagde jeg mærke til, at nogle af vores koreanske gæster havde svært ved at forstå, hvad vores danske kolleger sagde – på engelsk – fra scenen. En prøvede rent faktisk at sms’e indholdet af præsentationen fra scenen til en kollega – ikke særligt effektivit. Det ville give meget bedre mening, hvis tilhørerne kunne modtage en direkte oversat version af scene-præsentationen på deres eget sprog. En ide til næste års konference!

En større udfordring for cloud-baseret AI er netværket; den konstante overførsel af enorme mængder af data fra nogle applikationer til skyen udløser en betydelig båndbredde-omkostning. En anden udfordring er den høje latency (forsinkelse) i cloud-AI, som fx kan resultere i, at en dør ikke åbner i tide, hvis adgangen er baseret på ansigtsgenkendelsesteknologi.

Jeg kan ikke komme i tanke om ret mange steder, hvor man gider vente alt for lang tid i en kø, med mindre man står i kø til en automatisk pas-scanner i lufthavnen. Igen, jo mere du komprimerer rådata, jo mindre bliver datamængderne, der skal op i skyen. Men på den anden side, jo mere komprimering, jo mere reduceres evnen til at trække features ud af data - vi så det samme med audio.

Vi valgte Google til vores lille cloud-baserede-AI-forsøg men der findes også andre leverandører som fx Microsoft, Amazon, IBM, alle Nvidia-baserede, samt Rigetti Computing der giver mulighed for at prøve superledende kvante-processorer.

Cloud-baseret AI kommer, og det bliver lettere og lettere at bruge. På vores seneste partner-event, som i sidste uge blev afholdt i Las Vegas, imponerede den kun 14-årige programmør og AI-ekspert Tanmay Bakshi alle i salen. Han fortalte bl.a. om, hvordan IBM’s Watson kan bruges til en række meget spændende AI-projekter. Og som min 25-årige kollega sagde, så følte hun sig lige pludselig meget gammel, da vi have hørt ham tale foran 700 mennesker i Las Vegas. Men det er en helt anden historie.

sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først