Stemmer - det er da noget man laver
I sommeren 2021 skabte det sensation, at det var lykkedes at genskabe den amerikanske skuespiller Val Kilmers stemme, efter at han havde mistet den til cancer i 2014.
Firmaet Sonantic havde i samarbejde med Val Kilmer samlet timevis af stemmeoptagelser og trænet en model til at replikere den. Resultatet - som kan høres her - er overbevisende omend lidt metallisk i klangen. Men med lidt finpudsning, vil Kilmer kunne genoptage sin filmkarriere.
Læs også: PODCAST: Umuligt at kende forskel - AI bringer stemmer til live
Her - mindre end et år senere - kan enhver efterprøve tricket på laptoppen derhjemme uden større it-kundskab end en gymnasieelev, som redaktør af DataTech Magnus Boye udtrykker det i seneste episode af podcasten Transformator.
Med bare en halv times indtaling har han skabt tilstrækkeligt med træningsdata til, at programmet Overdub fra firmet Descript kan lave stemmesyntese. Programmets machine learning kombinerer manuskript og tale, og det står i Transformator hurtigt klart, hvor svært det er at adskille syntesestemmen fra originalen.
»Programmet skal ikke blot lære lyden og klangen af min stemme. Den skal også lære, hvor jeg lægger trykket, eller hvordan jeg slutter en sætning. Det er det, der giver stemmen sin personlighed.«
En billig reklamefilm
Magnus Boye er overbevist om, at mange brancher skal være opmærksom på den her teknologi, der lige nu er i rivende udvikling:
»Der er mange brancher, der skal til at se på det her. Hvis du for eksempel skal have lavet en speak til din nye reklamefilm, så er der ingen grund til at gå ud og hyre en skuespiller og booke et studie. Du tager bare din yndlingsskuespiller på drevet og lægger dit manuskript ind. For alle firmaer, der vil skære 10 procent af kvaliteten for at spare 90 procent af omkostningerne, er det interessant. Et israelsk firma sælger faktisk allerede avatarer, som med lyd og video kan bruges over hele kloden.«
Værktøj for svindlere
Som anden teknologi vil stemmesyntese være et oplagt værktøj for svindlere. Og der er da også allerede eksempler på, at direktører har ringet op til regnskabsafdelingen for at få overført penge til en bestemt konto.
»Det indebærer, at firmaer skal forholde sig til deep fake og udfærdige procedurer for, hvordan man skal håndtere opringninger fra chefen,« siger Magnus Boye og fortæller, at Descript allerede har indbygget de indledende forsvar mod misbrug. Inden man åbner programmet, skal man således indtale en form for samtykke. Dette matcher programmet så med alt, man tidligere har indtalt for at sikre, at det er den rigtige stemme, der genskabes og ikke en andens.
I Transformator gives der eksempler på, hvordan man kan rette lyden i en indtalt tekst ved at skrive i det originale manuskript. Og så får Overdub sammen med sprogprogrammet GPT3 til opgave selv at lave manuskript og producere en podcast om rabarbermarmelade. Det lyder fjollet. Men resultatet er overraskende, fordi vi pludseligt hører Magnus indlede podcasten om rabarber med barndomsminder om planten. Og det er er klar illustration af potentiale og risici ved talesyntese.
