Stemmer - det er da noget man laver

24. januar 2022 kl. 12:404
Stemmer - det er da noget man laver
Illustration: Lasse Gorm Jensen.
Indtil for nylig var det forbeholdt feinschmeckere at skabe kunstige stemmer. Nu kan enhver gøre det på en halv time. Vi har testet mulighederne.
Artiklen er ældre end 30 dage

I sommeren 2021 skabte det sensation, at det var lykkedes at genskabe den amerikanske skuespiller Val Kilmers stemme, efter at han havde mistet den til cancer i 2014.

Firmaet Sonantic havde i samarbejde med Val Kilmer samlet timevis af stemmeoptagelser og trænet en model til at replikere den. Resultatet - som kan høres her - er overbevisende omend lidt metallisk i klangen. Men med lidt finpudsning, vil Kilmer kunne genoptage sin filmkarriere.

Læs også: PODCAST: Umuligt at kende forskel - AI bringer stemmer til live

Her - mindre end et år senere - kan enhver efterprøve tricket på laptoppen derhjemme uden større it-kundskab end en gymnasieelev, som redaktør af DataTech Magnus Boye udtrykker det i seneste episode af podcasten Transformator.

Artiklen fortsætter efter annoncen

Med bare en halv times indtaling har han skabt tilstrækkeligt med træningsdata til, at programmet Overdub fra firmet Descript kan lave stemmesyntese. Programmets machine learning kombinerer manuskript og tale, og det står i Transformator hurtigt klart, hvor svært det er at adskille syntesestemmen fra originalen.

»Programmet skal ikke blot lære lyden og klangen af min stemme. Den skal også lære, hvor jeg lægger trykket, eller hvordan jeg slutter en sætning. Det er det, der giver stemmen sin personlighed.«

En billig reklamefilm

Magnus Boye er overbevist om, at mange brancher skal være opmærksom på den her teknologi, der lige nu er i rivende udvikling:

»Der er mange brancher, der skal til at se på det her. Hvis du for eksempel skal have lavet en speak til din nye reklamefilm, så er der ingen grund til at gå ud og hyre en skuespiller og booke et studie. Du tager bare din yndlingsskuespiller på drevet og lægger dit manuskript ind. For alle firmaer, der vil skære 10 procent af kvaliteten for at spare 90 procent af omkostningerne, er det interessant. Et israelsk firma sælger faktisk allerede avatarer, som med lyd og video kan bruges over hele kloden.«

Værktøj for svindlere

Som anden teknologi vil stemmesyntese være et oplagt værktøj for svindlere. Og der er da også allerede eksempler på, at direktører har ringet op til regnskabsafdelingen for at få overført penge til en bestemt konto.

Artiklen fortsætter efter annoncen

»Det indebærer, at firmaer skal forholde sig til deep fake og udfærdige procedurer for, hvordan man skal håndtere opringninger fra chefen,« siger Magnus Boye og fortæller, at Descript allerede har indbygget de indledende forsvar mod misbrug. Inden man åbner programmet, skal man således indtale en form for samtykke. Dette matcher programmet så med alt, man tidligere har indtalt for at sikre, at det er den rigtige stemme, der genskabes og ikke en andens.

I Transformator gives der eksempler på, hvordan man kan rette lyden i en indtalt tekst ved at skrive i det originale manuskript. Og så får Overdub sammen med sprogprogrammet GPT3 til opgave selv at lave manuskript og producere en podcast om rabarbermarmelade. Det lyder fjollet. Men resultatet er overraskende, fordi vi pludseligt hører Magnus indlede podcasten om rabarber med barndomsminder om planten. Og det er er klar illustration af potentiale og risici ved talesyntese.

4 kommentarer.  Hop til debatten
Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
4
27. januar 2022 kl. 20:28

Andre herinde var vakse nok til at koble stemmer til afstemninger.

Vi er nok ikke helt tabt endnu.

2
27. januar 2022 kl. 17:11

Jeg troede artiklen handlede om Dominion og andre "valgmaskiner" hvor forholdet mellem in- og output er som på en enarmet tyveknægt.

1
27. januar 2022 kl. 11:04

Udmærket, at Ingeniøren begynder at belyse disse manipulationsteknikker.

Nu mangler der bare lidt fokus på, hvorledes teknikkerne må kunne skabe 'hallucinationer', hvis den kombineres med smart tele- og lydteknik, fx retningsbestemt ultralyd. Det hele klistret sammen af AI og naive/let korrumperbare befolkningsgrupper.

Og dermed kunne sende et par generationer af stemmehørere på de lukkede afdelinger, tvangsmedicinering med antipsykotisk medicin osv. Hvis folk var blevet orienteret om disse ting for 10-15(?) år siden, da teknikkerne måske blev udrullet for alvor herhjemme, ville det have været helt optimalt, men bedre sent end aldrig.

Hvem ved, måske kunne DK spare ½-delen af de 110 mia, som 'psykiske' lidelser med afledte udfordringer angiveligt skulle koste Danmark. Mere velfungerende befolkning og arbejdskraft. Ressourcerne kunne så koncentreres på korrekt diagnosticering og behandling af de tilbageværende, rigtige psykiske lidelser.

Lone Bech

stemmehører (undtagen når strømmen falder ud eller flertallet i kvarteret er bortrejst på ferie).