Denne artikel er tidligere bragt på DataTech.
Donate Your Cough er navnet på en kampagne, der indsamler lyden af host.
Hvert host går sammen med basal sundhedsinfo ind i en forskningsdatabase med det ultimative mål at udvikle en ML-løsning, der kan identificere covid-19-smittede ud fra lyden af deres hoste.
Det lyder måske som en svær opgave. Og det er det også, fortæller Emil Fristed, der har en baggrund i Computational Neuroscience og er medstifter af den London-baserede startup-virksomhed Novoic, der står bag hoste-indsamlingen.
Men der er god grund til at tro, at det kan lade sig gøre.
»Vi ved fra tidligere forskning, at man kan bruge stemmeanalyse til at finde andre respiratoriske sygdomme som bronkitis og astma. Vi har set, at man med høj specificitet og sensitivitet kan skelne tør hoste fra våd hoste og skelne mellem typer af lungebetændelser ved at analysere på et host,« siger Emil Fristed.
Samtidig viser den tidlige data fra CT-scanninger af covid-19-patienter, at den nye coronavirus giver mønstre, der kan skelnes fra andre lungesygdomme.
Læs også: Deep learning kan spotte covid-19 i lungescanninger på sekunder
»Det giver et godt rationale for, at det også påvirker hostet. Og det fik os til at tænke: 'lad os se, hvad vi kan gøre'.«
Novoic er ikke alene om at undersøge mulighederne for at bruge hoste-analyse til corona-diagnosen. Både indiske og amerikanske forskere har for nylig udgivet forskningsartikler, hvor de forsøger at træne modeller til formålet. Fælles for de eksisterende bud er en dramatisk mangel på træningsdata.
»Ideen med Donate Your Cough-kampagnen er få en robust database, som vi også kan dele med andre forskere, der arbejder på det her,« siger Emil Fristed.
»Det er ikke vanskeligt at detektere et host. Det er et løst problem. Og vi ved også, at vi kan detektere andre respiratoriske sygdomme. Men at komme dertil, hvor vi kan skelne mellem covid-19 og andre almindelige respiratoriske sygdomme, er det store problem, der skal løses.«
Donate Your Cough-kampagnen får hjælp fra over 50 frivillige og har fået støtte fra Oxford Foundry og Said Business School i Oxford. Raske mennesker kan bidrage ved at hoste lidt ind i egen mikrofon, men håbet er især at få så mange personer med bekræftede diagnoser ind i databasen som muligt. Det gælder ikke bare covid-19-patienter, men også personer med andre respiratoriske sygdomme.
Den data skal kombineres med et meget større datasæt med svagere labels, forklarer Emil Fristed.
»Der er naturlig variation i den måde, folk hoster på. Og der er begrænset data omkring forskelle på, hvordan folk hoster, afhængigt af om du er fra Danmark, England eller Singapore. Det har vi ikke gode data på endnu. Derfor har vi brug for et mere dækkende datasæt med svagere labels at starte på, før vi træner på det mindre datasæt med stærke labels.«
Novoic blev grundlagt i 2018 med fokus på at udvikle teknologi, der kan spotte tegn på neurologiske sygdomme – som Alzheimers og Parkinsons – gennem såkaldte biomarkører i stemme og sprog.
»Der er et meget stort antal sygdomme, der giver ændringer i måden, folk snakker på. Der er årtiers forskning, der viser det. Der er f.eks. studier, der viser, at sproget er en af de tidligste indikationer på Alzheimers,« fortæller Emil Fristed.
Han henviser blandt andet til et studie, der over en periode på 30 år fulgte en gruppe nonner. Her viste det sig, at der var en sammenhæng mellem nonner, der endte med at få Alzheimers, og lingvistiske træk ved tekster de samme nonner havde skrevet mange år tidligere.
»Men til trods for det har vi ikke noget klinisk værktøj til at udnytte den viden – særligt på grund af tekniske barriere,« fortæller Emil Fristed.
ML-modeller bygget til formålet har tidligere haft vanskeligt ved at håndtere accenter og dialekter, men over de seneste 2-3 år har nye værktøjer gjort nogle af de barrierer mindre.
»Det seneste halvandet år er der sket meget inden for talegenkendelse – blandt andet wav2letter fra Facebook – som gør det muligt, at håndtere længere audio-input end tidligere,« fortæller Emil Fristed.
»Et andet eksempel er attention-mekanismer, som har hjulpet os med at finde frem til de dele af sproget, der er interessante at fokusere på.«
Et andet problem har været at håndtere stemmedata, der er så højdimensionelle, at analysen har været meget følsom overfor optagemiljøet. En model kan vurdere en person til at have ALS i ét optagemiljø, men give det modsatte resultat i et andet miljø.
Det problem forsøger Novoic at tackle ved at reducere dimensionerne i lyden og ekstrahere features såsom jitter og shimmer, der måler variationer af henholdsvis frekvens og amplitude på mikroskala. Til det formål har de udviklet software-bibliotekerne Surfboard og BlaBla, der udtrækker relevante features fra henholdsvis stemme og sprog, og begge blev gjort open source tidligere på året.
»Forskellige sygdomme påvirker forskellige dele af sprogprocessen. Noget er kognitivt, så det påvirker semantik, grammatik og sætningskonstruktion. Andre er fysiologiske og påvirker stemmebånd, luftrør osv.,« siger Emil Fristed.
»Ved en sygdom som Alzheimers er det særligt sproget, der er påvirket – f.eks. ved at dit ordforråd bliver mere simpelt. Ved sygdomme som Parkinsons bliver stemmelæberne påvirket, så der skal man høre på lyden.«
Målet med BlaBla og Surfboard er blandt andet at få harmoniseret forskningen i brugen af stemmeanalyse i sundhedssektoren.
»Mange grupper har deres egne feature-sæt, og deres egen måde at udtrække jitter på for eksempel. Det gør det sværere at sammenligne,« siger Emil Fristed.
»Der er virkelig behov for at have en åben standard, der kan give et fælles sprog.«
Med de tekniske fremskridt forventer Emil Fristed, at man på sigt kan bruge mikrofonen i en smartphone til at screene for en række sygdomme på en skala, der ellers ikke er muligt. Hvornår løsningerne er klar, er dog ikke kun et spørgsmål om modellernes performance.
»Når du når omkring 80-90 procent sensitivitet og specificitet, så vil det for nogle sygdomsområder være noget, der kan rykke som en metode til at screene bredt. Det gælder fx Alzheimers og Parkinsons, som har en høj prævalens. Hvis du kigger på ALS, som har en meget mindre prævalens, skal vi højere op, før det giver mening. Den sygdom er så sjælden, at det ikke dur med 10 procent falske positive.«
For alle sygdommene gælder det dog ligesom med covid-19, at der er brug for store mængder data, som dækker bredt.
»Hvis vi skal lave en statistisk validering af datasættet, og dokumentere, at løsningen virker, så skal der en vis størrelse til,« siger Emil Fristed.
»Dertil kommer dækningen eller diversiteten af datasættet, som er meget undervurderet.«
Hvis Novoic f.eks. kører et klinisk forsøg, hvor man indsamler stemmedata ind fra Alzheimers-patienter i London, Cambridge, Liverpool og andre store engelske byer, så kan vi med en vis sikkerhed sige, at modellen virker, på den specifikke befolkning.
»Men vi kan ikke være sikre på, at den samme model virker på en person, der taler amerikansk-engelsk, eller en dansker, der taler engelsk som andetsprog,« siger Emil Fristed og fortsætter:
»Diversiteten i datasættet – og muligheden for at kvantificere, hvor godt resultatet kan generaliseres – er en stor udfordring, der skal løses. Og hvis det skal gøres ordentligt, bliver det i store, multinationale kliniske forsøg.«
Vi bygger bro med stærke vidensmedier, relevante events, nærværende netværk og Teknologiens Jobfinder, hvor vi forbinder kandidater og virksomheder.
Læs her om vores forskellige abonnementstyper
Med vores nyhedsbreve får du et fagligt overblik og adgang til levende debat mellem fagfolk.
Teknologiens Mediehus tilbyder en bred vifte af muligheder for annoncering over for ingeniører og it-professionelle.
Tech Relations leverer effektiv formidling af dit budskab til ingeniører og it-professionelle.
Danmarks største jobplatform for ingeniører, it-professionelle og tekniske specialister.
Kalvebod Brygge 33. 1560 København V
Adm. direktør
Christina Blaagaard Collignon
Chefredaktør
Trine Reitz Bjerregaard