værd at vide

Sprogmodel finder farlige virusmutationer

Spike-proteinet på SARS-CoV-2-virus består af to subunits S1 og S2, hvor RBD (receptorbindingsdomænet) er en del af S1. Det er RBD, der kan binde sig til ACE2, der findes i celler i lungerne. Maskinlæringsteknik oprindeligt udviklet til sprogteknologi kan finde de former for mutationer, der potentielt kan modstå vacciner udviklet til den oprindelige version af virus. Illustration: Nanna Skytte

I takt med at covid-vaccinationer rulles ud, og nye hurtigtsmittende mutationer af virus opstår, er der bekymring for, at der skal fremkomme mutationer, som vaccinerne ikke vil virke mod. Sådanne kaldes for escape-mutationer. I en artikel i Science i denne uge præsenterer Brian Hie m.fl. fra Massachusetts Institute of Technology (MIT) i USA en meget overraskende metode til at identificere mulige escape-mutationer. Forskerne bruger nemlig en maskinlæringsalgoritme, der oprindeligt er udviklet til at give computere mulighed for at forstå og beherske naturlige sprog. De anvender den både på influenza, hiv og SARS-CoV-2, som er den virus, der forårsager sygdommen covid-19.

I en kommentar, ligeledes i Science, skriver Yoo-Ah Kim og Teresa Przytycka fra National Institutes of Health i USA, at »det er en effektfuld metode.« De mener endog, at den måske kan videreudvikles til at give en forklaring på, hvorfor immunforsvaret virker forskelligt hos mennesker, alt efter hvilke sygdomsfremkaldende eller patogene eksponeringer, de tidligere har været udsat for, på samme måde, som personer kan opfatte en sætning på engelsk forskelligt ud fra deres generelle erfaringer, og hvor flydende de er i engelsk. Kim og Przytycka fremhæver, at opdagelsen af en forbindelse mellem to videnskabelige discipliner, der umiddelbart ikke synes at have noget til fælles, ofte kan accelerere forskning inden for et område ved benyttelse af metoder fra det andet område. Det er derfor interessant at se lidt nærmere på, hvad sprogteknologi og virusmutationer egentlig har med hinanden at gøre.

Det er spike-proteinet og specielt det receptorbindende domæne (RBD), som sidder yderst på dette protein, der muliggør, at SARS-CoV-2 kan binde sig til enzymet ACE2, der findes på cellemembranen hos mange celler i lungerne. Spike-proteinet består ud over RBD af to dele, eller subunits, S1 og S2. Ved vaccination med de populære mRNA-vacciner bliver der givet instruktion til kroppen om at lave et harmløst spike-protein, som kroppens immunforsvar lærer at bekæmpe. Skulle SARS-CoV-2 og dets spike-protein komme ind i kroppen, er immunforsvaret dermed klar til straks at bekæmpe dette. Hvis spike-proteinet er muteret meget, er der dog en risiko for, at immunforsvaret ikke kan genkende det.

En mutation i dette virus kan opstå ved ændring i proteinsekvenserne, der er opbygget af 20 forskellige aminosyrer, som hver er tildelt et bogstav. Vi kan eksempelvis tage udgangspunkt i sekvensen ­VLSAKAA. En mutation kan opstå, hvis eksempelvis det midterste A erstattes med et andet bogstav. Det svarer til, at man ændrer et ord i en sætning. I Science-artiklen bruges eksemplet Nauru bans tran­shipments to tackle overfishing. Ændres tackle til combat, så sætningen i stedet er Nauru bans transhipments to combat overfishing, sker der ikke den store ændring i betydningen. Men skriver man continue i stedet for transhipments bliver det Nauru bans continue to tackle overfishing. Sætning er stadig grammatisk korrekt, men har en væsentlig anden betydning. Bemærk, at i den oprindelige sætning og den første variant er rækkefølgen af de tre første ord navneord, udsagnsord, navneord. Ved den anden variant er det tillægsord, navneord, udsagnsord. At finde ændringer, der har stor semantisk forskel, men som er grammatisk korrekte, kalder Brian Hie & co. for constrained semantic change search.

Escape-mutationer er på samme måde mutationer, som ser væsentligt forskellige ud for immunsystemet, men som stadig har bevaret deres ineffektivitet. Ideen er, at de kan findes med samme maskinlærings­algoritme, som bruges ved sprogteknologi. Forskerne undersøgte bl.a. 891 sekvenser for SARS-CoV-2 med fire mutationer. Kun tre af disse var varianter med stor semantisk forskel, der stadig var grammatisk korrekte. Det er muligt at definere og beregne et escape-potentiale for mutationerne og identificere, hvor i spike-proteinet de farlige mutationer kan opstå. Måske ikke så overraskende er det ved mutationer i RBD, som først møder kroppens celler, frem for f.eks. i S2-delen af spike-proteinet. Men også mutationer i den del af S1, som kaldes N-terminal domænet, kan potentielt være farlige. Omvendt kan man også konkludere, at S2-delen, som ser ud til være relativt uforandret, måske er det område, man i højere grad skal søge at få immunforsvaret til holde øje med for netop at fange alle varianter.

Under alle omstændigheder er det dog tankevækkende og interessant, at virus også har både grammatik og semantik, og at det kan være med til at udpege mulige escape-mutationer.

Emner : Værd at vide