Nye veje til at finde skjulte strukturer i store datasæt

Forskere har undersøgt, hvordan aktiviteten i hjernen ændrer sig, når en person skifter mellem forskellige aktiviteter som at regne, se en video og udføre en hukommelsestest. I stedet for at vise data for enten den tidslige udvikling et enkelt sted i hjernen eller den rumlige aktivitet i hele hjernen på et enkelt tidspunkt, har de med Mapper-programmet genereret en visualisering, der indeholder de rumlige og tidslige elementer i samme figur. Illustration: Nature Communications

Ingeniører, fysikere, geologer, neurologer og mange andre faggrupper vælter sig til tider i enorme datamængder, som de forsøger at finde hoved og hale i.

Inden for de senere år har der været interesse for en matematisk teknik kaldet topologisk dataanalyse til dette formål. Det drejer sig om matematik, som for en stor del er udviklet for over 100 år siden, men som først de seneste ca. 20 er begyndt at finde konkrete anvendelser.

Ultrakort fortalt er ideen at bruge geometriske og specielt topologiske teknikker til at studere data. For mange er det nok en overraskende tilgang, for geometri og lange lister med tal synes som udgangspunkt ikke at have meget til fælles. Men som det også ses udtrykt, gælder det, at »form er data, og data er form«.

For nylig kunne matematikere og kemikere fra Aalborg Universitet i en artikel i Science Advance med brug af topologisk dataanalyse og en teknik kaldet persistent homologi (nærmere beskrevet nederst på siden) eksempelvis berette om ny viden om glasmaterialers atomare struktur på nanometerskala.

Det konkrete forskningsresultat omtalte vi på ing.dk, hvor lektor i matematik Lisbeth Fajstrup sagde:

»Anvendt algebraisk topologi er en smuk historie om et matematisk område, der har været drevet af nysgerrighed til faget, og pludselig giver afkast i alle mulige retninger, fordi vi med al den data og computerkraft, der nu er til rådighed, kan finde enorme anvendelsesmuligheder.«

Inden for en hel anden boldgade kom en af de absolut føren­de forskere inden for topologisk dataanalyse, den svenskfødte amerikanske matematiker Gunnar Carlsson, i 2016 frem til, at Donald Trumps chancer for at gå hele vejen var store på et tidspunkt, hvor han endnu blot var en blandt flere, der kæmpede om nomineringen som republikansk præsidentkandidat.

Ud fra svar på et spørgeskema opdelte Gunnar Carlsson efter topologiske principper den amerikanske befolkning i fire hovedgrupper ud fra deres tiltro til og/eller skepsis over for forskellige samfundsinstitutioner. Analysen viste, at Trump kunne trække tilhængere fra en stor del af befolkningen i modsætning til det, man ville forvente, hvis man betragtede en opdeling på en mere konventionel politisk skala.

Kommercielle værktøjer

Topologisk dataanalyse baserer sig på konkrete og veldefinerede beregninger, men er i høj grad også et visualiseringsmiddel.

Gunnar Carlsson har også medvirket hertil ved at udvikle en meget benyttet algoritme kaldet Mapper, som bl.a. er anvendt til at generere illustrationen om hjerneaktivitet, der ses her på siden,

Han var allerede så tidligt som i 2008 med til at grundlægge firmaet Ayasdi i Californien, der specialiserer sig i topologisk dataanalyse.

Topologisk dataanalyse er som nævnt og illustreret en teknik, der har meget brede anvendelsesmuligheder. Men i al fairness er det også svært at vide endnu, hvor nyttig den vil vise sig at være.

Den canadiske statistiker Larry Wasserman skrev for nogle få år siden en større oversigtsartikel om topologisk dataanalyse (TDA), hvor han gav flere eksempler på anvendelser af teknikken. Alligevel konkluderede han på denne vis:

»TDA er et spændende område med mange interessante ideer. Men foreløbig har det haft begrænset indflydelse på dataanalyse.«

Da biologer i forvejen er vant til at forstå og studere betydningen af form, argumenterede Daniel H. Chitwood m.fl. fra University of Michigan tidligere i år i en oversigtsartikel for, at topologisk dataanalyse kan få stor betydning inden for biologi – men de erkendte også, at brugen stadig er meget begrænset.

En forklaring på, hvorfor topologisk dataanalyse endnu ikke har taget verden fuldstændig med storm, skal vi måske finde i den udtalelse, professor Morten Mattrup Smedskjær ved Institut for Kemi og Biovidenskab gav om samarbejdet med matematikerne om glas:

»Det har momentvis givet udfordringer i at forstå hinanden, men det har ført til nogle spændende konklusioner, som vi ikke havde kunnet opnå uden at bruge matematikernes metoder. «

Et andet bud kan vi finde hos den unge amerikanske matematiker Noah Giansiracusa. Han forklarede i et interview for et par år siden, at forskere, der beskæftiger sig med ren matematik – dvs. matematik for matematikkens egen skyld – måske har savnet at fortælle omverdenen om et nyt matematisk område, som kunne få en enorm praktisk betydning – ligesom differentialgeometri er en forudsætning for Einsteins generelle relativitetsteori og dermed virkemåden for GPS-navigation, og talteori er grundlaget for kryptering.

Selv om vi måske endnu ikke har hørt så meget til topologiske dataanalyser herhjemme, har der ude omkring i verden været stor og måske også for stor hype om metoden.

Det kan ikke afvises, at teknikken visse steder har været oversolgt, men da der nu jævnligt ses videnskabelige artikler, der gør brug af topologisk dataanalyse, så det er alligevel nok et område, som alle, der søger at finde strukturer i store og komplicerede datamængder, bør have med i deres overvejelser.

Måske bør de også overveje at kontakte en nærboende matematiker for gode råd, før de giver sig i kast hermed, for topologi er nok en fremmed videnskab for mange.

Dyk ned i matematikken

I en separat artikel beskrives matematikken mere indgående:

Læs også: Matematikken bag topologisk dataanalyse: Huller kommer og går