Forskere frygter ændringer, når Microsoft køber populær udviklingsplatform
Forsknings- og softwareverdenens svar på biblioteket i Alexandria.
Sådan betegner nogle den ti år gamle GitHub-platform med omkring 28 millioner aktive brugere. Den er verdens største open source tjeneste og samling af kode. Den er ved at blive opkøbt af Microsoft for omkring 48 milliarder kroner og mangler blot myndighedernes godkendelse.
Overtagelsen fremkalder stærke reaktioner i forskningsverden. Nogle gruer for, at GitHub bliver mindre åben og mindre anvendelig til at dele og redigere i videnskabeligt data. Andre sætter deres lid til, at Microsoft vil finpudse og gøre GitHub endnu stærkere. Blandt kritikerne er eksempelvis Tom Johnstone, professor i neurovidenskab ved University of Reading.
Open Science is not compatible with one corporation owning the platform used to collaborate on code. I hope that expert coders in #openscience have a viable alternative to #github Microsoft to buy GitHub for $7.5 billion in stock https://t.co/5MirVxCMDb
— Tom Johnstone #WeAreTheUniversity #FBPE (@itjohnstone) June 4, 2018
Overfor Nature siger flere forskere heriblandt Björn Grüning, som leder bioinformationgruppen med fokus på computersimuleret kemi og epigenetik ved Albert-Ludwigs-Universität Freiburg, at han vil flytte sine forskningsprojekter over på andre platforme som konkurrenten GitLab, hvis Microsoft gør GitHub dyrere at anvende eller tvinger sine platforme eller programmer ned over hovedet på brugerne.
Microsoft har ikke ønsket at kommentere på forskernes ængstelser overfor Nature, men henviser dels til sine planer om at opgradere GitHubs kommercielle del ved at bruge Microsofts salgs-kanaler til at sælge GitHub tjenester, dels et blogindlæg fra selskabets adm.direktør Satya Nadella.
»Vi anerkender det store ansvar, vi overtager med denne aftale. Vi er forpligtede til at passe på GitHub-fællesskabet, som vil bevare dets udviklere-først-ethos, fungere uafhængigt og forblive en åben platform,« lyder det fra Satya Nadella.
Eftertragtet netværks-element
Men hvorfor er det, at Microsofts overtagelse af Github fremkalder stærke følelser fra forskningsverdenen, når der er utallige andre udviklings- og fildelingsplatforme på nettet?
GitHub er bygget på Git, som er en open source software skrevet af Linus Torvalds, grundlæggeren af Linux. Git er et distribueret version-kontrol-system som giver hver udvikler sit eget datalager (repository).
Når koden i et projekt ændres, kan GitHub sættes op til at dele disse ændringer med kopier af koden, på tværs af datalagre. Hvis man har prøvet at samarbejde om et tekstdokument gennem værktøjer som Dropbox, så ved man, at der kan opstå problemer, når flere brugere simultant arbejder på samme fil. Det er denne proces, som Git-systemet administrerer bedre end mange andre også takket være GitHubs netværk-elementet, som kvalificerer ændringer til tekst.
Læs også: Forstå GitHub på fem minutter
GitHub opdagede ebola
Under Ebola-udbruddet i 2014-2016 i Vestafrika anvendte forskerne GitHub til at dagligt at dele og krydstjekke patientdata, og I 2011 opdagede mikrobiologer og epidemiologer, at verden stod over det mest dødbringende, uforklarlige udbrud af en E-coli-superbakterie navngivet E. coli ST678.
Bakterien var hurtigt skyld i 20 dødsfald, og forskerne konstaterede kvikt, at en reducering af udbruddet ikke kunne imødegås med de etablerede protokoller for videnskabelige fremskridt, dvs. peer reviews og en langsommelig publikationsproces i fagblade.
Smitten gik ekstremt hurtigt, fordi E. coli bruger horisontal genoverførsel til at udvikle sig. Det vil sige, at bakterierne låner, blander og kopierer hinandens DNA, som var det et langt og gratis tagselvbord. Mikrobiologerme og epidemiologerne modsvar blev deling af rådata med GitHub via mottoet: Hvis bakterier kan dele dyrebare informationer gratis og hurtigt med hinanden, så kan vi også.
»Vi var heldige, at der den dag, hvor vi publicerede de første rådata, var et møde i Cambridge med nogle af Europas mest fremtrædende mikrobiologer En gruppe af dem begyndte at analysere data, og inden længe blev der lavet et github-depot og en wiki, som sidenhen har været en meget nyttig ressource for resten af de dedikerede forskere rundt omkring i verden,« udtalte Bicheng Yang fra Beijing Genomics Institute (BGI Europe) med base i København til Ingeniøren.
Læs også: Forskere over hele verden samarbejder om at afkode farlig superbakterie
Andre mere lavpraktiske anvendelser af GitHub i dansk regi tæller blandt andet Safecasts crowdsourcede geigertæller, bGeigie. Udviklet af blandt andre ti ingeniører i selskab med programmører og en lang række frivillige via GitHub har geigertælleren været anvendt til at måle radioaktivitet langs veje og på en togtur fra Skanderborg til København.
Tror tjenesten forbliver uændret
GitHub er desuden et glimrende sted at lave gentagne backup af sin kode, som man bevæger sig frem igennem et projekt. Der er over 85 millioner af disse datalagre, hvilket vidner om, at tjenesten er ekstremt populær. 223.000 akademiske papirer på Google Scholar citerer endda GitHub. Nasa anvender platformen, når dets ingeniører skriver kode til affyringer.
Dertil kommer, at selskaber som Google, Microsoft og IBM alle tyr til GitHub som platform for deling af software, som selskaberne ønsker at gøre til open source. Og det er til trods for, at selskaberne har egne alternativer til GitHub-platformen. Google valgte ligefrem at lukke Google Code, og selvom Microsoft stadig driver alternativet CodePlex, vælger man at frigøre software på den platform, hvor brugerne befinder sig – altså Github.
Læs også: Microsoft opkøber GitHub
Fordi udviklingsplatformen er så uhyre populær, er der omvendt også en række forskere, som tvivler på, at Microsoft vil forringe GitHub al den stund, at de så vil gøre stor skade på deres eget renome. Så tjenesten forbliver nok nogenlunde ens - eller endda bedre.
»Jeg bruger ofte Github i samarbejde med andre forskere og udviklere over hele verden også som en del af videnskabelige projekter. Det forekommer usandsynligt for mig, at der vil være større ændringer i, hvordan Github opererer - i det mindste i de næste to til tre år. Microsoft har jo ændret holdning i løbet af de sidste to årtier fra at at være rovdyr til at være inkluderende overfor udviklere,« mener Derczynski, lektor i computervidenskab ved NLP forskningsgruppen hos IT-Universitet til Ingeniøren.
Han fremhæver eksempelvis "Visual Studio Code" program-editoren, der er fuldt understøttet af Microsoft under Mac og Linux.
»Microsoft kan ikke få noget ved at krænke eller begrænse Github, som det er i dag. Jeg ser det mere som om, at Microsoft bærer og støtte Github - et ellers synkende firma - for at købe samfundsmæssig god vilje,« siger Leon Derczynski.
Microsoft har nu ligefrem fået mulighed for at forbedre vilkårene for videnskab, lyder det til Nature fra Katy Huff, kernekraftingeniør ved University of Illinois og Arfon Smith, som har 200 projekter liggende inde i GitHub beslægtet til sit virke som data-science manager ved Space Telescope Science Institute i Baltimore.
Platform er alt for centraliseret
Daniel Himmelstein, dataforsker ved University of Pennsylvania, ser Microsofts overtagelse af GitHub som et sekundært diskussions-emne. Han ser hellere, at forskningsverdenen får øjnene op for det problematiske ved selve brugen af GitHub – uanset hvem der så ejer udviklingsplatformen med projekter beliggende i 85.000 datalagre.
Og her kan vi erindre analogien med GitHub som vor århundredes pendant til biblioteket i Alexandria. Det var i antikken det største bibliotek i verden og gjorde Alexandria til et førende lærdomscenter.
Men biblioteket i Alexandria brændte og viden gik tabt, fordi der enten ikke altid var lavet eller styr på kopierne af bøgerne. Daniel Himmelstein peger på, at godt nok fungerer GitHub med et distribueret version-kontrol-system, som giver hver bruger sit eget datalager – såkaldt repository. De repositories kan blive delt blandt brugerne, så der er backups, hvis en server skulle gå i stykker. Men visse informationer såsom kommentarer på projekter eller ønsker om tilføjelser til kildekode, ja de bliver opbevaret på GitHubs eget site.
Læs også:Hele kildekoden fra Apollo 11 er på GitHub
Nogle af disse data udgør en vigtig del af de videnskabelige arkiver, men vi risikerer at de forsvinder helt på grund af censur, strømnedbrud eller lignende, påpeger Daniel Himmelstein overfor Nature.
Videnskabsfolk, som gerne vil opbevare alle historiske input i et forskningsprojekt med mindre risiko for at miste alle data, bør ifølge Himmelstein derfor hellere anvende udviklingsplatforme med decentrale host-systemer uden risiko for et såkaldt single point of failure.
»I den udstrækning at Microsofts opkøb spærrer folks øjne op for GitHubs centraliserede struktur, så overtagelsen en positiv ting,« mener Daniel Himmelstein.
