Spørg Scientariet: Hvordan sikrer man historiske onlineartikler mod pilfingre?
Vores læser Jannik Landt spørger:
Når man i dag digitaliserer en hel del af vores kulturarv, artikler, data, nyheder mv., hvordan sikrer man sig så mod, at der bliver pillet ved disse data?
Både hvad angår at sikre sig mod online-skriveadgang, men også hvordan man kan kontrollere, at der ikke er noget, der bliver småjusteret med tiden.
Jeg er ikke teknisk inde i den slags, men jeg kunne forestille mig noget med tjeksummer eller kodning.
Læs også: Spørg Scientariet: Hvordan arkiveres statslige beslutninger for eftertiden?
Brian Vinter, professor på Niels Bohr Institutet, svarer:
Helt præcist må man nok sige, at der ikke findes en enkelt måde at sikre data-integriteten på for langtidsarkiver, og forskellige organisationer bruger forskellige metoder.
Overordnet set er der ikke forskel på at sikre integriteten af en generel digital datafil og en arkivfil, om end man til arkiver må bekymre sig lidt mere om tidsperspektivet.
Din tanke om checksum er helt korrekt, dvs. at man kører de skrevne ord gennem en checksumsfunktion og får et tal. Vil man senere tjekke teksten, skal resultatet derfor gerne være det samme, ellers kan der være pillet i teksten.
Man bruger en særligt sikker checksum, f.eks. en naiv checksum, som f.eks. ville indebære, at man blot tager den numeriske værdi for hvert bogstav i en tekst og adderer dem, så bliver checksummen af teksten: 'Tak for din besked, det er ok!' til 2571.
Læs også: Spørg Scientariet: Hvad kan bedst betale sig – standby, dvale eller slumretilstand?
Hvis jeg ønsker at ændre den besked, kan jeg lave den til 'Vedr. dih mail! Det er ikke Ok!', der er et ekstra mellemrum og en tastefejl (mellemrummet kan ikke ses tydeligt i Ingeniørens system, men i Brian Vinters forklaring optræder det mellem ! og Det, red.), men meningen er til at forstå, og den naive checksum er stadig 2571, konklusionen i beskeden er dog inverteret!
Hashing koster regnekraft
Man laver i stedet en såkaldt secure-hash-checksum, dvs. at checksummen ikke blot er en simpel sum, men baseret på at envejsfunktion, der gør det vanskeligt at generere en alternativ tekst, der har samme checksum, sådan at det bliver noget nær umuligt at ændre i filen uden at komme i konflikt med checksummen.
Det har vist sig at være vanskeligere end først antaget at lave sådanne sikre envejsfunktioner, og mange operativsystemer brugte at gemme passwords som et MD5 hash. Dermed kunne man umuligt aflure en brugers password, selvom man fik adgang til filen med hash af passwords. I dag har det imidlertid vist sig, at det er relativt let at knække MD5-baserede checksummer.
Læs også: Spørg Scientariet: Hvilke lagringsmedier er mest holdbare i tilfælde af solstorm?
Den nyeste tilgang er SHA3 hash, der kommer i en række varianter, er langt mere avanceret og kræver en del mere regnekraft at beregne. Regnekraft betyder noget for sikkerhed og systemydelse, men da filer, der skal langtidsarkiveres, ikke kører under specielt intensive driftsforhold, kan man her vælge at bruge den mest sikre checksumsmetode og se bort fra hastigheden, checksummen kan beregnes med.
Hvis man i dag tager et digitalt arkiv og udstyrer det med en SHA3-512-checksum, kan man derfor antage integritet i en længere periode frem i tiden. Der findes mere avancerede variationer af secure-hash, og vi vil i fremtiden se udvikling også der.
Men hvis bekymringen generelt er at sikre, at manipulerede digitale arkiver ikke præsenteres som ægte, er en checksum ikke helt nok, idet institutionen, der udbyder materialet, jo også kan udsættes for identitetstyveri.
En falskner vil altså kunne præsentere et falsk datasæt og generere sin egen korrekte checksum på de data. For at forhindre noget sådant må man bruge digital signering af checksummen. Det gør man ved at bruge asymmetrisk kryptering.
Institutionen, der publicerer et arkiv, har til det formål to nøgler, en hemmelig og en offentlig. Checksummen krypteres med den hemmelige nøgle og kan kun dekrypteres med den offentlige nøgle.
Læs også: Spørg Scientariet: Hvordan skaber man vakuum i en partikelaccelerator?
I princippet bringer denne løsning os ikke nærmere integritet, da en identitetstyv blot kan præsentere falsk data med checksum, der er signeret med et falsk nøglepar.
For at komme uden om det problem får man en anerkendt ’Certificate-Authority’ til at signere institutionernes offentlige nøgler og dermed bekræfte deres identitet, dvs. at man ikke selv validerer sine nøgler og dermed kan en identitetstyv ikke blot lave sine egne heller.
Forskning gemmes på bånd
Ud over digitale teknikker til integritetsbeskyttelse kan man også bruge mere lavpraktiske metoder til at sikre integriteten af data.
Når en forsker på KU Science opretter et arkiv til sikring af forskningsdata, sker der først det, at ejerskab af datafilerne overdrages fra forskeren til ERDA (Electronic Research Data Archive), og filerne markeres med read-only-tilgang. Derefter sendes en kopi af arkivet til bånd, der drives af Tapr, et arkivsystem, der ikke tilbyder, at data kan overskrives, og integriteten er dermed garanteret.
Det lidt omstændelige system gør, at vi kan garantere integriteten af data for fremtidige undersøgelser.
Læs også: Spørg Scientariet: Hvorfor er sikkerheden på betalingskort så ringe?
Næste udfordring er så de mere teknologiske, nemlig at sikre at en kopi, der skrevet i 2018 stadig kan læses i 2068, men den historie bliver nok for lang til at tage med her.
Rigsarkivet: Tre uafhængige kopier er nødvendige
Chefkonsulent Jan Dalsten Sørensen, leder af Rigsarkivets område for Digital Bevaring og Oparbejdning, supplerer med oplysninger om deres strategi:
Vi anvender også tjeksummer, sådan som Brian Vinter har beskrevet det.
Rigsarkivet har et skarpt skel mellem bevaringseksemplarer og tilgængeliggørelses-eksemplarer af den digitale samling. En ekstern bruger vil aldrig få adgang til bevaringslageret, hvor de autoritative kopier af materialet findes. Bevaringseksemplarer findes i tre uafhængige kopier, forsynet med tjeksummer, som løbende kontrolleres.
Læs også: Spørg Scientariet: Hvordan opdateres antivirusprogrammer?
Skulle det (helt teoretisk) lykkes en ekstern bruger at ændre på tilgængeliggjorte dokumenter, vil det altid være muligt at krydstjekke med bevaringseksemplarerne og opdage fejlen. Det vil ikke være muligt for en bruger at lægge et falsk datasæt i Rigsarkivets bevaringslager.
Hjemmesider gemmes også
Den opgave, som Det Kgl. Bibliotek varetager i denne henseende, er bevaringen af det digitale materiale, som er udgivet/publiceret (og som derfor er underlagt loven om pligtaflevering) samt indhøstning af danske websider.
Rigsarkivet varetager bevaringen af det digitale materiale, som skabes i den offentlige forvaltning, og som ikke publiceres – det kan være sager/dokumenter fra forvaltningens ESDH-systemer (Elektroniske sags- og dokumenthåndteringssystemer), data fra diverse fagsystemer og grunddata (CPR-registret, BBR-registret, Landspatientregistret, diverse skatteregistre osv. osv.).
Vi bevarer også data fra forskellige forskningsprojekter, ofte i form af data fra spørgeskemaundersøgelser/surveyundersøgelser samt data fra visse private personer og organisationer af særlig betydning.
Vi bevarer dog ikke alt. Statslige myndigheder skal anmelde nye it-systemer til os, jf. cirkulære om anmeldelse og godkendelse af it-systemer.
Efter anmeldelsen træffer vi en beslutning om, hvorvidt data i systemet skal bevares eller ej. For kommunale og regionale myndigheder er der fastsat nogle generelle bestemmelser, som kommunerne/regionerne selv skal vurdere deres it-systemer i forhold til.
