Ingeniørernes kulturarv slap uskadt fra skybruddet - modsat Børsens

Heldigvis kom de godt 300.000 sider indbundne årgange af ingeniørtidsskrifter, der kan siges at rumme "ingeniørernes kulturarv", helt uskadt fra vandmassernes hærgen af de københavnske kældre under skybruddet forrige lørdag.

Det kolossale regnvejr gav ganske vist lidt vand på gulvet i Ingeniørens kælderrum i det fjerneste hjørne af husets parkeringskælder i Skelbækgade på Vesterbro, men vi slap med skrækken. En oversvømmelse af kælderen ville have været et alvorligt problem for planen om at digitalisere den omfattende samling tidsskrifter, der er udgivet af skiftende danske ingeniørforeninger siden 1892.

Katastrofe for Børsen

Hensigten med projektet er som bekendt primært at gøre hele materialet tilgængelig for alle interesserede via nettet. Men de omfattende vandskader på mange kælderarkiver under skybruddet for 14 dage siden understreger et andet vigtigt aspekt, nemlig at digitaliseringen fjerner risikoen ved opbevaringen af en sådan kulturskat på skrøbeligt papir.

Hos dagbladet Børsen var man mindre heldig. I deres tilsvarende kælderarkiv steg vandet til 1,6 m over gulvet, så man nu kæmper med at redde, hvad reddes kan af avisens udgivelser siden 1896.

F.eks. gik det også ud over Børsens årgange fra 1971 til 1985, som man desværre ikke har dubletter af. De årgange forsøger man nu at frelse fra at ende som papmache gennem en proces, der bl.a. omfatter frysetørring. Endvidere er avisens uundværlige person-udklipsarkiv formentlig ødelagt.

Kun ingeniørblade

Men vores kulturarv er altså stadig intakt, og vi har nu et detaljeret overblik over både de tekniske problemer og omfanget af de titler, som skal indgå i projektet.

Efter den første offentliggørelse af planerne her på ing.dk fik vi en del henvendelser fra læserne med en række relevante forslag om også at medtage andre tekniske og ingeniørrelevante tidsskrifter i projektet. Vi vil naturligvis lade en mulighed for eventuelt senere at udvide projektet stå åben, men af økonomiske og praktiske grunde har vi foreløbig valgt kun at medtage de titler, som Mediehuset Ingeniøren/IDA har udgiverrettighederne til.

Foruden Dansk Ingeniørforenings oprindelige medlemsblad "Ingeniøren" (1892 - 1967), "Ingeniørens Ugeblad" (1957 - 1975) og Ingeniør-Sammenslutningens konkurrerende "Ingeniør- & Bygningsvæsen" (1937 - 1975), samt naturligvis det nuværende "Ingeniøren" (fra 1975), indgår heri også nogle mindre kendte tidsskrifter, som blev udgivet, inden I-S blev dannet i 1937.

Det drejer sig f.eks. om det oprindelige "Tidsskrift for Ingeniør- & Bygningsvæsen" (1906 - 1937) og "Tidsskrift for Elektro- og Maskinteknik" (1920 - 1935). Hvortil kommer DIF's tidsskrifter "Forskning" (1966 - 1971) og "Management" (1966 - 1975) samt specialudgivelsen "Året Rundt" (1969 - 1988).

Søgning på ord-niveau

Det er hensigten at organisere materialet i separate titler, så man kan 'bladre' sig tilfældigt igennem alle årgangene i perioder af særlig interesse. Men det skal også være muligt at søge tværgående i alle titler på ord-niveau. En søgning på et emne eller et person- eller et firmanavn vil altså give henvisninger til alle forekomster i databasen siden 1892, medmindre man indskrænker sin søgning til en bestemt periode eller udgivelse.

For at gøre databasens indhold og funktioner nemme at bruge for enhver interesseret, skal siderne være tilgængelige og kunne åbnes i enhver web-browser uden download og plugin, ligesom de sædvanlige funktioner i e-aviser, såsom 'print' og 'tip-en-ven' mv. skal kunne bruges.

Her finder I nogle prøvescanninger af nogle udvalgte ældre og nyere udgivelser, som vores tekniske rådgiver, firmaet Visiolink, har ladet foretage:

http://www.e-pages.dk/ming/4/teasers/small.jpg (1892)
http://www.e-pages.dk/ming/23/teasers/small.jpg (1914).
http://www.e-pages.dk/ming/15/teasers/small.jpg (1959)
http://www.e-pages.dk/ming/24/teasers/small.jpg (1972)
http://www.e-pages.dk/ming/25/teasers/small.jpg (1977)

Mangler afklaring af rettigheder

Som et sidste led i forberedelsen af projektet - bortset fra at skaffe yderligere fondsstøtte til at dække omkostningerne - er vi nu i forhandling med CopyDan om afklaring af rettighedsproblemerne til indholdet gennem en aftale om en såkaldt 'aftalelicens', der efterfølgende skal godkendes af Kulturministeriet..

Aftalelicens gælder udgivelse af materiale i bl.a. de tilfælde, hvor det vil være aldeles uoverkommeligt og bekosteligt at identificere de forskellige ophavsmænd til artikler og billeder for evt. at kunne udbetale et beskedent vederlag til dem, der kan identificeres. Et møde med CopyDan herom finder sted i begyndelse af august.

Gratis adgang

Vi har desuden på forhånd gjort det klart, at det både vil være i strid med projektets ideelle målsætning om at give fri og gratis adgang til "ingeniørernes kulturarv", og i praksis uoverkommeligt, hvis man forestiller sig, at brugerne skulle betale løbende for at læse og søge i databasen - f.eks. pr. viste side - via et såkaldt mikrobetalingssystem.

Sådanne systemer kræver gerne, at brugerne registrerer sig og forudbetaler et depositum, og det vil i sig selv begrænse anvendelsen drastisk. Desuden ville det kræve en investering og tilhørende økonomiadministration til dette specielle formål, som vi ikke kan påtage os.

Derfor forventer vi, at vi gennem CopyDan kan opnå en tilsvarende ordning, som blev gennemført for den række tidsskrifter, som formidlet af Det kgl. Bibliotek indgår i databasen 'tidsskrift.dk', dvs. betaling af en rund sum en gang for alle for en aftalelicens.

Kun på denne måde kan vi kalkulere med rettighedsomkostningerne i vores ansøgninger om støtte til gennemførelse af projektet hos diverse fonde. Projektets tekniske omkostninger er foreløbig kalkuleret til ca. 700.000 kr. IDA's "Videnformidlingsfond" har på forhånd givet tilsagn om at støtte projektet med 150.000 kr. under forudsætning af, at resten af finansieringen dækkes af andre fonde.

sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først

De fire eksempler kræver Flash-plugin for mig...

Jeg glæder mig til at projektet kommer igang og håber at nogle af Danmarks ingeniørtunge virksomheder vil skillinge i kassen til det gode formål.

En lille million burde ikke tage lang tid at finde hos Topsøe, Grundfos, FLS, Vestas, Rockwoll, Velux osv.

  • 0
  • 0

De fire eksempler kræver Flash-plugin for mig...

Jeg glæder mig til at projektet kommer igang og håber at nogle af Danmarks ingeniørtunge virksomheder vil skillinge i kassen til det gode formål.

En lille million burde ikke tage lang tid at finde hos Topsøe, Grundfos, FLS, Vestas, Rockwoll, Velux osv.

P-H K er inde på et meget vigtigt emne - dokumentformater

Jeg vil meget håbe at ingeniøren holder sig langt væk fra lukkede dokument standarder alene af hensyn til at de digitaliserede dokumenter stadig kan læses om mange år.

Det er de her her formater jeg tænker på: * Metadata i Dublin Core * HTML (uden Javascript)+CSS+billeder * PDF * rå tekst i UTF-8 og lignende

  • 0
  • 0

......at læse linkene:o)

Som ukyndig.....hvorfor skulle man ikke kunne læse PDF som er et meget udbredt(og irriterende format) om nogle årtier? Det er vel kun et spørgsmål om programmel. Jeg har set programmer der giver adgang til Commodore pg ZX 80 spil.

@ PHK

Det er kun virksomheder der han fonde til finacieringsformål af den art, der vil kunne gøres interesserede i en donering. Her er Vestas udelukket, men Rockwoll og Veluxfondene, ville uden tvivl ikke være afvisende.

  • 0
  • 0

P-H K er inde på et meget vigtigt emne - dokumentformater

Ja. Der til kommer at e-pages.dk er en plage at bladre rundt i. Man kan ikke få et direkte link til én bestemt side og man kan ikke søge en dato - her skal man bladre tilbage i årstal, hvilket tager noget tid når det er 100 år.

Det ser ud som om e-pages.dk er beregnet til fremvisning af det lokale supermarkeds tilbudsavis, og her er det ikke tit at nogen bladre 100 år tilbage.

Jeg vil meget håbe at ingeniøren holder sig langt væk fra lukkede dokument standarder...

Det er de her her formater jeg tænker på: ... * PDF

PDF er også et irrterende format. Det kan du iøvrigt download fra e-pages, men det gør det ikke nemmere og sjovere at læse de gamle skrifter.

Hvis blot ing.dk sikre sig at få alt råmaterialet som ligger til grund for at lave nuværende flash-udgave, hvilket er scanninger og OCR-teksten, så er det lille opgave på et senere tidspunkt at få lavet det ordentligt.

  • 0
  • 0

Jep, Flash dur naturligvis ikke.

Det gør det også umuligt at bruge dem på en iPad, og efter hvad jeg har læst findes der endnu ikke en iPad-konkurrent, der har løst Flash-problemet.

Enten findes Flash 'endnu ikke', eller også kører tavlen ekstremt langsomt, lige som batteriet hurtigt aflades.

  • 0
  • 0

...så skal vi nok løse problemerne.

Tak for jeres kommentarer. Det er naturligvis en af de uomgængelige tekniske betingelser, at vi gemmer i et format, der er 'fremtidssikkert' - digitaliseringen skal gennemføres én gang for alle Desuden skal vi naturligvis kunne præsentere alle data på en måde, som giver de optimale søgemuligheder, som jeg antyder i artiklen.

Skriv jeres ønsker her i tråden - og fortæl os, hvad I mener, vi især skal passe på for ikke at få tekniske problemer sidenhen, så skal jeg nok komme efter vores teknikere! Venlig hilsen Erik

  • 0
  • 0

Det er megt godt med idealer og ønsker om eksotiske platform uafhængive it-formater - men hold nu ikke fanen højer end føderne kan nå papkassen.

Det rigtige valg må være et standard-valg som bruges af andre, store brugere - uanset ejerforhold og platforme.

Et sådant valg vil sikre, at der bliver udviklet konverteringer i fremtiden, så det scannede materiale kan læses i en lang fremtid (efter komplet konvertering, eller efter en konvertering efter behov.

Der er store spillere på banen, så følg efter dem !

  • 0
  • 0

...så skal vi nok løse problemerne. ... Skriv jeres ønsker her i tråden - og fortæl os, hvad I mener, vi især skal passe på for ikke at få tekniske problemer sidenhen

Ting jeg mener i bør kigge nærmere på.

Gem ikke indscannede ting i en database (i det mindste til at starte med). - Ideen er at generere indhold automatisk i et andet format (pdf, HTML+CSS+billeder til webbet, og flere) automatisk via en oversætter. - Metadata fra for eksempel Dublin Core filer kan genere en database over indholdet. Skifter man til en inkompatibel database i fremtiden, kører man bare oversættelsen fra Dublin Core format til database en gang til. - Husk også at lade være med at gemme filer i en database. Filer der kun skal læses opbevares bedst i filsystemet, især når det er sådan at filerne stort set altid kun skal læses efter at projektet er gennemført. Hvis i alligevel gemmer filer i databasen bør det kun være filer som er et resultat af den før nævnte oversættelse.

Metadata, data om data kan i med fordel gemmes i Dublin Core. Det bruges blandt andet af biblioteker. Billeder har jeg hørt et sted gemmes i ratergrafikformatet TIFF:

The TIFF (Tagged Image File Format) format is a flexible format that normally saves 8 bits or 16 bits per color (red, green, blue) for 24-bit and 48-bit totals, respectively, usually using either the TIFF or TIF filename extension. TIFF's flexibility can be both an advantage and disadvantage, since a reader that reads every type of TIFF file does not exist. TIFFs can be lossy and lossless; some offer relatively good lossless compression for bi-level (black&white) images. Some digital cameras can save in TIFF format, using the LZW compression algorithm for lossless storage. TIFF image format is not widely supported by web browsers. TIFF remains widely accepted as a photograph file standard in the printing business. TIFF can handle device-specific color spaces, such as the CMYK defined by a particular set of printing press inks. OCR (Optical Character Recognition) software packages commonly generate some (often monochromatic) form of TIFF image for scanned text pgs.

(fra http://en.wikipedia.org/wiki/Image_file_fo... )

Jeg lægger mærke til at der i Wikipedia artiklen står at scannere gemmer monokrom billeder i TIFF format af tekst.

og sidst: Kulturministeriet deler information om bevaring af digitale data. Kig på: http://digitalbevaring.dk/kulturinstitutio...

Selv om i naturligvis skal bruge det bedste produkt til opgaven vil jeg gerne henlede opmærksomenheden til dette Open Source projekt: http://fedora-commons.org/

Jeg ville personligt have en tendens til at bruge Open Source for undgå vendor lock-in, eller stå i en ubehagelig software situation hvor firmaet bag noget Closed Source går konkurs eller udslettes af en naturkatastrofe.

/Lars

  • 0
  • 0

Der følger et fantastisk billedmateriale med i form af både fotos, stregtegninger.

Glem ikke at kvaliteten af billeder er et helt andet spørgsmål og helt andre parametre end kvaliteten af tekst når der skal digitaliseres.

  • 0
  • 0

Mnjaeh, både ja og nej. Hvis man har adgang til de originale billeder er der grund til at gøre noget alvorligt ud af det, men hvis det "blot" er rastergrafik billeder fra papir, så er der ikke rigtig noget at hente - informationstabet er allerede stort.

M

  • 0
  • 0

Netop! Jeg tror ikke der er nogen vej uden om skanne i et grafisk format og ikke kun redde tekst. Vi er lige så interesseret i layout, reklamer og billeder som den faktuelle tekst.

Selve scanningen er nu altid grafisk - det er den efterfølgende OCR behandling der konverterer grafikken til tekst. Den proces er typisk kun interessant hvis man vil gøre den søgbar.

Her er det vigtigt at skanne til et non-lossy format, så man kan gendanne originalen i det omfang den originale skanning tillader. Selve skanningskvaliteten kan jo ikke gøres bedre end dagens standard tillader. Vi må håbe papiroriginalerne overlever, så de kan genskannes om 20 år, når teknologien er bedre.

Det kan f.eks. være TIFF, men det er altid en god ide at konvertere efterfølgende til f.eks. PNG - der kan spares en del MB på det. Mht. "bedre teknologi i fremtiden", så er der ikke megen grund til det. Nutidens teknologi kan sagtens hive alt relevant ud af avissider. Faktisk kan en for høj scanningskvalitet blive et problem idet man vil få en del støj der forringer OCR behandling. Når man som her har et mix af billeder/grafik og tekst kan det være ekstremt fordyrende.

M

  • 0
  • 0

Ting jeg mener i bør kigge nærmere på.

Gem ikke indscannede ting i en database (i det mindste til at starte med). - Ideen er at generere indhold automatisk i et andet format (pdf, HTML+CSS+billeder til webbet, og flere) automatisk via en oversætter. - Metadata fra for eksempel Dublin Core filer kan genere en database over indholdet. Skifter man til en inkompatibel database i fremtiden, kører man bare oversættelsen fra Dublin Core format til database en gang til. - Husk også at lade være med at gemme filer i en database. Filer der kun skal læses opbevares bedst i filsystemet, især når det er sådan at filerne stort set altid kun skal læses efter at projektet er gennemført. Hvis i alligevel gemmer filer i databasen bør det kun være filer som er et resultat af den før nævnte oversættelse.

Jeg er absolut ikke enig i at dokumenter/billeder skal ligge som filer. Det betyder at du er nødt til at genopfinde noget som databaseprogrammet allerede kan - administration, backup, join mmm. Jag arbejder selv med arkivering af netdokumenter (pdf) samt indskannede billeder af bøger (for/bagsider, kolofon, titelblad (to sidste er dog pdf)) og det bliver puttet i en oracle base.

Metadata, data om data kan i med fordel gemmes i Dublin Core. Det bruges blandt andet af biblioteker.

Både ja og nej. Der er nogle data i biblioteksverden der lagres som DC, men den massive part ligger i MARC formatet. DC er fint nok hvis man kun ønsker at have simple metadata, og det er jo nok tilfældet her. Det kunne dog være sjovt hvis råteksten fra artiklerne blev puttet i et fritekst index - dog med en stor fed stopordsliste ;-).

M

  • 0
  • 0

Erik Lyngsø-petersen:

De forslag jeg har, går alene på de ting som e-pages.dk ikke kan.

  1. Nem mulighed for at søge en bestemt udgivelse ud for en bestemt årgang.

  2. Mulighed for at linke direkte til en artikel, ellers direkte til en bestemt side.

  3. Mulighed far at kunne gemme artiklen som grafikfil på sin harddisk.

  4. Mulighed for at man kan se artiklerne med en Smartphone (Android/iPhone).

  • 0
  • 0

Erik Lyngsø-petersen:

De forslag jeg har, går alene på de ting som e-pages.dk ikke kan.

  1. Nem mulighed for at søge en bestemt udgivelse ud for en bestemt årgang.

  2. Mulighed for at linke direkte til en artikel, ellers direkte til en bestemt side.

  3. Mulighed far at kunne gemme artiklen som grafikfil på sin harddisk.

  4. Mulighed for at man kan se artiklerne med en Smartphone (Android/iPhone).

Jeg kunne så tilføje:

  1. Mulighed for at man kan se artiklerne med en tavle (iOS/xxx).
  • 0
  • 0

@Michel Beggren, 18. jul 2011 kl 22:19

Jeg synes at du behændigt lige overså den del der hedder [b]oversætter[/b].

Selvfølgelig bruger de fleste en database - det skal bare helst ikke ske på råmaterialet, der evt er OCR behandlet for teksts vedkommende. Transformation fra råmaterialeformat til en database kan fint foretages automatisk af et program, en oversætter.

Iøvrigt hedder den arbejdsmetode: Language Oriented Programming. http://www.cse.dmu.ac.uk/~mward/martin/pap... http://www.onboard.jetbrains.com/articles/... http://www.martinfowler.com/articles/langu...

/Lars

  • 0
  • 0
Bidrag med din viden – log ind og deltag i debatten