Af Astrid Lystbæk Andersen (arkivar v. Gribskov Arkiv)
I vinteren 2023 gik Gribskov Arkiv endelig ind i RETRO-projektet. Efter en udfordrende start har vi nu 1.300 søgbare sider og kan bryste os af en yderst effektiv Gribskov-model. De dyrekøbte erfaringer deler vi her i håb om at inspirere andre arkiver til at komme med på RETRO-rejsen.
”I dag går en gammel drøm i opfyldelse”, siger min chef Pernille Sonne en tirsdag formiddag i februar 2023. Drømmen om at NU kommer vi også i gang med at transskribere vores sognerådsprotokoller.
Og vi har mange! På den gode side af 100 vil jeg tro. De dyrebare protokoller har i årevis stået i sirlige rækker på hylderne i arkivets magasiner. Gemt væk fra offentligheden og svære at læse, hvis man spørger min generation af ”unge folk” i 30’erne, der ikke er opflasket med de flotte, snørklede håndskrifter.
Begejstringen var derfor ekstra stor, da jeg i foråret 2022 blev præsenteret for Transkribus i sin ”nyeste” form til en workshop på Frederiksberg. Jeg sad med åben mund og stirrede, da programmet efter ganske få klik med musen transskriberede de kruseduller, jeg ikke selv kunne læse. En aha-oplevelse af de helt store! Så jeg kom smilende hjem til Gribskov og deklarerede, at nu skulle vi også i gang. Men på et stadsarkiv med tre ansatte og mange driftsopgaver er det sin sag at prioritere nye, større projekter. Derfor gik der mange måneder, før vi langt om længe kom på RETRO-kortet.
Startskuddet
Vores RETRO-rejse startede i december 2022, da vi blev kontaktet af H.C. – en frivillig fra Helsingør, der havde henvendt sig via Retrodigitalisering.dk. Helsingør er ca. ½ time fra Græsted i Nordsjælland, hvor Gribskov Arkiv har til huse. Så det kunne fint lade sig gøre for H.C. at hægte sig på os. H.C. havde tidligere transskriberet protokoller for Rigsarkivet og havde i øvrigt en baggrund som historiker og freelance IT-konsulent. Det skulle senere vise sig at være meget brugbare kompetencer, som vi her fik glæde af.
I løbet af få uger blev Java og Transkribus installeret på alle vores computere, og vores store indscannede PDF-filer med protokolsider blev konvertereret til JPG og lagt ind i Transkribus. Det nuværende Gribskov Kommune var engang syv sognekommuner med hver sit flittige sogneråd. Så vi måtte prioritere, og startede med de fire sogne, der var mest attraktive blandt vores frivillige H.C., Sven, Flemming og Inge, der skulle oplæres i Transkribus. Vi var også så heldige at få fint besøg af projektleder Mia Gulvad Jørgensen fra Aarhus Stadsarkiv i begyndelsen af 2023. Placeret rundt om det gamle sognerådsbord fra Græsted-Mårum sad personale og frivillige og lyttede til Mias gode tips og tricks.
Alle fulgte nysgerrigt med. Men det var sin sag at forstå, hvordan man segmenterede håndskrifter i Transkribus, der har et utal af muligheder for at klippe, trække og skære i både linjer og tekstregioner. Det gav lidt flere grå hår i hovedet hos de fleste af os.
Opstarten var svær
Den næstkommende tirsdag blev jeg også mødt af et: ”Astrid, det kan du ikke være bekendt!” fra Sven, en af vores faste frivillige. Måske var det ment lidt i spøg, men det første bekendtskab med Transkribus havde været noget af en mundfuld for den 80-årige herre. Segmenteringen var en udfordring. Og det særlige klik med musen, når man skal lave tekstregioner, drillede. Umiddelbart var det ikke lige dét arbejde, han havde sagt ja til. Det var jo selve korrekturlæsningen af protokollerne, der var den sjove opgave. Så hvad gjorde vi?
Løsningen blev i første omgang, at jeg stod for at segmentere siderne på forhånd. Og så tog de frivillige sig af korrekturlæsningen. Men nogen bæredygtig løsning var det bestemt ikke, simpelthen fordi det tog for meget af min tid. Netop derfor var vi også meget taknemmelige over, at H.C. havde en baggrund i IT-branchen. I løbet af ganske få uger vidste han mere om Transkribus’ kringelkroge, end arkivets medarbejdere selv gjorde. Derudover var han villig til at lære fra sig. H.C. blev vores nye superbruger og et omvandrende leksikon med svar på store og små spørgsmål om segmentering, tags og understregninger.
Vores helt egen Gribskov-model
Derfor giver jeg ordet videre til H.C., der her fortæller om sit arbejde med Transkribus og udviklingen af vores egen Gribskov-model:
Jeg begyndte som helt ny på Gribskov Arkiv i december 2022, også helt ny på Transkribus. Det tog vel et par måneder at blive helt fortrolig med Transkribus, men så gik det også flydende. Der var bare mange fejl, cirka 8-9 per linje. Det betyder, at mange ord var helt på månen, som ministeren siger. Vi talte meget om de mange gennemgående fejl, og jeg begyndte at sætte mig ind i hvad der egentlig skulle til for at danne en ny model, med alle vores Gribskov-håndskrifter.
Der var ikke langt fra tanke til handling. Så i sommeren 2023 gik H.C. i gang med at undersøge, hvordan man træner nye modeller i Transkribus. Første forsøg var den 7. august, og her fortæller han om processen:
Jeg brugte Aarhus’ model som Base Model og efter cirka 14 timer var den færdig. Desværre var jeg ikke helt tilfreds med oversættelsen, og jeg havde heller ikke helt forstået “Validation”, altså det som modellen skal testes op imod. Så jeg kørte den næste model dagen efter, og kaldte den “Danish 1870-1940 Gribskov v1.0 PyLaia”. Jeg brugte min forrige model som Base Model. Det tog igen cirka 14 timer. Nu kom de andre sogne og kollegaer med på vognen, og de var også godt tilfredse med den nye model. Siden kom v1.1 den 29. august, og v1.2 den 3. oktober, begge uden Base Model, kun de færdige transskriptioner fra 4 sogne som grundlag.
Vi har fået færre fejl
Der er ingen tvivl om, at Gribskov-modellen er en stor succes! Fra at have 8-9 fejl pr. linje, er vi nu nede på 0-2 fejl. Og det kan mærkes på arbejdsglæden! ”Nu er siderne blevet meget nemmere at læse, og det er en fornøjelse”, udbrød Inge, der sidder med Blistrups protokoller. Pludselig kan vi nå flere sider på kortere tid – i hvert fald så længe sognerødderne ikke skifter sekretær. En ny sekretær betyder nemlig ofte, at vi igen er tilbage ved de 8-9 fejl. Og det kan være frustrerende at opleve. Men også den udfordring løser H.C. ved at tage en ”smagsprøve” fra alle protokollerne og tage dem med i testkørslen. De 10 første sider og 10 sidste sider er nok, mener H.C. Så i øjeblikket er han ved at udplukke sider fra diverse protokoller for at gøre vores Gribskov-model endnu mere modstandsdygtig over for sekretær-skift.
Selvom vi har H.C. og vores tre andre dygtige frivillige, så tager jeg stadig projektlederrollen på min kappe. Det er vigtigt for Gribskov Arkiv, at vi som medarbejdere er synlige og kan tage de svære beslutninger, så intet tynger på de frivilliges skuldre. Vi har ansvaret for de færdige sider, og jeg står gerne på mål for kritik, fejl og mangler. Det er også derfor, jeg stadig klargør nye protokolsider, korrekturlæser, eksporterer og lægger siderne på vores hjemmeside. På den måde starter og slutter transskriberingen hos mig.
Eksporteringen driller stadig lidt
Én af de helt store udfordringer, som vi stadig kæmper med, er at alle vores protokoller er scannet ind som dobbelt-sider. Det betyder blandt andet, at nogle af de eksporterede sider ser frygtelige ud. ”De er syge”, sagde Flemming til mig forleden, da jeg igen (igen) forsøgte at rette op på problemet. Vi har også eksperimenteret med at eksportere i Word i stedet for PDF. Det giver bare den ulempe, at de originale protokolsider er adskilt fra de transskriberede sider.
Af en eller anden grund er det særligt slemt i protokollen for Søborg-Gilleleje Sognekommune, hvor nogle af de eksporterede sider er ulæselige. Skrifttypen er flere steder blevet så lille, at den ikke kan ses med det blotte øje. Det er fejlmeldt, så vi krydser fingre for, at det løser sig med tiden.
De frivillige blomstrer
Trods vores udfordringer nyder jeg hver tirsdag at se fire frivillige, der er dybt begravet i hver deres protokol. Ofte kommer der lette grin fra dem, fordi de har læst en sjov sætning eller er stødt på en kendt person på siderne. Og så har vi oplevet en stor udvikling hos alle fire frivillige. Inge, Sven og Flemming var i begyndelsen enige om, at det her projekt var svært – måske også for svært. Men lidt efter lidt fandt de hver især deres vej ind i Transkribus-labyrinten. ”Det er blevet sjovere og sjovere, fordi det er blevet nemmere og nemmere at læse”, fortalte Inge om hendes tætpakkede protokolsider. Flemming stemte i og fortalte, at han synes, det var enormt skægt at læse om de beslutninger og personer, han kunne huske fra sin barndom i Tisvilde. Det giver ham motivation til at fortsætte, når segmenteringen bøvler.
Der er ingen tvivl om, at lokalkendskab er en fordel for de frivillige. Det er både en stor motivation for at deltage, men også i læsningen af protokollerne. ”Hvorfra skulle vi ellers vide, at Græsted Sk betyder Græsted Skovhuse”, pointerer Sven, der selv har sværest ved at læse medlemmernes underskrifter. Selve mødereferatet giver ham ingen problemer længere.
En succeshistorie
Fællesskabet blandt de frivillige hver tirsdag er en sidegevinst, som virkelig varmer mit hjerte. Ofte deler de sjove historier med hinanden og klukker over de opfindsomme stavefejl, som maskinlæsningen nogle gange giver. Succeshistorierne er mange. Særligt vil jeg fremhæve vores nu 81-årige ven Sven, der har gennemgået en stor udvikling i den tid, han har transskriberet protokoller. Han er blevet vores alletiders højdespringer. Sidste uge alene havde han transskriberet 100 sider og sagde: ”Jeg vil hellere bruge min tid på Transkribus end at se fjernsyn for tiden.” Det er jo imponerende i betragtning af, at Sven var én af dem, der kæmpede mest i begyndelsen. Men det beviser bare, at alle kan lære det!