Av Therese Foldvik.
(Overskriftsbilde: Et utsnitt av de forskjellige dokumenttypene som vi har lastet opp i Transkribus. (Skjermbilde fra Transkribus))
Et av målene med SAMLA er å ha transkripsjoner som lesestøtte til materialet vi publiserer. For å få gode nok transkripsjoner ligger det en god del prøving og feiling bak.
For å lage transkripsjoner av alle de tusenvis av bildene vi har avfotografert og skannet i løpet av første fase av SAMLA, vil det ta alt for lang tid å gjøre jobben manuelt. Derfor har vi valgt å bruke verktøyet Transkribus til å gjøre jobben. Det er et nettbasert verktøy som er mye brukt rundt om på forskjellige institusjoner, i både større og mindre prosjekter.
I Transkribus kan man laste opp dokumenter man ønsker å transkribere. Her ligger det allerede mange tekstgjenkjenningsmodeller, basert på forskjellige språk, forskjellige perioder og forskjellige typer håndskrift. Noen av tekstgjenkjenningsmodellene er laget av teamet bak Transkribus, mens mange er laget av forskjellige institusjoner som bruker Transkribus, som har valgt å dele sine modeller med resten av brukerne.
Ett steg i prosessen med å lage gode nok transkripsjoner, er først å finne ut hva «godt nok» egentlig er. Ved automatisk tekstgjenkjenning vil det ikke bli hundre prosent korrekt tekst. Akkurat som mennesker vil den ta feil. Noen håndskrifter kan være vanskeligere å tolke enn andre, og det blir dermed mer feil i noen transkripsjoner enn i andre. SAMLA ønsker at transkripsjonene første og fremst skal være en lesestøtte til materiale som kanskje ellers er vanskelig å lese. Dermed trenger ikke transkripsjonene være ett hundre prosent korrekt, men blir såkalte «dirty transcripts».
I oppstarten og underveis i prosessen med å lage transkripsjoner har SAMLA har testet noen av de tilgjengelige tekstgjenkjenningsmodellene i Transkribus. Den største norske modellen er Nasjonalbibliotekets NorHand 1820-1940, og den som har truffet best på materialet i SAMLAS tre arkiv. Det har derimot vist seg at den sliter med en del av materialet, noe som kan skyldes flere ting. En årsak kan være at mye av materialet vi sitter på bærer preg av å være kladder, med mye slurvete håndskrifter. Den andre, kanskje viktigste årsaken, er at materialet vårt ofte er skrevet på dialekt.
Tekstgjenkjenningsmodeller baserer seg på statistiske utregninger ut fra ord og setninger i det materialet den har trent på. Hvis en modell er trent opp på materiale som er skrevet på kun én dialekt, så er det denne statistikken som ligger bak gjetningene på ord i en tekstgjenkjenningsprosess. Hvis det i teksten for eksempel står «katta mi» med en litt slurvete håndskrift, kan modellen gjenkjenne det som «katten min».
Fordi de eksisterende offentlige modellene har varierende kvalitet på transkripsjonene, begynte vi tidlig å jobbe med egne tekstgjenkjenningsmodeller, i håp om at de kanskje gjør en bedre jobb med materialet vårt. Men for å lage egne modeller, trenger man treningsmateriale. Det kreves en god del helt korrekt transkribert materiale som deretter kan brukes til å trene opp nye modeller. Det finnes flere måter å lage treningsmateriale, og i SAMLA er vi i gang med disse tre:
- Transkribere dokumenter fra bunnen av.
- Bruke eksisterende transkripsjoner ved å importere dem inn i Transkribus.
- Kjøre dokumenter gjennom en tekstgjenkjenningsmodell, og så korrigere de feilene man finner.
Det skal en del materiale til for å få et godt nok grunnlag for å trene en modell. Det kreves minst ti sider korrekt transkribert materiale av én håndskrift for å lage en tekstgjenkjenningsmodell som kan lese den samme håndskriften. Dermed sier det seg selv at det kreves mye mer materiale for å kunne lage en eller flere modeller som kan lese det komplekse materialet som kommer fra SAMLAs tre arkiv. I dag har vi begynt å jobbe ut fra teorien om at det kan være nyttig å dele materialet inn i dialekter, og har begynt å fokusere på tre områder hvor vi vet at vi har mye materiale: Sogn og Fjordane, Hordaland og Telemark.
Foreløpig er det for tidlig å si om det vil gi resultater, det kreves både en del arbeid med å lage transkripsjoner, og å finne eksempler fra forskjellige hender i materialet. Samtidig brukes alt treningsmaterialet vi lager også inn i en større og mer generell SAMLA-modell, for å se hvilket utslag det gir å samle alt arkivmateriale i en modell.
Lenker og litteratur:
Transkribus – Unlocking the past with AI
NorHand 1820-1940 – Public Transkribus AI Model (readcoop.eu)
Read-Write-Learn | Proceedings of the ACM Symposium on Document Engineering 2023