BREED - over de grenzen van informatie

NETWERK VOOR DE INNOVATIEVE INFORMATIEWERKER

Tekstherkenning (1): masterplan HTR, OCR en hybride modellen

26 september 2022

Het Stadsarchief heeft zich ten doel gesteld om de complete collectie, uit alle eeuwen en zowel handgeschreven, getypt als gedrukt, op elk woord vindbaar te maken. Dat is dankzij twee technieken ook mogelijk: Handwritten Text Recognition (HTR) en Optical Character Recognition (OCR). In deze nieuwe blogreeks Tekstherkenning alle ins and outs van dit masterplan, te beginnen met wat voor HTR- en OCR-modellen we nu ontwikkelen.

HTR en OCR tot nu toe

Om de enorme variëteit aan bronnen op elk woord vindbaar te maken moeten de HTR-en OCR-modellen een representatieve dwarsdoorsnede van de totale collectie vormen. De afgelopen vijf jaar hebben we ervaring opgebouwd met HTR-technieken om scans geautomatiseerd om te zetten in machineleesbare tekst, hiervoor werken we samen met Transkribus. Vrijwilligers van het Crowd Leert Computer Lezen-project op VeleHanden hebben hiervoor leesbare tot zeer moeilijk leesbare 17e en 18e handschriften getranscribeerd als trainingsmateriaal (de transcripties uit dit project zijn op deze site te raadplegen). Recentelijk zijn ook de 19e- en 20e-eeuwse indicateurs van Publieke Werken gedaan. Deze resultaten proberen we ook op gestructureerde wijze aan te bieden. Hierover in een volgende blog meer.

Inmiddels hebben we ook een pilot achter de rug op het gebied van OCR-modellen. Hier hebben we drie tools met elkaar vergeleken (ABBYY Finereader Server, Transkribus en Tesseract OCR) door deze toe te passen op scans van het Gemeenteblad. In de volgende blog Tekstherkenning gaan we uitgebreid in op de resultaten van deze pilot.

Masterplan

Zoals gezegd is het Stadsarchief van plan om alle gedigitaliseerde bronnen woordelijk doorzoekbaar te maken. Om dit doel te bereiken gaan we een masterplan opstellen. Wat dit plan gaat bevatten, staat nog niet helemaal vast, maar we beginnen bij een analyse van de collectie en beschikbare HTR- en OCR-modellen om te constateren voor welk type bronnen er nog modellen ontwikkeld moeten worden. Daarnaast zullen we werkprocessen uitwerken waarmee de al gedigitaliseerde collectie verwerkt kan worden en het transcriberen implementeren in ons huidige digitaliseringsproces. Dit alles wordt onderbouwd met een reële kostenraming om te zien wat er in de komende jaren haalbaar is en vrijgemaakt moet worden om dit doel te behalen.

Hybride model

Om alvast wat momentum te geven aan deze ontwikkeling, zijn we van start gegaan met het ontwikkelen van een hybride model, dat toegepast kan worden op bronnen die zowel handgeschreven als gedrukte tekst op de bladspiegel hebben staan. De akten van de Burgerlijke Stand 1811-1945 zijn hier een goed voorbeeld van. Met een representatieve sample hopen we in één keer de complete set (500.000+ akten) doorzoekbaar te kunnen maken. Dit is goed nieuws voor de gebruiker, want Amsterdam is één van de weinige Nederlandse gemeenten waarvan de Burgerlijke Standakten nog niet op naam doorzoekbaar zijn.

Met de HTR op de Burgerlijke Stand kan een grote stap worden gezet voor een robuust hybride model. Het is niet bedoeld als vervanging voor specifieke HTR- of OCR-modellen, maar als aanvulling daarop. Uiteindelijk wil je modellen die op een bepaald materiaal het beste scoren. De huidige HTR- en OCR-modellen doen het slecht op hybride materiaal, maar super goed op het materiaal waar ze voor getraind zijn: 17e eeuwse handschriften, 20e eeuws drukwerk, etc. We werken toe naar een algemene verbetering van HTR- en OCR-modellen en naar een palet aan modellen waar je uit kunt kiezen als je bepaald type materiaal automatisch wilt gaan transcriberen.

Verder lezen bij de bron: Tekstherkenning (1): masterplan HTR, OCR en hybride modellen - Stad...

0 leden vinden dit leuk