Succesvolle proef met computerherkenning handgeschreven brieven

Bron: Website Utrechts Archief

De afgelopen maanden hebben we een succesvolle proef gedaan met HTR (handwritten Text Recognition), waarmee scans van handgeschreven brieven van kasteelvrouwe Margaretha Turnor door de computer in tekst zijn omgezet. Dit leverde spectaculaire resultaten op: waar het handmatig overtypen van oude archiefstukken voorheen uren kon duren, transcribeerde het programma Transkribus deze stukken in enkele seconden. Met deze innovatieve techniek kunnen in de toekomst mogelijk honderdduizenden handgeschreven bronnen uit de collectie online doorzoekbaar worden.

Een deel van de ruim 31 kilometer archieven en collecties van Het Utrechts Archief bestaat uit handgeschreven teksten en van slechts een fractie daarvan is de inhoud bekend. Met de techniek van het computerprogramma Transkribus, die met steun van de EU door de Universiteit van Innsbruck is ontwikkeld, worden nu onder meer 1000 brieven van Margaretha Turnor uit de 17e eeuw omgezet in digitaal leesbare tekst.
De resultaten zijn boven verwachting, zo vertelt Joyce Pennings, onze vakspecialist metadatering: “Na een paar trainingsrondes zat de computer al op een foutmarge van slechts 2 procent.” Alhoewel de resultaten zeer veelbelovend zijn, kan de computer nog niet alle soorten teksten transcriberen: “De computer kan bijvoorbeeld nog geen ingewikkelde dateringen omzetten: het menselijk oog en verstand is nog wel nodig om er een transcriptie van te kunnen maken”, aldus Pennings.

Hoe werkt HTR?
Door snelle ontwikkelingen op het gebied van kunstmatige intelligentie zijn computers steeds beter in staat om te leren, beslissingen te nemen één specifieke taak uit te voeren. Dit geld ook voor het lezen van handgeschreven brieven. Het proces om de computer te laten leren werkt als volgt:

  • De computer krijgt een verzameling brieven met een set bijbehorende handgemaakte transcripties en gaat hiermee ‘oefenen’. Zo ontstaat er een model van één bepaald handschrift;
  • Het programma controleert zichzelf steeds door het geproduceerde resultaat te vergelijken met de handgemaakte transcripties;
  • Zodra de foutmarge acceptabel is en het model nagenoeg goed werkt, worden alle scans van dit handschrift ingevoerd. De transcripties die de computer maakt, zijn vrij eenvoudig te exporteren en goed bruikbaar om online doorzoekbaar te maken.

Over Transkribus
Het Utrechts Archief is sinds begin juli aangesloten bij de READ-coöperatie (Recognition and Enrichment of Archival Documents) als lid van de kerngroep samen met verschillende archieven, bibliotheken en universiteiten uit het buitenland betrokken bij de doorontwikkeling van Transkribus. Zo kunnen wij in samenwerking met de andere deelnemers Transkribus verder ontwikkelen en hebben we de mogelijkheid om mee te denken en mee te beslissen. De getranscribeerde brieven  van Turnor én het leerproces met Transkribus dat we doormaakten, zullen vanaf december te zien zijn in een tentoonstelling.

Weergaven: 64

Opmerking

Je moet lid zijn van BREED - over de grenzen van informatie om reacties te kunnen toevoegen!

Wordt lid van BREED - over de grenzen van informatie

© 2019   Gemaakt door Marco Klerks.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden