Ervaringen gevraagd over software voor anonimiseren van documenten

Gemeenten en archiefdiensten streven steeds vaker om documenten te publiceren op websites om de dienstverlening te verbeteren, maar de Wbp, later de AVG beperkt de mogelijkheid in deze omdat veel documenten persoonsnamen bevatten van nog levende personen. Vooral op het gebied van bouwarchieven is de ambitie groot om de informatie actief te openbaren.

 

Vooral sinds de inwerkingtreding van de AVG in mei 2018 zijn veel organisaties op zoek naar software voor het anonimiseren van documenten. Een andere factor die deze vraag heeft versterkt is de Wijzigingswet Wet open overheid (Woo), die actieve openbaarheid beoogt voor elf categorieën van overheidsdocumenten. Het is op dit moment overigens niet bekend of en wanneer de Wijzigingswet Woo in de Tweede Kamer behandeld wordt.

 

De wijze van weglakken op de documenten door de belastingdienst voor gedupeerden van de toeslagenaffaire zorgde voor landelijke ophef. Het proces vraagt om grote zorgvuldigheid. Weglakken van namen is niet nieuw. Ik stam nog uit de tijd dat het met Typex werd gedaan bij de aanvraag van niet-openbare archieven. Of weglakken nu wel of niet is toegestaan bij overgebrachte archieven, is onduidelijk geworden na deze uitspraak RvS: ABRvS, 08-03-2017, nr. 201602133/1/A3. Wel zie je dat er een trend gaande is om documenten zo op te stellen, dat er zo min mogelijk namen worden opgenomen. Bij de actieve openbaarheid van de documenten binnen de Woo wordt gestreefd om twee versies van de documenten op te stellen, een authentieke met namen en een zonder.

 

Hoe je anonimiseert, is nog best een zoektocht. De rechtspraak lijkt daar al best ver in te zijn. Het is een weg van  vallen en opstaan, waarbij steeds meer algoritmes worden ingezet. Maar het blijft ook veel handwerk, focus je je op namen, vergeet je misschien een telefoon- of bsn nummer. is Rotterdam een plaatsnaam of toch een persoonsnaam?

Voor archiefdiensten vormt het project TRIADO een lichtend voorbeeld. Hier is onderzocht hoe het Centraal Archief Bijzondere rechtspleging (CABR) digitaal beschikbaar kan worden gesteld. De methode richt zich op het machine-leesbaar maken van documenten en hoe met named entity recognition namen kunnen worden herkend. Ook werd ervaring opgedaan met het automatisch herkennen van documenttypes, topic modelling. Een demonstrator werd gebouwd om deze documenten te kunnen bevragen.

 

Afgelopen week woonde ik een demonstratie bij van de firma Datamask. Hoe geavanceerd ook, het blijft veel handwerk. Daarom wil ik van jou weten wat jouw ervaringen zijn.

 

 

 

 

 

Weergaven: 493

Hierop reageren

Berichten in deze discussie

Antwoorden op discussie

RSS

© 2020   Gemaakt door Marco Klerks.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden