Ervaringen gevraagd over software voor anonimiseren van documenten

Gemeenten en archiefdiensten streven steeds vaker om documenten te publiceren op websites om de dienstverlening te verbeteren, maar de Wbp, later de AVG beperkt de mogelijkheid in deze omdat veel documenten persoonsnamen bevatten van nog levende personen. Vooral op het gebied van bouwarchieven is de ambitie groot om de informatie actief te openbaren.

 

Vooral sinds de inwerkingtreding van de AVG in mei 2018 zijn veel organisaties op zoek naar software voor het anonimiseren van documenten. Een andere factor die deze vraag heeft versterkt is de Wijzigingswet Wet open overheid (Woo), die actieve openbaarheid beoogt voor elf categorieën van overheidsdocumenten. Het is op dit moment overigens niet bekend of en wanneer de Wijzigingswet Woo in de Tweede Kamer behandeld wordt.

 

De wijze van weglakken op de documenten door de belastingdienst voor gedupeerden van de toeslagenaffaire zorgde voor landelijke ophef. Het proces vraagt om grote zorgvuldigheid. Weglakken van namen is niet nieuw. Ik stam nog uit de tijd dat het met Typex werd gedaan bij de aanvraag van niet-openbare archieven. Of weglakken nu wel of niet is toegestaan bij overgebrachte archieven, is onduidelijk geworden na deze uitspraak RvS: ABRvS, 08-03-2017, nr. 201602133/1/A3. Wel zie je dat er een trend gaande is om documenten zo op te stellen, dat er zo min mogelijk namen worden opgenomen. Bij de actieve openbaarheid van de documenten binnen de Woo wordt gestreefd om twee versies van de documenten op te stellen, een authentieke met namen en een zonder.

 

Hoe je anonimiseert, is nog best een zoektocht. De rechtspraak lijkt daar al best ver in te zijn. Het is een weg van  vallen en opstaan, waarbij steeds meer algoritmes worden ingezet. Maar het blijft ook veel handwerk, focus je je op namen, vergeet je misschien een telefoon- of bsn nummer. is Rotterdam een plaatsnaam of toch een persoonsnaam?

Voor archiefdiensten vormt het project TRIADO een lichtend voorbeeld. Hier is onderzocht hoe het Centraal Archief Bijzondere rechtspleging (CABR) digitaal beschikbaar kan worden gesteld. De methode richt zich op het machine-leesbaar maken van documenten en hoe met named entity recognition namen kunnen worden herkend. Ook werd ervaring opgedaan met het automatisch herkennen van documenttypes, topic modelling. Een demonstrator werd gebouwd om deze documenten te kunnen bevragen.

 

Afgelopen week woonde ik een demonstratie bij van de firma Datamask. Hoe geavanceerd ook, het blijft veel handwerk. Daarom wil ik van jou weten wat jouw ervaringen zijn.

 

 

 

 

 

Weergaven: 1789

Hierop reageren

Berichten in deze discussie

Ik zag vorige week een webinar van eSpecialisten en TM7 hierover. TM7 stelt dat hun engine zo goed Nederlands snapt, dat de besparing in handwerk zeer groot is. Alleen zijn implementaties in gemeenten volgens mij nog op de vingers van één hand te tellen en zal het doorgaans pilots betreffen. Als je oproep weinig reacties oplevert, kan ik me dat dus wel voorstellen. Toch apelleerde het verhaal wel. Zeker de moeite om eens een businesscase voor op te tuigen. Als er in de toekomst meer en sneller aan actieve openbaarmaking moet worden gedaan (vgl WOO) dan wordt dit vanzelf groter.

Ook voor Wob verzoeken is het nodig dat gemeenten een dergelijke tool in huis hebben. De Wijzigingswet Woo is nog steeds niet besproken in de Tweede Kamer.

Via mijn LinkedIn kreeg ik deze twee tips:

- https://towardsdatascience.com/named-entity-recognition-with-nltk-a...

- https://github.com/datamade/probablepeople

Dank voor de tips!

Yvonne Welings zei:

https://octobox.nl/ heeft ook veel in huis op dit vlak

Gemeente Tilburg is ook bezig om dergelijke software aan te schaffen. Heeft er iemand eisen en wensen geformuleerd voor deze software vanuit het perspectief van DIV/Informatiebeheer? Ik zou daar erg mee geholpen zijn!

Alvast bedankt!

@Wouter: als je wat krijgt, hou ik me aanbevolen. Ik heb dezelfde vraag hier al 'ns gesteld en ook op het VNG KIA forum. Ik zie alleen reacties van gemeenten die ófwel een pilot draaien van een oplossing (zonder dat ik het gevoel heb dat er uitgebreid is nagedacht over eisen/wensen) ófwel die een oplossing hebben aangeschaft omdat DMS/Zaaksysteem er een standaard integratie voor aanbiedt. 

Groeten, Jaap de Jonge

VNG fora biedt daarentegen concrete informatie. 

@Jaap, zodra ik iets weet, dan weet jij het ook. ;-)

Jaap de Jonge zei:

@Wouter: als je wat krijgt, hou ik me aanbevolen. Ik heb dezelfde vraag hier al 'ns gesteld en ook op het VNG KIA forum. Ik zie alleen reacties van gemeenten die ófwel een pilot draaien van een oplossing (zonder dat ik het gevoel heb dat er uitgebreid is nagedacht over eisen/wensen) ófwel die een oplossing hebben aangeschaft omdat DMS/Zaaksysteem er een standaard integratie voor aanbiedt. 

Groeten, Jaap de Jonge

De gemeente 's-Hertogenbosch is ook bezig met het aanschaffen van een dergelijke tool. Als je meer informatie wil over het project, contact me even persoonlijk.

Antwoorden op discussie

RSS

© 2024   Gemaakt door Marco Klerks.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden