BREED - over de grenzen van informatie

NETWERK VOOR DE INNOVATIEVE INFORMATIEWERKER

OD-discussie naar aanleiding van The Deep Archive

Het magazine Overheidsdocumentatie (Od) gaat graag de discussie aan met haar lezers. Daarom plaatst zij één van haar artikelen uit de volgende editie hier op BREED. Voor meer informatie over het magazine klik hier.

Bespreking essay: Tom Demeyer, The Deep Archive. Hoe huidige en toekomstige technologie het internet van data mogelijk maken (Waag Society 2017)

“De wereld van archiveren wordt nu beheerst door ‘selectie’, ‘depots’ en ‘documenten’. Ieder van deze begrippen moet op de schop (..).”

Tom DeMeyer, CTO bij de Waag Society, vraagt zich in zijn essay The Deep Archive af waarom we niet alle digitale informatie bewaren, en welke voordelen een dergelijke benadering met zich meebrengt.¹

De informatieprofessional houdt zich dagelijks bezig met het ontsluiten van informatie en het selecteren, waarderen, bewaren en vernietigen van informatie. Maar waarom gooien we bepaalde informatie weg, terwijl dit informatie is dat niet alleen later belangrijk blijkt te zijn, maar ook in onze huidige tijd belangrijk kan zijn en ons leven gemakkelijker kan maken?

Bootcamps

In 2016 organiseerde Waag Society samen met de Universiteit Utrecht en Archief2020 twee bootcamps. Centraal stond: de nieuwe verhouding van de archiefsector ten aanzien van de digitalisering van de samenleving. In 2017 schreef Demeyer als eindresultaat van deze bootcamps. In dit essay staan vragen centraal als: “Hoe draagt de archieffunctie bij aan bedrijfsvoering, democratische verantwoording en cultuurhistorie in het digitale tijdperk? Welke andere archiefspelers hebben het veld betreden en in welke mate hebben zij relevante context en informatie die nodig is om het verleden goed te begrijpen?”

De wereld van archiveren op de schop

“Selectie is niet per definitie nodig nu de opslagmogelijkheden onbeperkt lijken te zijn. Een afgebakend depot heeft zijn beperkingen als je voor goede informatie de data nodig hebt van diverse organisaties, overheidsinstanties, particuliere en private partijen”, zo geeft Demeyer aan. “En daar waar tot dusver volstaan kon worden met documenten zullen de toekomstige gebruikers van ‘het’ archief behoefte hebben aan de oorspronkelijke data en algoritmes waar de publicaties op gebaseerd zijn.” Het feit dat wij als informatieprofessionals nu al keuzes maken over selectie, heeft grote gevolgen voor wat toekomstige generaties kunnen weten over hoe de overheid nu functioneert. Volgens de auteur zou selectie moeten worden overgelaten aan toekomstige gebruikers. Met haar toekomstige gereedschappen kan deze gebruiker “onze huidige maatschappelijke orde optimaal bevragen(..)”.

In plaats van het vernietigen van data, zoals voorgeschreven binnen de huidige archiefwetgeving, moet data worden bewaard. Dit biedt uitdagingen voor de informatiemanager, maar ook kansen om toekomstige generaties te faciliteren in het doen van onderzoek naar het verleden.

Twee scenario’s

Door het geven van twee scenario’s geeft Demeyer inzicht in wat we kunnen verwachten als data altijd bewaard wordt. Het uitgangspunt van beiden scenario’s is dat er een transparant, verantwoord en open datamanagement wordt toegepast, waarbij oog is voor toegankelijkheid en bruikbaarheid van data voor huidige en toekomstige belanghebbenden/ gebruikers.

De scenario’s handelen over twee verschillende situaties. In scenario 1 doet Liza een promotieonderzoek in 2030 naar het verloop en de uiteindelijke marginalisatie van hart- en vaatziekten in de laatste 50 jaar. Via het Deep Archive doet Liza onderzoek. Gegevens vanaf 2020 geven een uitgebreid beeld over sport- en fitnessactiviteiten, van ziekte en dieet, rookgedrag en werkomstandigheden die miljoenen mensen hebben gedeeld via bijvoorbeeld sportapps, maar ook via social media.

In het volgende scenario wil Joost in 2022 zijn data-abonnement verlengen. Hieraan ten grondslag ligt de algemene uitgebreide data- en archiveringswet. Deze is haastig opgesteld als reactie op de opkomst, acceptatie en succes van het Deep Archive. “De wet biedt een juridisch kader voor het verzamelen en gebruiken van data tussen overheden, bedrijven, kennisinstellingen en burgers. Joost deelt zijn gegevens voor algemeen wetenschappelijk onderzoek: “Zijn medische gegevens en data van z’n telefoon en activiteittrackers” worden hiervoor beschikbaar gesteld. En hij deelt dit om geld te besparen: “door tijd en afstand van zijn hardloopactiviteiten te delen met de leverancier van de dienst.”

De Digitale identiteit/ databeschikking bepaalt in beide scenario’s de mate van toegankelijkheid van informatie: Liza is als onderzoeker verbonden met de universiteit. Dit gegeven is opgenomen in haar digitale identiteit: zij krijgt toegang tot alle medische gegevens (behalve gegevens die terug te leiden zijn naar individuen). Joost deelt zijn medische gegevens via zijn digitale identiteit voor algemeen wetenschappelijk onderzoek.

Voorwaarden van het Deep Archive

Data moet toegankelijk worden gemaakt via iets dat de auteur ‘The Deep Archive’ noemt. Dit is niet iets dat men kan vastpakken of een eenheid, maar eerder een bundeling van Kunstmatige Intelligentie en Algoritmes verbonden met bronnen waar informatie is opgeslagen. Deze manier van dataopslag en -deling kan veel voordelen geven voor toekomstige individuen en onderzoekers. Er zijn echter wel voorwaarden aan verbonden volgens Demeyer:

Opslag: “De plek van opslag van data” wordt minder relevant, zolang deze maar veilig en bereikbaar is. Voorbeelden zijn, wat Demeyer omschrijft als: “redundant, distributed storage-systems”, zoals Bittorrent, waarbij data niet op een plek bewaard wordt, maar via het delen beschikbaar wordt gesteld voor andere gebruiker. Toegankelijkheid van data wordt bepaald door een combinatie van verschillende data tijdens het doen van onderzoek. Zo kan Liza als promovenda toegang krijgen tot medische gegevens voor haar onderzoek, maar krijgt zij daarbij bijvoorbeeld niet de namen te zien van de personen die de gegevens hebben geleverd.

Databeschikking: Vanaf de geboorte krijgt iedereen een databeschikking. Deze zal in eerste instantie door de ouders worden beheerd tot het moment van volwassenheid. In deze beschikking is vastgelegd wie er bij de persoonlijke en verzamelde gegevens kan en onder welke voorwaarden. Belangrijker nog is dat dit een digitale representatie van jezelf is. Deze representatie gaat de interactie aan, tijdens uitwisseling van data, met de representaties van personen, bedrijven en de overheid.

Rechten: De toegang tot data hangt af van de rechten die de gebruiker heeft via de digitale identiteit of databeschikking. “Deze verkrijg je, voor bepaalde tijd, door op het juiste moment de juiste serie eigenschappen aan te kunnen tonen”. Zo geef Demeyer aan dat Joost bij de arts komt als eigenaar van zijn medische identiteit. Liza’s eigenschap als onderzoeker bij de universiteit is voldoende om relevante, medische gegevens op te vragen.

Instellingen: Wetgevende, maatschappelijke en culturele krachten bepalen bij aanvang de standaard instellingen van de databeschikking. Op wettelijk niveau bepalend zijn bijvoorbeeld het BSN-nummer, geboortedatum en data in verhouding met wetgeving. Cultureel gezien bepaalt de culturele en religieuze identiteit (gekozen door de ouders) de instelling van de beschikking. Uiteraard binnen de wettelijke grenzen. Als laatste kan ieder kiezen voor persoonlijke instellingen binnen de wettelijke kaders.

Een nadere beschouwing op het essay

Wanneer we het essay van Demeyer lezen, komen een aantal begrippen op: Digitale identiteit en privacy, en eigendom en toegang. Ook zijn er nog veel organisatorische, maatschappelijke, technische en economische gevolgen van deze nieuwe manier van denken over dataopslag, -deling, en –gebruik.

Digitale identiteit (data beschikking) en privacy

Ieder persoon krijgt bij de geboorte een eigen digitale identiteit. Via deze digitale representatie zijn mensen zelf in staat aan te geven welke gegevens gedeeld worden met andere individuen, bedrijven en de overheid. Deze beschikking van data bepaalt tevens wie er toegang heeft tot jouw gegevens. Dat is een wezenlijk andere manier van denken dan aangeven dat persoonlijke gegevens bij voorbaat onderdeel van de privacy zijn. Dit vraagt niet alleen een goede inkadering binnen (nieuwe) wetgeving, maar vraagt ook om een gesprek tussen record- en informatiemanagers met ict en beleid (juristen, burgerzaken e.d.)

Eigendom en toegang

De invalshoek verandert. Informatie is niet zozeer eigendom van een persoon of bijvoorbeeld overheidsinstantie. Eigendomschap verschuift naar toegankelijkheid. We zien dat dit vraagstuk nu al speelt bij de initiatiefwet Wet Open Overheid, waarin de overheid wordt opgeroepen actief informatie openbaar te maken. Huidige wetgeving omtrent privacy gaat uit van eigenaarschap van informatie. Als we dit omkeren en via een Digitale identiteit kunnen bepalen wie toegang heeft tot welke informatie, dan is een groot deel van de privacy vraagstukken opgelost. Uit de scenario’s (zie kader) heeft Liza helemaal geen behoefte aan de persoonsnamen en NAW-gegevens van haar doelgroep. Zij is slechts geïnteresseerd in de medische gegevens die de doelgroep vrijwillig heeft gedeeld voor algemeen wetenschappelijk onderzoek (net zoals Joost heeft aangegeven). De gegevens die Liza tot haar beschikking heeft zijn daarmee ook niet te traceren naar individuen. De privacy, zoals we die nu interpreteren, is daarmee gewaarborgd.

Organisatorische veranderingen

Wat betekent dit voor de huidige record- en informatiespecialisten? Beheer van informatie vindt niet langer plaats door ofwel recordmanagers (tijdens de fase van creatie en gebruik) of door archivarissen (na de fase van overbrenging naar een e-depot). Overheidsinformatie kan op dezelfde plaats worden beheerd als op het moment van creatie. Het is namelijk niet langer belangrijk om fysiek data over te plaatsen (dit punt is overigens nu al actueel met vraagstukken over eigenaarschap en beheerpartij). Daaruit volgt dat archivarissen en recordmanagers zich veel meer moeten gaan specialiseren in het beheer van data en het kunnen adviseren van archiefvormers hoe zij data het best beschikbaar open kunnen stellen.

Technische en sociaal/ politieke veranderingen

Technisch lijkt dataopslag en het linken van data op een schaal als Demeyer aangeeft een kwestie van tijd. Waar de echte vraagstukken liggen is op maatschappelijk gebied.

Vernietiging van data moet worden gestopt, daarvoor moet de huidige archiefwetgeving op de schop. Dit vraagt een herbezinning op het doel van de huidige wetgeving: waarom wordt bepaalde informatie eeuwig bewaard en andere informatie na een jaar vernietigd? Digitale identiteit en toegankelijkheid van informatie moet binnen wettelijke kaders worden gevat.

Vervolgens moeten er nieuwe discussies worden gesteld omtrent privacy. Privacy-gevoeligheid staat tegenwoordig hoog op de agenda. Denk alleen al aan het recht op vergeten te worden bij Google, het WikiLeaks-dossiers, en, dichter bij huis, het ‘bonnetje van Teeven’.

Volgens Kevin Kelly, auteur over onder andere ontwikkelingen op het gebied van digitalisering, verschuift eigenaarschap ook richting toegankelijkheid van data: Wil je in 2030 door bedrijven, overheden en anderen als individu worden behandeld, dan moet je transparant zijn en veel gegevens delen. Je kunt als individu en als instantie informatie privé houden, maar je wordt dan generiek behandeld.²

Economische veranderingen

Het delen van informatie door individuen, bedrijven en de overheid heeft grote gevolgen voor onze huidige economie. Kevin Kelly noemt dit “Sharing Economy”. Zo zijn mensen bereidt informatie en data te delen (mediabestanden, locaties, recenties). Door middel van meewerken in communities worden deze gegevens weer gelabeld, en voorzien van trefwoorden. Zo kunnen anderen deze data vinden en gebruiken voor eigen datacreatie. Een volgende stap is samenwerken om samen te komen tot een product, waarbij individueel gewin bij aanvang nog niet groot is. Kelly geeft als voorbeeld: “Half of all web pages in the world today are hosted on more than 35 million servers running free Apache software, which is open source, community created.” Als laatste stap noemt Kelly collectivisme: het belang van de groep als hoogste goed. Samen informatie delen en creëren waarbij men niet beloond wordt met geld, maar beloond wordt door het leggen van verbinding tussen mensen en het toegankelijk maken van informatie. “They [individuen, red.] are “paid” in the value of the communication and relations that emerge from 1.4 billion connected verifiable individuals.”³

Conclusie

Het essay van Tom Demeyer kan veel los maken binnen ons vakgebied, maar heeft ook grote gevolgen op maatschappelijk, politiek, organisatorisch en economisch gebied.

Het essay prikkelt en stimuleert tot nadenken hoe we informatie in de toekomst willen creëren, delen en opslaan/ bewaren. The Deep Archive is wat mij betreft een startpunt van een vragenspel en discussie hoe wij als informatieprofessionals dit willen, kunnen en moeten vormgeven samen met overheid, bedrijfsleven, en burger.

Bart Hekkert

Verder lezen

Tom Demeyer, The Deep Archive. Hoe huidige en toekomstige technologie het internet van data mogelijk maken (Waag Society 2017). Te lezen op de website van Waag Society via: http://waag.org/sites/waag/files/public/media/publicaties/the-deep-....

Kevin Kelly, The Inevitable. Understanding the 12 technological forces that will shape our future (Viking, New York 2016).
- Zie ook zijn presentatie naar aanleiding van dit boek op The Long Now: http://longnow.org/seminars/02016/jul/14/next-30-digital-years/

Voetnoten

Tom Demeyer, The Deep Archive. Hoe huidige en toekomstige technologie het internet van data mogelijk maken (Waag Society 2017).
Kevin Kelly, The Inevitable. Understanding the 12 technological forces that will shape our future (Viking, New York 2016), 264.
Kevin Kelly, The Inevitable, 137-144.

Discussieer mee op BREED!

De redactie van OD nodigt onze lezers uit om via BREED-netwerk mee te discussieren over het essay naar aanleiding van een aantal vragen. Je kunt je reactie hieronder plaatsen!

Het essay van Demeyer legt veel nadruk op de voordelen voor toekomstige gebruikers van archieven. Welke voordelen heeft de benadering van de auteur voor de informatieprofessional?
Hoe zal toekomstige wetgeving op het gebied van data-bewaring en data-deling er volgens u uit kunnen zien?
Welke uitdagingen liggen er op het gebied van het begrip privacy van gegevens?

3 leden vinden dit leuk

Volgende bijdrage >

Opmerking

Je moet lid zijn van BREED - over de grenzen van informatie om reacties te kunnen toevoegen!

Reactie van MGroels op 6 September 2017 op 8.52: Eigenlijk zonde dat er twee maanden na plaatsing nog geen discussie is gestart, want dit is toch wel voer voor een pagina of zes aan reacties :) (Onderstaande is vooral een blik op vraag 3.)

Op een hoog aggregatieniveau klinkt het allemaal prachtig, en als je het over data als één groot, geordend gegevensbestand hebt, dan zijn er legio voordelen te bedenken zoals die van Liza en Joost. Er is echter nog een hele berg werk te verzetten voordat we hier zijn en het geschetste 2030 lijkt mij véél te vroeg.

- Data is niet eenduidig. Als we even focussen op informatie geproduceerd door overheden, dan wordt dat op ongeveer evenveel manieren opgeslagen als dat er bestanden zijn. Als ik hier als toekomstig onderzoeker onderzoek naar wil doen, zal er een behoorlijke vertaalslag gemaakt moeten worden om van al die verspreide documenten data te maken.

- Het vernietigen van gegevens gebeurt steeds vaker met de privacy van personen als grondslag in plaats van ruimtegebrek. Er kan wel geschetst worden dat de toegang beperkt wordt door slechts enkele gegevens beschikbaar te stellen aan de onderzoeker, maar dat neemt niet weg dat de gegevens er wel zijn. Ook in 2030 zal de informatiebeveiliging niet voorlopen op hackers en andere kwaadwillenden. Het verleden en het heden hebben al vaker uitgewezen dat het en masse verzamelen van gegevens niet altijd in het belang is van de "eigenaren" daarvan.