Gestructureerde databasegegevens archiveren en het werk in een ISO-werkgroep daarvoor

Op 25 maart schreef ik een blog over de NEN-commissie Informatie- en archiefmanagement en de plannen van deze cie voor 2022. Daarbij noemde ik ook het werk van de cie in de ISO Working Group 'Records Management in Structured Data Environments'. Deze WG met het nummer 22, kortweg WG22 (binnen ISO TC46-SC11) is sinds december 2021 bezig met het opstellen van een Technical Report (TR) met de titel 'Issues and considerations for managing records in structured data environments’.

Namens de NEN-cie ben ik actief in die WG. Inmiddels is duidelijk dat het niet makkelijk is een goed verhaal te produceren. Daar zijn meerdere redenen voor. Ik noem de drie belangrijkste:

  • het archiveren van gestructureerde gegevens zoals die voorkomen in onder andere (of met name, daarover lopen nog discussies) relationele databases is een nieuw onderwerp waarover nog weinig bekend is;
  • na een eerste verdiepingsslag is duidelijk dat oplossingen voor het archiveren van de inhoud van in ieder geval relationele databases complex zijn. Vooral het vernietigen van specifieke inhoud bij het einde van een bij die inhoud horende bewaartermijn is lastig. Oplossingen daarvoor zijn mogelijk, maar vaak zijn ze - afhankelijk van de situatie - complex en vaak ook geen 100% (waarbij je kunt/moet kiezen voor de minst slechte oplossing);
  • de leden van de WG weten over het algemeen veel van archivering, maar minder van databases. Ik weet met mijn achtergrond als proces- en informatiearchitect wel wat meer van databases, maar ben geen echte specialist op dat gebied (in de WG wordt wel nagedacht over het halen van echte databasespecialisten in de WG, maar het lastige is dat je eigenlijk mensen nodig hebt die van beide werelden iets begrijpen én ook nog gemotiveerd zijn).

Dit alles maakt dat ik graag gevoed word met met dit onderwerp verbonden kennis en ervaringen voor zover aanwezig in Nederland, en daarvoor doe ik ook een beroep op de lezers en deelnemers van het BREEDnetwerk. Om daarvoor iets meer context te geven vertel ik vanaf de volgende alinea iets meer over de inhoudelijke hoofdlijnen waarlangs tot nu toe gewerkt wordt in WG22 en waar we daarbij tegenaan lopen; en ik voeg hier een document bij met een voorbeeld van een van mijn bijdragen aan de WG.

Introduction_rel_databases_2022m04d19_a3s.pdf

Formeel gaat het om 'structured data' oftewel gestructureerde gegevens, maar als je praat over informatie in plaats van gegevens dan kun je ook onderscheid maken tussen gestructureerd en ongestructureerd. Het woord 'data' is daarom niet echt onderscheidend voor het onderwerp, het woord 'structured' is dat wel. Er is een nogal korte ISO-definitie voor het begrip 'structured data' en die is: 'data which are organized based on a pre-defined (applicable) set of rules' (ISO/IEC 38505-3:2021). Dat laat ruimte voor interpretatie, want leidt snel tot de vraag waar 'pre-defined' ophoudt en niet 'pre-defined' begint. Waar iedereen het over eens is, is dat in ieder geval de inhoud van relationele databases 'pre-defined' is. Maar er zijn ook andere soorten databases dan alleen van het soort relationele database. Een van de uitdagingen is om die soorten in beeld te krijgen.

Want het werkt ongeveer zo. Elk type database heeft andere eigenschappen en een eigen kenmerkende (maar niet per se pre-defined) opbouw. Die opbouw en andere eigenschappen bepalen wat de uitdagingen en mogelijke oplossingen zijn als je de inhoud van een bepaald type database wilt archiveren. De inhoudelijke uitwerking van hoe databasecontent te archiveren zal dan ook per type database anders zijn.

We focussen op dit moment het meest op het vraagstuk hoe de inhoud van relationele databases te archiveren. Ervaringen daarmee zijn zeer welkom evenals verwijzingen naar personen die ik daarvoor zou kunnen benaderen.

En ik zoek meer informatie over allerlei soorten niet-relationele databases, een groep die ook wel wordt benoemd als NoSQL-databases, en dan bedoel ik informatie/kennis die wat verder gaat dan wat de zoekterm NoSQL database in Google oplevert.

Voor de duidelijkheid: zoals de namen van werkgroep en de in de maak zijnde TR al aangeven: het gaat om records management van databaseinhoud en dus om het archiveren van databaseinhoud als records die (afzonderlijk) duurzaam toegankelijk zijn en niet om het maken van een soort backup van een database zoals - voor ingewijden - met SIARD (een oplossing waarbij na archivering afzonderlijke records niet meer benaderbaar zijn tenzij het gearchiveerde bestand opnieuw wordt ingelezen in een database(systeem)).

Voor nu stop ik met het geven van nog meer inhoud, hoewel er nog veel meer over te vertellen is. Maar wie mij wil helpen en daarvoor meer context wil, nodig ik uit om daarom wel gewoon te vragen.

Weergaven: 46

Opmerking

Je moet lid zijn van BREED - over de grenzen van informatie om reacties te kunnen toevoegen!

Wordt lid van BREED - over de grenzen van informatie

Reactie van Yvonne Welings op 12 Mei 2022 op 8.56

Wellicht is het zinvol om contact op te nemen met Eunice Vink, die  betrokken was bij de publicatie Bewaren bij de bron. Toevallig namen we dat rapport deze week weer ter hand i.v.m. archiveren digital twin. 

2021%20Drie%20Praktijkverhalen%20Bewaren%20bij%20de%20Bron.pdf

© 2022   Gemaakt door Marco Klerks.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden