Digitaal Archiveren en scannen. Keuzes en consequenties.

Door: Leon van Oosterom cdia+

In januari 2008 is onder nummer WJZ/2008/452 (8218) een nieuwe beleidsregel van kracht geworden ten aanzien van digitale substitutie van originele documenten. Deze beleidsregel omschrijft ondermeer waaraan de digitale documenten moeten voldoen.

Als resultaat daarvan zien wij de trend dat, wanneer wordt overgegaan op het digitaal vastleggen van papieren documenten, wordt voorgeschreven dat documenten in kleur ongecomprimeerd dienen te worden gescand en opgeslagen. Vanuit de aanvragen die wij gepubliceerd zien worden, blijkt er in het veld nogal wat onbekendheid te zijn over de verschillende fileformaten en de consequenties van bepaalde keuzes. Hieronder treft u de alinea aan van de betreffende regeling die daarover gaat en daaronder enige afwegingen die wij graag ter discussie willen stellen..
___________________________________________________________________
Beleidsregel van de Minister van Onderwijs, Cultuur en Wetenschap van 22 januari 2008, nr.
WJZ/2008/452 (8218),


Minimale technische specificaties bij digitale vervanging
De hieronder opgenomen technische specificaties gelden als minimum in de zin van de Beleidsregel
digitale vervanging archiefbescheiden.

Parameters
Voor gedrukte tekst worden de volgende parameters gebruikt:
- indien kleur relevant is1: 300dpi met bitdiepte 24;
- indien grijstinten relevant zijn: 300 dpi met bitdiepte 8;
- indien kleur en grijstinten niet relevant zijn: 300 dpi met bitdiepte 1.

1 Scanning geschiedt in kleur, tenzij scanning in zwartwit geen informatieverlies oplevert. Indien in kleur wordt gescand, wordt geadviseerd om het digitale beeld op te slaan in een gestandaardiseerd, apparaatonafhankelijk kleurenprofiel, bijvoorbeeld sRGB IEC 61966-2-1:1999.

Bestandsformaat
A. Ten aanzien van het bestandsformaat wordt gebruik gemaakt van zogenoemde open standaarden2.
2 Dit zijn standaarden die via een formeel en open proces binnen een erkend standaardisatieorgaan (bijvoorbeeld ISO, NEN, W3C) tot stand komen. Voorbeelden van open standaarden zijn TIFF (waarbij ‘uncompressed baseline TIFF v6’ de voorkeur geniet) en PDF/A (ISO 19005-1).

B. Indien bij het scanproces gebruik wordt gemaakt van een tussenformaat, dan mag geen
kwaliteitsverlies optreden bij de omzetting van het tussenformaat naar het uiteindelijke formaat3.
3 Een omzetting van TIFF als tussenformaat naar JPEG als eindformaat is ongewenst, omdat die omzetting gepaard gaat met kwaliteitsverlies.


_____________________________________________________________________

Een aantal feitelijkheden:

PDF/A
Op dit moment wordt gewerkt met de ISO standaard ISO-19005-1 voor het aanmaken van PDF/A-1 bestanden. Deze is gebaseerd op de PDF versie 1.4 generatie.

Een PDF/A-1 bestand kan opgebouwd worden met gebruikmaking van onder andere:
1. Tiff groep 4 zwart/wit bestanden
2. Tiff v6 ongecomprimeerde bestanden
3. Jpeg formaat bestanden
4. JBIG formaat bestanden
5. PNG formaat bestanden
Dat wil dus zeggen dat de keuze voor PDF/A, niet automatisch betekend dat de kleurinformatie in een scan verliesloos of met verlies (lossy vs. Lossless) wordt vastgelegd. Een PDF/A kan zowel met ongecomprimeerde als met gecomprimeerde bestanden worden aangemaakt.

De volgende generatie PDF/A (PDF/A-2) zal gebaseerd zijn op de PDF generaties 1.5, 1.6 en 1.7 onder meer inhoudende dat tevens JPEG2000 als compressie worden geaccepteerd.

Overwegingen
Een A4 formaat pagina in 24 bits kleur en als tiff v6 opgeslagen bestand heeft een bestandsgrootte van 25Mb.
Datzelfde bestand maar dan opgeslagen met een JPEG compressie of een JPEG2000 compressie zal een bestandsgrootte opleveren van tussen de 250 Kb en 1,5 Mb, afhankelijk van de gekozen compressiesterkte.

Beheer & distributie
Wanneer een archief dient te worden omgezet naar digitaal is het dus van belang te weten dat opslag conform het advies van de regeling mogelijk een te grote belasting gaat vormen voor de opslag-, beheer- en distributiefaciliteiten van de gebruiker.
Immers een dossier van 50 pagina’s A4 is zo rond de 1,2 Gigabyte en een archief van 10 meter levert al snel een totaal bestandsvolume op van bijna één terabyte, Nog erger wordt het als in het archief technische tekeningen opgeslagen liggen. Een A0 formaat tekening op zichzelf heeft al 400 Mb nodig als ongecomprimeerde tiff.

Een dergelijke belasting is voor de meeste netwerken toch een probleem. Bij een middelgrote archiefcollectie van 500 meter dient rekening gehouden te worden met een benodigde schijfcapaciteit van bijna 50 Terabyte alleen al voor de primaire opslag.
Het opvragen van dossiers met een dergelijke bestandsgrootte is ook met de hedendaagse netwerksnelheden niet echt gebruikersvriendelijk. Wanneer de opvraging middels internetverbinding wordt uitgevoerd, of wanneer van e-mail gebruik moet worden gemaakt, wordt het geheel onwerkbaar.

Scanners
Daarnaast speelt als het goed is ook de kostenoverweging een rol. Hedendaagse scanners zijn in staat om kleurenscans te maken met snelheden van 130 vel per minuut of meer, tenminste als de bestanden worden weggeschreven in zwart/wit, of met een Jpeg of Jpeg 2000 compressie. Heel anders wordt dat als de bestanden in tiff v6 ongecomprimeerd dienen te worden opgeslagen. De verwerkingssnelheid daalt dan naar 10 tot 30 vel per minuut. Het spreekt voor zich dat dit van invloed is op de “kale” scanprijs.

Databases & back-up
Extra aandacht verdienen ook databases waar de images als “blob” worden ingebed. Dit is een techniek waar de images samen met de beschrijvende metadata in de databases worden opgeslagen. Databases waar alleen de metadata wordt opgeslagen zullen niet snel te groot worden om met back-up routines te worden veiliggesteld. Databases voorzien van “blobs” kunnen echter makkelijk te groot worden om gedurende de nachtelijke uren door middel van een back-up veilig gesteld te worden. Wanneer dat het geval is zal in de regel gekozen worden voor de zogenaamde “incremental back-up” dit is een back-up techniek waarbij alleen de ontstane wijzigingen worden bijgehouden. Mocht echter op een gegeven moment een “recovery” uitgevoerd moeten worden op basis van die techniek, dan is het van belang te onderzoeken in welk tijdsbestek een dergelijke “recovery” kan worden uitgevoerd.

Kwaliteit
Praktisch gezien zouden de bovenstaande feiten moeten leiden tot de conclusie dat het niet onverstandig zou zijn om wel degelijk kleurcompressie toe te passen. Kwaliteitstechnisch is er niet zo veel op tegen om een zekere mate van compressie toe te staan. Bij veel documentsoorten is de kleurechtheid tenslotte niet het meest belangrijk, doch gaat het om zaken als informatiebehoud. Het zou derhalve een goede zaak zijn om de beleidsregel aan te vullen met de mogelijkheid om de gescande documenten op te slaan met een vastgestelde maximale kleurcompressie zodat zowel kwaliteit als hanteerbaarheid gegarandeerd worden.

Weergaven: 5050

Opmerking

Je moet lid zijn van BREED - over de grenzen van informatie om reacties te kunnen toevoegen!

Wordt lid van BREED - over de grenzen van informatie

Reactie van Leon van Oosterom op 21 April 2009 op 16.33
Is absoluut waar, je weet op voorhand niet welke documenten van historisch belang gaan worden. Het door mij aangehaalde kippenhok was dus een slecht voorbeeld (touché ;)).
Natuurlijk dient een zorgvuldige afweging gemaakt te worden zoals o.a. is beschreven in de Beleidsregel vervangingv 11_definitief.pdf

Ik kan in de Beleidsregel vervangingv 11_definitief.pdf echter niet vinden wat de toe te passen bestandsformaten zijn, zou je dan niet automatisch terugvallen op de eerder genoemde Beleidsregel van het Rijk?

Voor wat betreft de kwaliteitsindex, deze is in Nederland rond de eeuwwisseling voor het eerst gehanteerd door van “Buuren Documentaire Systemen”, waar ik indertijd zelf deze methodiek heb geïntroduceerd als onderdeel van de standaard kwaliteits borgingsprocedure. Het hanteren van dergelijke kwaliteitsindexen juich ik van harte toe.

De betreffende kwaliteitsindex zegt iets over de toe te passen resolutie in relatie tot de tijdens scanning gehanteerde bitdiepte. Het is tot nu toe de enige manier om op voorhand te berekenen wat de toe te passen scanresolutie dient te zijn om te kunnen voldoen aan een vooraf vastgestelde kwaliteitsnorm. Ook wanneer kleurcompressie wordt toegepast kan aan het hoogste kwaliteitscijfer worden voldaan volgens diezelfde index. Helaas zijn er geen standaard formules voor het berekenen van een eventuele toe te passen compressie, althans ik ben ze nog niet tegen gekomen.

Bij zwart/wit scanning wordt wereldwijd het tiff ITU T6 formaat gebruikt. Ook wel groep 4 genoemd. Dit is een wijze van scanning die in het kader van het één op één vastleggen van iedere bit verliesloos opslaat. Ook in dit bestandsformaat wordt compressie toegepast. Bij het creëren van het bestand wordt een telling gehouden van het aantal malen dat een witte pixel, of een zwarte pixel achter elkaar wordt weggeschreven, dit geschiedt zowel horizontaal als verticaal. Deze verzamelde waarden worden vervolgens opgeslagen in het bestand in plaats van de waarde per pixel. Het resultaat van deze wijze van opslag is dat een pagina A4 uiteindelijk resulteert in een bestandsgrootte van tussen de 30Kb en 60Kb bij scanning op 200 DPI. Wanneer het bestand niet volgens de ITU T6 norm wordt opgeslagen maar als uncompressed tiff bestand zal de bestandsgrootte circa 1,1 Mb zijn

Ik heb niet getracht een bestaand rekenmodel toe te passen op een toekomstige standaard. Ik zie bij voortduring aanbestedingsdocumenten waar volledige kleurscanning in ongecomprimeerde vorm als harde eis wordt neergelegd. Vaak zelfs zie ik verwijzingen opgenomen naar de kwaliteitseisen van Bureau Metamorfoze. Begrijp me goed ik sta vierkant achter die eisen, daar waar het aankomt op voor de eeuwigheid vast te leggen documenten. Het gaat me echter te ver als je bijvoorbeeld gevraagd wordt om die verwerkingsmethodiek te hanteren voor de cliëntendossiers van een gemeentelijke afdeling Werk & Inkomen.

Het kostenaspect speelt dus vaak nu. Ik herhaal het rekenvoorbeeld van huidige documentscanners die maar op 10% van hun kunnen presteren bij ongecomprimeerde kleurscanning.
Vanuit mijn professie heb ik nog nooit zip-achtige bestanden of Pst bestanden aanbevolen als archief bestandsformaat. Wel ben ik een warm voorstander van het PDF-A formaat. Ik ben het dus volledig eens met het uitgangspunt dat er moet worden gewerkt volgens vastgestelde procedures en genormeerde richtlijnen.

Bij vastlegging op microfilm wordt alle kleurinformatie weggegooid en wordt de hoeveelheid grijswaarden belangrijk verminderd. Reproductie van een document vanaf microfilm leidt dus per definitie niet tot een “authentiek” formaat. Ik ben zeker dat met een kleurscan en conservatieve compressie per definitie een meer “authentiek” document kan worden gereproduceerd dan vanuit zwart wit scanning of vanaf microfilm.
Reactie van Chido Houbraken op 21 April 2009 op 14.09
Naast het door Ingmar en Rutger genoemde nog het volgende:
1. De reikwijdte van de door Leon aangehaalde Beleidsregel beperkt zich tot het Rijk en tot "on the fly" substitutie, ofwel doorlopende vervanging, en geen backlog scanning. De direct gedigitaliseerde binnenkomende poststroom, dus. Dat maakt het meteen moeilijk om te bepalen of je de bouwaanvraag van het kippenhok van de later beroemd geworden Michiel Adriaanzoon de Ruyter aan het vervangen bent of niet. Ik zou waardering op cultuurhistorische basis dan ook buiten deze discussie willen houden.
2. De rest van de overheden hanteren de Provinciale Beleidsregel en daarin staan geen "absolute" waarden, maar wordt uitgegaan van een kwaliteitsindex (blz. 11 noot 13 http://www.lopai.nl/pdf/Beleidsregel_vervanging_v11_definitief.pdf). Ben benieuwd wat dat betekent voor de bestandsgrootte e.d.
3. Ik vraag me af of een gewoon zwartwit document (99,9% van het papieren archief) leidt tot 25mb bestanden als ze gedigitaliseerd worden volgens de voorwaarden in het voorbeeld van Leon.
4. Volledige backups e.d. zijn niet nodig bij redundante uitvoeringen van je informatiebeheersysteem. En daar gaat het toch echt naar toe; ook voor kleinere organisaties.
5. Zeker bij automatisering/digitalisering zie je een tendens dat bij massaler gebruik de kosten omlaag gaan. Ik geloof dan ook niet in de huidige waarden en rekenmodellen die overgeplant worden op een nog niet aanwezige standard operating procedure.
6. Het feit dat een digitaal origineel naar verhouding enorme afmetingen heeft, wil niet zeggen dat de gebruikskopie dat ook heeft. Voor mijn part maakt men van het 25mb kleuren-A4-tje een 20kb gecomprimeerd zwartwit kopie voor raadpleging. Als je maar altijd terug kunt naar een authentiek en integer origineel.

Samengevat lijkt me dat bestandsgrootte niet het probleem is, terwijl compressie een doorlopend aandachtspunt van beheer zal zijn. (Ik heb althans thuis zowel zip-achtige (toen heel gangbaar) als pst-bestanden die ik niet meer volledig leesbaar openkrijg, terwijl de ongecomrimeerde bestanden geen noemenswaardige belasting van mijn opslagcapaciteit zouden opleveren.)
Reactie van Rutger op 21 April 2009 op 12.04
De kern van het digitaliseren in het kader van substitutie is nu juist dat papieren archiefbescheiden die voor bewaring in aanmerking komen (met andere woorden: op termijn "vooral cultuurhistorisch van waarde" worden in plaats van "waardevol in het proces van besluitvorming, bewijsvoering binnen het actuele administratieve proces" .
Na digitalisering in het kader van substitutie volgt in principe vernietiging van het papieren origineel, waardoor herstel op basis van het origineel per definitie onmogelijk is geworden. Daarom mag het ietsje meer kosten
Reactie van Leon van Oosterom op 18 April 2009 op 17.04
Ik begreep de portee. Echter in een goed "imaging project" worden een aantal cruciale zaken zorgvuldig geborgd.
Zonder nu in detail de processtappen te willen beschrijven dienen er minstens keuzes gemaakt te worden voor onder andere:

Zorgvuldige kwaliteitscontrole op de volgende zaken:
1. Volledigheid van scanning
2. Voldoen aan specificaties
3. Voldoen aan imagekwaliteit (leesbaarheid)
4. Voldoen aan formaatspecificaties (b.v. PDF-a)
5. Leesbaarheid outputbestanden
Daarnaast hoort in een omgeving met een digitaal archief absoluut ook een adequate back-up voorziening getroffen zijn.

Fouten in decompressie van opgeslagen bestanden zullen waarschijnlijk niet uit te sluiten zijn. Ik ben het echter in de praktijk van 25 jaar ervaring nog niet tegengekomen als significant probleem.

Ik ben het dan ook niet echt met de schrijvers van “The Significance of Storage in the ‘Cost of Risk’ of Digital Preservation” eens, dat het dan maar beter is om de extra kosten van storage te dragen omdat deze toch elke 18 maanden halveert. Het gaat niet alleen om de opslagkosten, het gaat ook om de verwerkbaarheid in het proces van creatie.

In een gemiddeld imaging traject wordt een file vele malen geopend, ver/bewerkt, gelezen, weggeschreven, “gebackupped” om maar een lelijk woord te gebruiken, enzovoort. Al die handelingen kosten veel meer processortijd dan het geval is bij gecomprimeerde bestanden. Denk even aan het voorbeeld uit de start van deze blog. Een typische high volume documentscanner kan images met een jpg/jp2000 compressie produceren met een snelheid van 130 vel per minuut. Dat betekent 260 images per minuut wanneer dubbelzijdig gescand wordt. Wanneer dezelfde scanner de images echter wegschrijft naar ongecomprimeerde tiff bestanden duikt de productiesnelheid naar beneden tot nog maar een magere 10 vel per minuut. Dat zou dan betekenen dat een scankostprijs van normaliter € 0,03 per image verhoogt wordt tot € 0,39. Als je alleen dat prijsverschil loslaat op een archief van 100 strekkende meter, dan praat je al over een kostenverhoging van meer dan € 160.000. Let wel dan hebben we het nog niet gehad over de kosten van processing zoals kwaliteitszorg, OCR, PDF-a creatie, indexeren enzovoort.

In een tijd dat geld steeds duurder wordt, ben ik ervan overtuigd dat we het beter zouden kunnen en moeten doen dan we tot dusver hebben gedaan. Dat betekent in mijn ogen dan ook dat een zeker -relatief klein- risico geaccepteerd moet worden. Ik heb het bij deze stelling overigens niet over cultuur historische stukken.
Reactie van Leon van Oosterom op 17 April 2009 op 16.01
De keuze ligt toch iets eenvoudiger. We vinden het goed dat zwart wit scanning wordt toegepast waarbij 15.999.998 kleurnuances worden weg gefilterd maar we vinden het fout als alleen de optisch zichtbare kleurnuances worden weg gefilterd.

Het gaat er mij om, te komen tot een gedocumenteerde en algemeen geaccepteerde standaardisatie waarbij we met het relatief beperkt beschikbare gemeenschapsgeld tot een zo groot mogelijke efficiencyslag kunnen komen.
Reactie van Leon van Oosterom op 17 April 2009 op 9.40
Heren, dank voor de uitgebreide reactie op mijn eerste blog op dit forum.
er zijn een aantal dingen te zeggen bij de discussie over kleur en compressie of zwart wit.

Tot op dit moment groeit de papierberg in Nederland alleen nog maar, ook bij het zaakgericht werken zal die groei niet afnemen. Wat ik dan opmerk is dat er verschillende bewegingen in Nederland actief zijn in het opstellen van regels teneinde digitale vervanging mogelijk te maken. Enerzijds is daar het uitmuntende werk van bureau Metamorfoze dat tot in detail voorschrijft onder welke condities cultuur historische materialen verwerkt dienen te worden, anderzijds de vele regionale of gemeentelijke instellingen die pogen om de toegankelijkheid van bestaande overheidsarchieven te verbeteren.

Mijn overwegingen zijn geschreven vanuit de gedachte dat je niet dezelfde eisen moet willen opstellen aan het scannen van een werktekening van een aangebouwd kippehok als je zou doen bij de handschriftelijke materialen van Michiel Adriaanszoon de Ruyter.
In het micrografisch tijdperk kon men een machtiging voor substitutie aanvragen, gebaseerd op vastlegging van de archiefmaterialen op zwart/wit microfilm. De eisen aan de vervaardiging op microfilm waren, en zijn nog steeds, heel streng, maar er werd wel geaccepteerd dat kleurinformatie volledig wegviel. Daarbij dient nog opgemerkt te worden dat de reproductieapparatuur voor printen vanaf microfilm kwalitatief bepaald niet optimaal was, tenminste als je die kwaliteit vergelijkt met de afdrukkwaliteit van huidige standaard -niet geijkte- kantoorprinters.

Ik weet, en pas dat ook regelmatig toe, dat veel archieven zich uitstekend in zwart/wit laten scannen. Als daarmee een project economisch haalbaar wordt gemaakt en je kunt daarmee ook nog voldoen aan de thans geldende regels voor substitutie, is daar niet zo heel veel op tegen. Toch denk ik dat het een gemiste kans is om kleurscanning met een kwalitatief goede compresssie niet toe te staan voor het gemiddelde overheidsarchief. Een document in kleur gescand geeft de gebruiker veel meer de "look and feel" van het oorspronkelijke document, verhoogt daarmee de leesbaarheid vanaf een beeldscherm en zal daardoor per definitie bijdragen aan de toegankelijkheid en raadpleegbaarheid van het archief.

Daarnaast is er nog een zeer belangrijke overweging. De bestaande archieven bevatten vaak ook oudere materialen, of materialen van minder tijdsbestendige afkomst, denk aan carbondoorslagen, faxen of kopieën uit het zink-oxyde tijdperk. De fouttolerantie bij scanning in kleur ten opzichte van scanning in zwart/wit neemt af met een factor 5 tot 10. Dat wil zeggen dat er een wezenlijk verschil is tussen het aantal pagina's dat niet geheel of geheel niet onleesbaar zal zijn bij scanning in zwart/wit vergeleken met scanning in kleur.
Als laatste nog dit; Wanneer scanning in ongecomprimeerd formaat blijft voorgeschreven, dan dient men zich te beseffen dat het niet alleen maar de gigantische geheugencapaciteit is die een negatief effect zal hebben op het kostenaspect. Ongeacht of de scanning wordt uitbesteed of in huis wordt opgezet, er wordt een zware wissel getrokken op de netwerkapparatuur en software die de output van de scanners dienen te verwerken. Deze "processing" werkt dus kostenverhogend . Uit ervaring weet ik dat de gemiddeld aanwezige netwerken en werkstations eenvoudigweg niet geschikt zijn om om te gaan met de gigantische bestandsvolumes die ongecomprimeerd scannen oplevert.

Ik heb vele aanbestedingsdocumenten voor het scannen van gemeentelijke archieven onder ogen gehad waar voor het gemak maar de substitutie eisen van bureau Metamorfoze in waren opgenomen. Die eisen zijn conflicterend met de wens om zo economisch mogelijk over te gaan tot uitvoering. Mijn streven is om te komen tot een werkbare standaard tussen de beide uitersten in, dus meer dan zwart/wit en minder dan ongecomprimeerd kleur.
Reactie van Chris Hermsen op 16 April 2009 op 21.08
Beste Leon, vooropgesteld dat 300 dpi gemiddeld genoeg is om een reproductie te kunnen vervaardigen die het origineel zo dicht mogelijk benaderd, is zelfs hier sprake van een onzekere factor. De kwaliteit en instellingen (ijking) van het reproducerende uitvoerapparaat spelen hierin een wezenlijke rol. Ik ga hierbij overigens uit van professionele grafische reproductietechnieken.

Ten aanzien van de problematiek m.b.t. benodigde opslagkwaliteit voor grote kleurendocumenten versus gebruiksvriendelijkheid zou ik twee opmerkingen willen maken.

1. Cruciaal is de vraag; wat voegt de kleur in essentie aan informatieve waarde toe aan een document?
Daar waar kleurenfoto's of kleurfonds ter opleuking van informatie wordt toegepast is mijn advies;
kies gewoon voor zwart wit. Dit is wellicht niet altijd eenvoudig door de gemiddelde div'er te beoordelen
maar het loont de moeite om de dialoog met de behandelend ambtenaar aan te gaan.

2. Mocht dan toch blijken dat omwille van GEO- info de kleur inhoudelijk iets toevoegt over
bijvoorbeeld bodemgesteldheid dan is er altijd nog de optie om naast de opgeslagen high-res versie
een lage resolutieversie beschikbaar te stellen die probleemloos en snel op het scherm geraadpleegd
kan worden en meestal ook nog redelijk acceptabel op de kantoorprinters kan worden uitgeprint.

met vriendelijke groet, Chris Hermsen

© 2024   Gemaakt door Marco Klerks.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden