BREED - over de grenzen van informatie

NETWERK VOOR DE INNOVATIEVE INFORMATIEWERKER

Hoeveel gigabytes / terabytes passen in een meter archief ?

In verband met een kostenberekening ben ik op zoek naar kengetallen van een meter gedigitaliseerd archief. De ene meter is de andere niet, of je een meter pdf's hebt of een meter TIFF's maakt nogal een verschil.

Wie heeft dit soort berekeningen weleens uitgevoerd en wil ervaringen delen ? Mag ook anoniem.

Misschien moet de vraagstelling wel zijn hoeveel gigabytes of terabytes leveren alle blaadjes papier in een meter archief per soort bestandsformaat op met een gemiddelde van 300 dpi ?

In een artikel van De Ree uit juli 2013 worden de volgende kengetallen genoemd:

Een meter gedigitaliseerd archiefmateriaal is ongeveer 20 gigabyte, een kilometer archief bijgevolg 20 terabyte.

Vind ik leuk

1 lid vind dit leuk

▶ Hierop reageren

Berichten in deze discussie

Permalink Antwoord van Henk Sligman op 8 September 2015 op 11.48

Is het eigenlijk nog interessant om dit te "weten". De digitale "kosten factoren" wijzigen per maand.

Maar hier een "getal" in ons RMA en dus voorlopig het E-depot, met digital born en vervangen archiefbestanden bij elkaar = medio 2015:

1,9 Terrabyte en er zitten rond de 1,8 miljoen documenten in (inclusief enkele films) aantal meters? geen idee.

▶ Beantwoorden

Permalink Antwoord van MGroels op 8 September 2015 op 12.22

Je weet die van ons al waarschijnlijk Yvonne, maar misschien voor anderen interessant.

Gemeente van ongeveer 200.000 inwoners

0,55 Terabyte aan te bewaren informatie (1,63TB te vernietigen; de rest heb ik nog niet kunnen inventariseren, er schijnt in totaal 400TB aan opslag te worden gebruikt, het merendeel voor software e.d.).

Wij archiveren officieel "nog niet digitaal"... best knap met een halve terabyte aan te bewaren digitale informatie.

@Henk: is die 1,9 allemaal te bewaren, want dan lijkt het alsof ik nog een hoop gemist heb? (Of jij werkt bij een 4x grotere organisatie -Amsterdam?-, of werkt al 4x langer digitaal?)

▶ Beantwoorden

Permalink Antwoord van Yvonne Welings op 8 September 2015 op 13.18

@Mike, dankjewel, inderdaad had ik het cijfer al gehoord en dat was voor mij de directe aanleiding om de vraag te stellen. Ik denk dat iedere organisatie behoefte heeft aan kengetallen op dit gebied.

Via de mail ontving ik nog een opgave van Wouter Brunner,

600 meter papieren archief, zwart-wit gescand maar met kleurherkenning, pdf, 300 dpi, inclusief groot formaat tekeningen zou ruim 300 GB bedragen.

▶ Beantwoorden

Permalink Antwoord van Henk Sligman op 8 September 2015 op 13.52

@Mike je hebt de juiste vraag. We zijn net gestart met het proces vernietigen in een digitale wereld. Dat is meer dan deleten van enige bestanden. Eerst hebben we retrospectief spectieve trendanalyse Door het SIO laten vaststellen. Nu moeten er euries beschikbaar komen.

▶ Beantwoorden

Permalink Antwoord van Yvonne Welings op 8 September 2015 op 16.37

@Henk en @Mike, is het geen illusie om te denken dat je in een digitaal tijdperk kunt vernietigen, denk aan het bonnetje van de staatssecretaris Teeven ?

▶ Beantwoorden

Permalink Antwoord van Henk Sligman op 8 September 2015 op 17.14

Indien we niet volledig kunnen vernietigen zullen de boetes hoog zijn en dat is geen illusie maar huidige realiteit

▶ Beantwoorden

Permalink Antwoord van MGroels op 9 September 2015 op 9.00

Het mag dan wel een illusie zijn om het elke plek en alle juiste 000100011001-combinaties te vernietigen, we kunnen in ieder geval wel (proberen) om de bestanden/documenten te vernietigen op de plekken waar ze behoren te staan. Als er dan nog talloze kopiën rondzwerven, gaan we daar niet veel aan doen. Maar dat deden we honderd jaar geleden ook niet: iedereen vragen of er nog ergens kopietjes rondzwerven.

Neemt niet weg dat het aan te raden is om in kaart te brengen waar een document zich (officieel gezien) nog meer bevindt, zoals in back-ups of oude, afgesloten systemen. Aangezien het voorbeeld van Teeven nu heeft gespeeld, betekent niet dat alle data van 10+ jaar geleden nog steeds beschikbaar is.

▶ Beantwoorden

Permalink Antwoord van Henk Sligman op 9 September 2015 op 10.17

@Mike klopt, dat deden we 100 jaar geleden inderdaad niet :-)

In eerste aanleg zou ik het dossier/document wat zowel in het DMS/RMS en/of V-Schijf en/of backoffice systeem voorkomt willen aanpakken.

▶ Beantwoorden

Permalink Antwoord van Tom Derks op 9 September 2015 op 11.09

Beste Yvonne,

Op mijn werk zijn we bezig met een pilot voor het digitaliseren van een groot papieren archief. Hierbij liepen we ook aan tegen een vergelijking tussen digitaal en papier betreffende de kosten.

Omdat ik er niet uitkwam ben ik maar gaan rekenen. Als eerste heb ik een archiefdoos (model amsterdamse doos) volgestopt met papier. Als ik de doos helemaal vol stopte met kopieerpapier vers uit het pak (niet gekreukeld en bijna geen lucht tussen de vellen) Dan kreeg ik ongeveer 1120 vel in de doos. In de praktijk zal dit minder zijn omdat er altijd nog omslagen, bindmiddelen, lucht en andere objecten in een doos kunnen zitten.
Als uitgangspunt kies ik voor 1000 vel in een doos.

Verder ga ik ervan uit dat elk vel dubbelzijdig gescand wordt dus 2000 scans per doos.

In praktijk zijn deze getallen lager omdat niet elke doos helemaal vol zit en niet alles dubbelzijdig gescand gaat worden(sommige scanners negeren bijvoorbeeld de witte kant van een enkelzijdig gebruikt vel).

Als ik me niet vergis gaan er 8 Amsterdamse dozen in een meter dus 16.000 scans per meter voor een dubbelzijdig losbladig archief.

In een eerder project heeft mijn werkgever een meer dan 1KM aan papieren (A4 papier) archief op dossierniveau ingescand naar het PDF/A formaat. Na het scannen zijn de PDF bestanden door een OCR proces gehaald en ze bevatten dus doorzoekbare en selecteerbare tekst.

Uit dit archief heb ik van een krappe 100 dossiers de grootte in Megabytes en het aantal pagina's in een Excel bestand genoteerd, vervolgens heb ik de gemiddelde grootte in Megabytes en Kilobytes per pagina berekend. Elke pagina in de PDF was 1 scan.

Mijn berekening kwam op ongeveer 35 Kilobyte per scan.

De benodigde opslag is dus 35 * 16000 = 560000 Kilobyte = 546,875 Megabyte per meter.

De TIFF bestanden van het scanproces waren overigens een stuk groter dan de PDF bestanden maar omdat die na het scan- en ocrproces niet meer nodig waren kan ik daar geen berekeningen meer mee doen.

De hierboven berekende getallen zijn rudimentair maar geven in elk geval een goede indruk.

Ons document management systeem bevat overigens +/- 600.000 documenten van 1 of meerdere pagina's en verschillende versies per document. Dat is ongeveer 3 Terrabyte = of 3072 Gigabyte [GB]

Dit is allemaal digital-born of ingescand archief. Helaas kan ik hier niet de omrekening maken naar meters of scans omdat ik niet weet hoeveel pagina's er in de documenten zitten en hoeveel versies elk document heeft.

▶ Beantwoorden

Permalink Antwoord van Yvonne Welings op 9 September 2015 op 12.45

@Tom, bedankt voor je uitgebreide toelichting.

▶ Beantwoorden

Permalink Antwoord van 00edzraej7x9x op 9 September 2015 op 13.45

Interessant om te zien dat Tom's berekeningen zeer goed aansluiten bij onze ervaringscijfers.

▶ Beantwoorden

Permalink Antwoord van Sander Brabander op 9 September 2015 op 16.43

Een erg goed voorbeeld, Tom. Bedankt voor de uitwerking. Wat ik me wel afvraag: waren de scans in kleur, grijswaarden, z/w of een combinatie (je geeft immers aan een gemiddelde genomen te hebben)?