2020: twintig jaar webarchivering in Nederland

Archipol

Het bewaren van digitaal geboren erfgoed van het web begon in Nederland bij het Documentatiecentrum Nederlandse Politieke Partijen aan de Universiteitsbibliotheek van de Rijksuniversiteit Groningen. Daar in het hoge noorden werd voor het eerst een website van een Nederlandse politieke partij gearchiveerd in het kader van webarchiveringsproject Archipol. Dit webarchief bestaat nog steeds en heeft in de loop van twintig jaar meer dan 1.000 sites van Nederlandse politieke partijen, politici en politieke bewegingen bewaard. Sommige websites worden al twee decennia elke maand trouw gecrawled, waardoor in de loop der jaren een unieke collectie van twee decennia digitaal geboren data van en over de Nederlandse politieke cultuur op het web is opgebouwd. Zie ook deze publicatie.

Het eerste Nederlandse webarchief ging pas relatief laat van start, als we bedenken dat de eerste Nederlandse website al in 1992 online kwam (als derde website van de wereld!) en de vroegste Nederlandse homepage al in 1993 het licht zag als een van de eerste op het web. (De laatste is in 2019 in de webcollectie van de KB opgenomen.) Daarna explodeerde het web: bij het begin van webarchivering rond het millennium waren er al meer dan een half miljoen .nl-websites in Nederland online, naast de tienduizenden particuliere homepages en bedrijfssites die waren gehost bij verschillende providers, waarvan XS4ALL de grootste was. Daarnaast was een groot deel van deze digitaal geboren publicaties in de tussentijd ook alweer offline gegaan. Juist vanwege dit snelle digitale verval wereldwijd begon het Internet Archive met webarchivering op grote schaal in 1996. In Europa deed de Koninklijke Bibliotheek van Zweden al in 1997 de eerste ervaringen op met een domeincrawl van delen van het Zweedse nationale domein.

Domeincrawl

Ook twintig jaar geleden, in januari 2000, voerde de Koninklijke Bibliotheek in Nederland voor het eerst een nationale domeincrawl uit als onderdeel van een test van de NEDLIB-harvester. Dit was innovatieve webarchiveringssoftware die in Europees verband met steun van de Europese Unie werd ontwikkeld. Het experiment werd gelijktijdig uitgevoerd door de Bibliothèque Nationale de France, de Bibliotheca Nazionale Centrale di Firenze, de Deutsche Bibliothek en de nationale bibliotheken van Noorwegen en Zwitserland.

De domeincrawl van het Nederlandse domein was vooral bedoeld als test van de software. Ook was opslag relatief duur in 2000. Om deze redenen zijn de gearchiveerde websites niet bewaard die tijdens de crawl werden binnengehaald. Wel werden metadata opgeslagen en geanalyseerd en de resultaten uitgebreid beschreven door Lex Sijtsma in een rapport dat door de KB werd gepubliceerd. De data in dit rapport kan ons ook twintig jaar later nog steeds interessante informatie verschaffen over het Nederlandse webdomein in het verleden.

Het vertrekpunt van de domeincrawl was de inhoud van NL-Menu, een van de eerste webdirectories van Nederland uit 1992. Deze site werd beheerd door de KB als service voor zoekers naar informatie op het web. De laatste versie van deze site uit 2004 is onlangs op basis van CD-ROMS gereconstrueerd door collega Johan van der Knijff van de afdeling Onderzoek en online gezet. Omdat in de beginjaren van het web geen efficiënte zoekmachines bestonden op het internet, waren webdirectories de telefoongidsen van het web. De beheerders van deze directories brachten handmatig het Nederlandse web in kaart. Deze bestonden uit thematisch, alfabetisch of geografisch geordende lijsten van websites waarbinnen de gebruiker online kon navigeren en zo snel het gewenste webadres kon vinden. Het NL-Menu bevatte de gegevens van de op dat moment meest relevante 30.000 Nederlandse websites en was daarmee een uitstekend begin van een domeincrawl.

De KB-website in 2000

De eerste Nederlandse domeincrawl leverde de volgende gegevens op:

Het Nederlandse .nl-domein bestond anno 2000 uit ongeveer 20 miljoen webpagina’s (op dat moment waren er ongeveer 500.000 .nl URL’s geregistreerd bij het SIDN, maar die webadressen hadden niet allemaal een website)
Het Nederlandse .nl-domein omvatte ongeveer 90% van het Nederlandse deel van het web, 10% wordt ingenomen door andere domeinen als .com, .org of .net.
Tweederde van de Nederlandse websites was klein en bestond uit minder dan tien pagina’s.
Een volledige momentopname van het Nederlandse web zou minimaal 10.000 webpagina’s hebben bevat, met een gemiddelde paginagrootte van 10 Kb.
De meeste fileformaten die werden binnengehaald (98%) worden ondersteund door standaarden. De meest voorkomende types waren HTML, .gif, .jpg en .txt.

Volgens Lex Sijtsma zou een volledige crawl van het wereldwijde web in het jaar 2000 maar ongeveer 2000 Gigabyte groot zijn geweest en 20 miljoen pagina´s hebben bevat, waarbij de gemiddelde paginagrootte 10 Kb was, inclusief afbeeldingen en andere bronnen. De NEDLIB-harvester kon 10 URL´s per seconde archiveren met een gemiddelde van drie bronnen op een pagina. Dit betekende dat een volledige snapshot van het WWW in 69 dagen zou zijn afgerond. Het Nederlandse webdomein zou toen in maar zeven dagen zijn binnengehaald. Hadden we toen maar…

Met dank aan Lex Sijtsma voor de bronnen en informatie.

BREED - over de grenzen van informatie

2020: twintig jaar webarchivering in Nederland

Archipol

Domeincrawl

Je moet lid zijn van BREED - over de grenzen van informatie om reacties te kunnen toevoegen!

Partner(s)

Sponsor(s)

Direct naar...

Vind BREED!