, 6 december 2017

Webarchivering in het netwerk

image for Webarchivering in het netwerk image Achtergrond
In een reeks van vijf artikelen wordt een beeld geschetst van webarchivering in Nederland. Het vierde artikel in de reeks gaat over het initiatief van het Netwerk Digitaal Erfgoed. Het netwerk zette een register met gearchiveerde websites op om vast te leggen welke websites er in Nederland bewaard worden.

“Internet is niet meer weg te denken uit ons dagelijks leven.

In een reeks van vijf artikelen wordt een beeld geschetst van webarchivering in Nederland. Het vierde artikel in de reeks gaat over het initiatief van het Netwerk Digitaal Erfgoed. Het netwerk zette een register met gearchiveerde websites op om vast te leggen welke websites er in Nederland bewaard worden.

“Internet is niet meer weg te denken uit ons dagelijks leven. Maar het web is vluchtig en de informatie waarop je vandaag je beslissing baseert, kan morgen verdwenen zijn. Terwijl veel online informatie blijvend toegankelijk zou moeten zijn.” Zo begonnen we onze artikelenreeks over webarchivering in Nederland.
We hebben vervolgens in het eerste artikel beschreven wat webarchivering is en hoe je dit kunt aanpakken. Dat er verschillende redenen zijn om websites en andere informatie op het web te verzamelen, te bewaren en toegankelijk te houden. En dat er verschillende manieren zijn om dat te doen. Een volledig domein binnenhalen, bijvoorbeeld het .nl-domein, of verzamelen op basis van een selectie.
En als dat niet meer mogelijk is, dan kunnen we proberen om verdwenen websites op te graven door ons door verschillende lagen van het web heen te graven als ware het een digitaal Pompeï, zoals in het tweede artikel is geschetst.

Waarom webarchivering?
Voor bepaalde online informatie geldt dat het wenselijk en soms zelfs noodzakelijk is dat deze toegankelijk blijft, ook nadat die offline wordt gehaald of is gewijzigd. De redenen hiervoor zijn divers: naast cultuurhistorische gronden (wat geldt voor collecties van culturele instellingen, maar ook voor websites en sociale media die inzicht geven in het tijdsbeeld van een bepaalde periode) gaat het ook om archiefwettelijke plichten (overheidsinformatie), wetenschappelijke redenen, bedrijfsbelangen en juridische overwegingen. Of om journalistieke redenen, zoals het voorbeeld van MH17 laat zien. Journalistiek onderzoekscollectief Bellingcat deed tussen 2014 en 2016 onderzoek naar wie er verantwoordelijk zou zijn voor het neerschieten van het vliegtuig. Gebruikmakend van webarchieven konden zij aantonen welke soldaten betrokken waren bij de actie. Deze social media-berichten werden snel na plaatsing verwijderd, maar waren gelukkig al wel opgenomen in het Internet Archive.
Het verzamelen, bewaren en toegankelijk houden van delen van het web, wij noemen dat webarchivering, is daarom van groot belang. De enorme omvang van het Nederlandse webdomein, het ontbreken van een wettelijk kader voor het verzamelen daarvan en de verschillende lagen waaruit het web zelf bestaat, zorgen ervoor dat archivering daarvan niet eenvoudig is.

Hoe doen we dat?
Webarchivering kan grofweg op twee manieren worden aangepakt: door het harvesten van een heel domein (het .nl-domein) of door het maken van een selectie van te verzamelen websites. Zoals in het artikel van Kees Teszelszky is uitgelegd1, komt dit neer op het verschil tussen het trekken van een sleepnet door het wereldwijde web en het heel gericht hengelen naar bepaalde vooraf geselecteerde websites. De grofmazige aanpak wordt onder andere gehanteerd door het Verenigd Koninkrijk en Frankrijk. Twee landen die beschikken over een nationale wetgeving die het mogelijk maakt om ook online bronnen te verzamelen en te bewaren voor de lange termijn, als wettelijk depot. Ook het welbekende Internet Archive hanteert deze aanpak, gericht op het volledige wereldwijde web. Daarbij moeten we ons wel realiseren dat deze aanpak resulteert in een grote verzameling websites waarvan een klein beetje is binnengesleept en gearchiveerd. Desondanks levert dit een prachtig overzicht op van het web door de jaren heen. De selectieve aanpak betekent dat websites vaak zo compleet mogelijk worden gearchiveerd. Dit op basis van een vooraf bepaalde selectie.

Dit is de aanpak die door steeds meer organisaties wordt gehanteerd. Het Documentatiecentrum Nederlandse Politieke Partijen van de Universiteit Groningen beschikt over een collectie van ruim duizend website van politieke partijen. Beeld en Geluid archiveert mediagerelateerde websites. Het Nationaal Archief is verantwoordelijk voor opname in het e-depot van websites van de rijksoverheid, terwijl regionale en provinciale archieven in Nijmegen, Dordrecht, Zeeland en Utrecht zich richten op websites in de eigen regio. Of een selectie maken van websites in of uit de eigen stad, zoals het Stadsarchief Rotterdam. De grootste webcollectie in Nederland wordt gevormd door die van de Koninklijke Bibliotheek die uit meer dan dertienduizend websites bestaat.

Register van gearchiveerde websites
Om vast te leggen welke websites er in Nederland bewaard worden, is door het Netwerk Digitaal Erfgoed een register met gearchiveerde websites opgezet. In dit register wordt bijgehouden welke websites waar worden bewaard, sinds wanneer dit gebeurt, met welk interval en met welke software de pagina’s worden binnengehaald. Ook wordt bijgehouden wat de reden is om een website te bewaren, en of en hoe de gearchiveerde website toegankelijk is. In eerste instantie is het register bedoeld voor erfgoedprofessionals die willen weten of een bepaalde website al ergens wordt gearchiveerd. Op korte termijn moet het register echter een openbare website worden waar ook de gebruiker van webarchieven in kan zoeken.

In een utopisch toekomstbeeld zou dit register ook de daadwerkelijk gearchiveerde websites moeten laten zien (of doorverwijzen naar de gearchiveerde pagina in het desbetreffende achterliggende webarchief). Dit lijkt echter nog ver weg. Het opnieuw publiceren van gearchiveerde content (van derden) is in veel gevallen een schending van auteursrecht en privacywetgeving. Om in Nederland een gearchiveerde webpagina te bekijken moet je in veel gevallen naar een studiezaal van de organisatie die de website heeft gearchiveerd. Dus bijvoorbeeld naar de Koninklijke Bibliotheek, Beeld en Geluid of het Regionaal Archief in Dordrecht. Voor overheidswebsites ligt dit over het algemeen anders, omdat overheidsinstellingen enkel hun eigen website archiveren en die weer beschikbaar kunnen stellen.

In het register zitten op dit moment circa 16.000 gearchiveerde websites. Door zeven webarchieven zijn hiervoor metadata aangeleverd. Ook staan de openbare webarchieven van marktpartij Archief.eu in het register. Dit zijn online toegankelijke websites van gemeenten, provincies en waterschappen. Het doel is om dit register levend en actueel te houden en aan te vullen met nog ontbrekende webarchieven.

Werk aan de winkel
Het web genereert een enorme hoeveelheid data en is tevens de plek waar iedereen aanwezig is (moet zijn). Er zijn wereldwijd meer dan een miljard websites en het .nl-domein bevat naar schatting zo’n 5,8 miljoen websites. Tegelijkertijd is het web zeer vluchtig en ook bedoeld om vluchtig te zijn. Het is oorspronkelijk bedoeld als communicatie middel en niet als bibliotheek. Deze vluchtigheid is terug te vinden in de wijze waarop het internet gebouwd en gestructureerd is. Adrienne LaFrance heeft het dan ook over het web als ‘a constantly changing patchwork of perpetual nowness’.

Ondanks de vele webarchiveringsactiviteiten in Nederland en de groeiende aandacht hiervoor is naar schatting niet meer dan 0,3% van het Nederlandse web gearchiveerd. Tegelijkertijd vindt webarchivering nog erg versnipperd plaats in Nederland. Er zijn weliswaar veel initiatieven, maar die vinden vaak onafhankelijk van elkaar plaats. Met de ontwikkeling van een nationaal register proberen we niet alleen een overzicht te creëren, maar tevens de samenwerking tussen instellingen en initiatieven te stimuleren. Het daadwerkelijke archiveren wordt belemmerd doordat instellingen niet over de benodigde kennis en kunde beschikken (hoe begin je, welke tools en technieken zijn er, kun je dit uitbesteden of moet je zelf aan de slag?).

Samenwerking is noodzakelijk
Om ervoor te zorgen dat zoveel mogelijk belangrijke webbronnen bewaard blijven voor toekomstige gebruikers is een gecoördineerde aanpak noodzakelijk. Dat begint bij het maken van afspraken over wie welke websites verzamelt, zodat we ons niet allemaal op dezelfde informatie storten. Daarnaast is het van belang dat kennis, ervaring, financiële middelen en infrastructuur gedeeld worden tussen instellingen. Daarmee zullen we in staat zijn om boven lokale initiatieven uit te stijgen en zal het effect van onze inspanningen veel groter zijn.

Gebaseerd op de Nationale Strategie voor digitaal Erfgoed waarin een visie op de ontwikkeling van gemeenschappelijke voorzieningen voor de zichtbaarheid, het gebruik en de langetermijntoegang tot digitaal erfgoed is beschreven, hebben het Netwerk Digitaal Erfgoed en de Nationale Coalitie Digitale Duurzaamheid in 2016 het initiatief genomen om die samenwerking vorm te geven. Om te beginnen wordt het al genoemde nationaal register ontwikkeld. Daarnaast is het vooral een kwestie van het vinden van de juiste samen werkingspartners en de juiste kennis op het juiste moment en om de eerste stappen te zetten.

Het is een gegeven dat de technologische ontwikkelingen razendsnel gaan en de middelen van erfgoedinstellingen beperkt zijn. Daarom is een gezamenlijke aanpak noodzakelijk en is het belangrijk dat we kennis, workflows, voorzieningen en ervaringen zoveel mogelijk met elkaar delen. Daarbij moeten we ons ook realiseren dat preservering van het web niet slechts een technische aangelegenheid is. Het gaat ook over selectie en waardering, over het gebruik van beperkte middelen, juridische belemmeringen en het daadwerkelijke gebruik van webarchieven. Voor wie doen we dit en wat zijn de wensen en eisen van die gebruikers?

Naast het nationaal register is er door het Netwerk Digitaal Erfgoed een expertgroep opgericht waarin vertegenwoordigers van de verschillende domeinen deelnemen. Deze groep heeft als doel het bevorderen en initiëren van de samenwerking op het gebied van webarchivering in Nederland. Ondanks dat instellingen vaak verschillende beweegredenen hebben om websites te archiveren, zijn de problemen waar ze tegenaan lopen veelal hetzelfde. Door kennis te delen en werkzaamheden op elkaar af te stemmen, wordt het makkelijker om technische, organisatorische, financiële en juridische knelpunten aan te pakken. Het gebruik van ‘de webcollectie Nederland’ staat daarbij centraal. Daarnaast buigt de expertgroep zich over de praktische samenwerking tussen instellingen om te kijken waar richtlijnen, tools en expertise gedeeld kunnen worden. Denk hierbij aan het delen van selectielijsten, harvest-software of opslagcapaciteit en het bespreken van juridische kwesties. Niet iedere organisatie hoeft immers alles zelf te doen.

Grijp de kans
Het web speelt een cruciale rol in de uitwisseling van informatie en ideeën, innovatie, economische groei en ons dagelijks leven in het algemeen. Daarmee is de waarde van het web en de informatie op het web groot. Onvoldoende aandacht voor het duurzaam toegankelijk houden hiervan zorgt voor waardevermindering en wellicht het opdrogen van ideeën en innovatie. Het is noodzakelijk dat alle betrokkenen samenwerken. Van degenen die zorgdragen voor de archieven tot de beleidsmakers, de subsidieverstrekkers en de eindgebruikers. Het archiveren van het web is niet een probleem, maar een kans!

Praat en denk mee
Omdat een zo breed mogelijke samenwerking noodzakelijk is, roepen we u op om mee te denken en mee te praten in de expertgroep. Via het Kennisplatform webarchieven kunt u lezen wat de expertgroep doet, welke discussies er in Nederland gevoerd worden en hoe u kunt aansluiten en deelnemen (zie:https://kia.pleio.nl/groups/profile/48637242/kennisplatformwebarchivering).

agoos@beeldengeluid.nl, Arnoud Goos is projectleider Netwerk Digitaal Erfgoed en coördinator instroom bij het Nederlands Instituut voor Beeld en Geluid

Marcel.Ras@KB.nl, Marcel Ras is programmamanager bij het Nationale Coalitie Digitale Duurzaamheid en het Netwerk Digitaal Erfgoed


Noot:

1 Zie ‘De oogst van de digitale Hollandse akker’, Od (2017)5, pp. 12-15.