18 januari 2016

Betrouwbaar digitaal depot

image for Betrouwbaar digitaal depot image

Ten geleide
Dit artikel is de eerste in een reeks van vier over het duurzaam toegankelijk houden van digitale informatie. Overzicht wordt geboden en handvaten worden aangereikt voor de praktische invulling van digitale duurzaamheid en toegankelijkheid. Goede, geordende en toegankelijke staat in de praktijk dus. De vervolgartikelen verschijnen in de loop van 2016.

Grote opgave

Ten geleide
Dit artikel is de eerste in een reeks van vier over het duurzaam toegankelijk houden van digitale informatie. Overzicht wordt geboden en handvaten worden aangereikt voor de praktische invulling van digitale duurzaamheid en toegankelijkheid. Goede, geordende en toegankelijke staat in de praktijk dus. De vervolgartikelen verschijnen in de loop van 2016.

Grote opgave
Het bewaren van digitale informatie in goede, geordende en toegankelijke staat is een grote opgave voor archiefvormers. Hoewel organisaties al decennia digitaal werken, wordt de urgentie voor digitaal behoud nu pas zichtbaar. Maar ook uit recente voorbeelden blijkt dat met duurzame toegankelijkheid niet altijd rekening wordt gehouden. Eerder schreef ik over de problemen met de archivering van ruimtelijke plannen, waarvan het bestemmingsplan het belangrijkste is.1 Deze plannen zijn complexe informatieobjecten, bestaande uit meerdere bestanden en verschillende bestandstypen, waaronder een digitaal waarmerk om de authenticiteit te garanderen. Plannen worden verplicht gepubliceerd op de overheidswebsite ruimtelijkeplannen.nl. De software op deze website stelt de lezer in staat om de plannen te raadplegen. Bestanden en viewer vormen samen het ruimtelijk plan dat de raadpleger ziet. De website biedt echter geen duurzame opslagfunctie, waardoor het bewaren een verantwoordelijkheid is van de zorgdrager. Bij het opstellen van de Wet ruimtelijke ordening (Wro) uit 2008 is hiermee geen rekening gehouden.

Twee varianten
Nut en noodzaak van een e-depot voor duurzame toegankelijkheid worden dus steeds meer onderkend door zorgdragers. Niet alleen voor permanent te bewaren informatie, maar voor alle informatie die meer dan zeven jaar te bewaren is. KING, het kwaliteitsinstituut Nederlandse gemeenten, onderscheidt twee e-depotvarianten: het e-depot als digitale archiefbewaarplaats en het e-depot als opslagfunctie. KING adviseert de bredere positionering van het e-depot. Bij de tweede variant (e-depot als opslagfunctie) wordt informatie die duurzaam toegankelijk moet blijven en niet meer verandert al eerder in het e-depot opgenomen. In het digitale tijdperk wordt dit (uiteindelijk) de dominante variant, aldus KING.2 Het e-depot als de digitale variant van de archiefruimte én de archiefbewaarplaats. Archiefdiensten spreken in dat verband van uitplaatsing en (al dan niet vervroegde) overbrenging van digitaal archief. Dat brengt mij op de volgende vraag: welke eisen worden gesteld aan, en wat is nodig voor, het duurzaam toegankelijk houden van digitale informatie? Ik behandel daarvoor eerst kort het archiefwettelijk kader voor duurzaamheid en toegankelijkheid, vervolgens een compact raamwerk voor betrouwbare depots, om ten slotte in te gaan op de praktische invulling van digitale duurzaamheid en toegankelijkheid.

Goede, geordende en toegankelijke staat
De Archiefwet en -regelgeving zijn helder over de duurzaamheid van archiefbescheiden. Artikel 3 van de Archiefwet 1995 over de goede, geordende en toegankelijke staat, is verder uitgewerkt in het Archiefbesluit 1995, artikel 11 (duurzaamheid) – ‘De zorgdrager treft zodanige voorzieningen ten aanzien van de door hem opgemaakte archiefbescheiden die ingevolge een voor hem geldende selectielijst voor bewaring in aanmerking komen, dat bij het raadplegen van die archiefbescheiden na ten minste honderd jaar geen noemenswaardige achteruitgang zal zijn te constateren’3 – en artikel 12 (geordende en toegankelijke staat).4 Artikel 11 van het Archiefbesluit 1995 gaat specifiek ook over digitale duurzaamheid. Dit blijkt uit de Toelichting: ‘Voor zowel papieren als niet-papieren archiefbescheiden geldt dat, indien door de aard van de oorspronkelijk gebruikte materialen en programmatuur aan het duurzaamheidsvereiste niet (langer) voldaan kan worden, overgegaan moet worden tot vervanging van de archiefbescheiden door reproducties (ingevolge artikel 7 van de wet).’5
De Archiefregeling 2009 stelt in hoofdstuk 2 en 3 aanvullend specifieke eisen aan de duurzaamheid en de geordende en toegankelijke staat van digitale archiefbescheiden. In hoofdstuk 2 van de Archiefregeling – duurzaamheid van archiefbescheiden – wordt de vervanging van de archiefbescheiden specifiek benoemd in artikel 14: tijdige overzetting op nieuwe dragers. Naast vervanging biedt de Archiefregeling in hoofdstuk 3 (geordende en toegankelijke staat) ook de mogelijkheid van conversie, migratie of emulatie. De eisen aan inhoud, structuur en verschijningsvorm van digitale archiefbescheiden moeten afzonderlijk worden vastgelegd. Voor digitale archiefbescheiden geldt dat tevens het ‘gedrag’ van belang is. Verder is in een digitale omgeving behalve een overzicht van archiefbescheiden ook een overzicht van de daaraan gekoppelde bestanden nodig. En bij digitale archiefbescheiden moeten ook de technische kenmerken worden vastgelegd en bewaard. Ten slotte moeten digitale bestanden voldoen aan een open en valideerbaar bestandsformaat.

E-depot volgens OAIS
De norm Open Archival Information System (OAIS / ISO 14721) is een geaccepteerde standaard voor digitale depots. Vooral het functioneel ontwerp van OAIS met de verschillende hoofdcomponenten van een e-depot is bekend. Als referentie wordt het hier getoond in figuur 1.

Functioneel ontwerp OAIS
Figuur 1. Functioneel ontwerp OAIS.

Hoewel dit functioneel ontwerp belangrijke termen biedt en als checklist kan dienen, is het – in tegenstelling tot wat soms beweerd wordt – niet relevant om aan OAIS te kunnen voldoen. Voldoen aan OAIS betekent volgende OAIS zelf twee dingen: de depotimplementatie ondersteunt het OAIS-informatiemodel, en het depot ondersteunt de verplichte verantwoordelijkheden.6
Deze laatste zijn (verkort):

  • Overleg over en accepteer relevante informatie van archiefvormers.
  • Verkrijg voldoende controle over het archief om preservering mogelijk te maken.
  • Bepaal welke groepen de doelgroep worden en daarmee de informatie moeten begrijpen.
  • Verzeker dat de te preserveren informatie onafhankelijk te begrijpen is voor de doelgroep.
  • Volg gedocumenteerd beleid en procedures zodat de informatie beschermd is.
  • Maak de informatie beschikbaar met bewijs van authenticiteit.

Een basisconcept van het OAIS-informatiemodel is dat een informatieobject bestaat uit één of meerdere dataobjecten (digitaal of fysiek) en representatie-informatie. Een dataobject bestaat daarbij uit één of meer bits (een bit is een 0 of een 1), en wordt geïnterpreteerd met behulp van representatie-informatie. Representatie-informatie wordt zelf geïnterpreteerd met behulp van verdere representatie-informatie. Dit is het OAIS-informatiemodel zoals weergegeven in figuur 2.

OAIS-informatiemodel
Figuur 2. OAIS-informatiemodel.

Informatieobjecten kunnen volgens het diagram dus bestaan uit meerdere dataobjecten. Het informatieobject is daarmee een logische eenheid die kan bestaan uit meerdere digitale of fysieke objecten. Objecten van representatie-informatie bestaan op hun beurt uit structuurinformatie, semantische informatie en andere representatie-informatie, zoals de benodigde software om een object te kunnen tonen. Dit wordt weergegeven in figuur 3.7

OAIS representatie informatieobject
Figuur 3. OAIS, representatie informatieobject.

Bewijs van authenticiteit
Nu we gezien hebben aan welke eisen een betrouwbaar digitaal depot moet voldoen en welk raamwerk gehanteerd kan worden, kunnen we inzoomen op een aantal uitdagingen: authenticiteit, preservering en doelgroep. Het beschikbaar stellen van informatie met bewijs van authenticiteit is een van de logische verantwoordelijkheden van een betrouwbaar e-depot. Dat lijkt triviaal, maar in een digitale omgeving is dat geen sinecure. De snelle ontwikkelingen in informatietechnologie bedreigen de toegankelijke staat en de authenticiteit van digitale archiefbescheiden, volgens de Toelichting op hoofdstuk 3 van de Archiefregeling. Van papieren archiefbescheiden zijn inhoud, structuur en verschijningsvorm fysiek aanwezig in het document en in de fysieke ordening. Bij digitale archiefstukken is dat niet altijd het geval.
Laten we een stap terugdoen: wat verstaan we onder authenticiteit? Een archiefstuk is authentiek als ‘de integriteit vaststaat als gevolg van een controleerbare wijze van archiefvorming, overlevering, bewaring en raadpleging. De controleerbaarheid ligt in de aanwezigheid en de status van andere documenten die de context, de toegepaste apparatuur en programmatuur en de metagegevens van het archiefstuk waarborgen.’8 Authenticiteit wil volgens de Archiefregeling zeggen dat te allen tijde kan worden vastgesteld waar archiefbescheiden vandaan komen, om zo hun ‘identiteit’ vast te kunnen stellen.9 Authenticiteit in een digitale omgeving vraagt dus, zoals de Archiefregeling eist, om het vastleggen van extra informatie ten opzichte van fysieke archiefstukken. Kern is de beschikbaarheid van andere informatie die de context, de toegepaste apparatuur en programmatuur en de metagegevens van het archiefstuk waarborgt. In termen van OAIS: de aanwezigheid van representatie-informatie bestaande uit structuurinformatie, semantische informatie en andere representatie-informatie.
Authenticiteit is volgens bovenstaande definitie een vaststelling van integriteit. Een archiefstuk of archiefbestanddeel is integer als ‘zijn vorm, inhoud en structuur [en gedrag, RB] bij raadpleging gelijk zijn aan de vorm, inhoud en structuur op het tijdstip dat het werd ontvangen of opgemaakt’.10 Ook dat is gecompliceerd in een digitale omgeving. Het ongemerkt aanpassen van vorm, inhoud of structuur van een digitaal archiefstuk is vele malen eenvoudiger dan het ongemerkt wijzigen van een fysiek archiefstuk. Daar komt nog een uitdaging bij: een digitale kopie wijkt op geen enkele wijze af van het origineel, dus wat is het (originele) archiefstuk in een digitale omgeving? Immers, bij het ‘verplaatsen’ van het digitale archief maken we eigenlijk een kopie van het origineel. Een archiefstuk kan niets anders zijn dan de authentieke kopie die wij als archiefstuk benoemen. Bij het verplaatsen (naar het e-depot bijvoorbeeld) moet een controle gedaan worden of alle bits behouden zijn. Hiermee kan ook gecontroleerd worden of het bestand niet moedwillig is aangetast.

Preservering van informatie
Preservering mogelijk maken is een andere verantwoordelijkheid van een betrouwbaar depot. Volgens de Toelichting op de Archiefregeling 2009 moet de oorspronkelijke inhoud, structuur en vorm van de archiefbescheiden leesbaar of waarneembaar gemaakt kunnen worden na vervanging van apparatuur en programmatuur.11 De regeling geeft hiervoor drie mogelijkheden aan: migratie, conversie of emulatie. Migratie betekent volgens de Archiefregeling dat de archiefbescheiden in een nieuwe omgeving terechtkomen, die de functionaliteit (vorm en structuur) ervan kan beïnvloeden. Anders dan migratie, vindt conversie plaats binnen dezelfde toepassingsprogrammatuur. Conversie kan gezien worden als een vorm van migratie. Emulatie is vooral gericht op het behoud van de oorspronkelijke functionaliteit van computerprogramma’s, met als doel de oorspronkelijke weergave (en functionaliteit) te kunnen realiseren.12
Bij preservering wordt een onderscheid gemaakt tussen ‘bitstream preservering’ en ‘logische preservering’, ook wel ‘actieve preservering’ genoemd. Aan de basis voor behoud staat passieve preservering van bestanden. Hierdoor wordt gegarandeerd dat omvang en positie van de bits waaruit het bestand bestaat niet wijzigt. Daarvoor wordt bij de opname een controlegetal berekend dat gedurende de tijd gelijk moet blijven. Het e-depot van Nationaal Archief en RHC’s ondersteunt migratie als actieve preserveringsmethode. Actieve preservering zorgt ervoor dat er altijd een leesbare versie beschikbaar is. Daarvoor moet het oorspronkelijke bestandsformaat valideerbaar zijn, bijvoorbeeld via een register van bestandsformaten, zoals PRONOM.
Vervolgens kunnen aan de hand van een preserveringsbeleid en -strategie, preserveringsacties worden uitgevoerd op de dataobjecten met een bedreigd bestandsformaat.
Een digitaal informatieobject is in feite een combinatie van een bestand dat de informatie bevat, viewersoftware (nodig om het bestand te bekijken) en de technische ondergrond (hardware en systeemsoftware) waarop de viewersoftware draait. De uitdaging van preservering is om ervoor te zorgen dat bestandsformaat en viewersoftware bij elkaar blijven passen. Op een bestand kun je migratie toepassen, maar of je dan het record kan recreëren, hangt af van de beschikbaarheid van viewersoftware. Omdat iedereen over een pdf-viewer beschikt, is migratie naar pdf-a op dit moment een succesvolle strategie voor preservering. Dat geldt echter niet voor alle bestandstypes. Excelbestanden kun je ook migreren naar pdf-a. Dan zie je de ‘voorkant’, maar raak je aan de ‘achterkant’ de formules kwijt. In zo’n geval gaan essentiële eigenschappen van het record verloren bij migratie. Voor preservering dienen bestanden en viewers dus in samenhang te worden beschouwd. Ook hier weer het voorbeeld van het digitale ruimtelijke plan: zonder de viewer van www.ruimtelijkeplannen.nl is waarneming van het plan niet mogelijk.

Begrijpelijk voor de doelgroep
Het vaststellen van een doelgroep en informatie beschikbaar maken voor die doelgroep is de derde verantwoordelijkheid van een betrouwbaar depot. Het is de doelgroep die bepaalt hoe de informatie in het depot wordt opgeslagen en beschikbaar wordt gesteld. Het maakt nogal wat uit of de doelgroep de ‘archiefconsument’ is, de archiefvormer of beiden. De archiefvormer zal bijvoorbeeld alle metadata die toegevoegd zijn aan de archiefstukken willen bewaren en kunnen raadplegen. Voor een archiefconsument zijn deze metadata mogelijk van veel minder belang. Het huidige metadataschema, het Toepassingsprofiel Metadata Lokale Overheden, biedt de mogelijkheid om alle metadata van de archiefvormer vast te leggen (‘agency specific metadata’) en maakt tegelijkertijd een beperkte set verplicht vanwege gegevensuitwisseling.

Conclusie
De kritische geluiden dat Archiefwet en -regelgeving vooral een ‘papieren werkelijkheid’ beschrijven, worden veroorzaakt door de onduidelijkheid die er nog heerst rond digitale duurzaamheid, met een voorzichtige uitwerking in de wetgeving als gevolg. De kwaliteit van de programmatuur voor opslag, verwerking en raadpleging van gegevens wordt in het Archiefbesluit nadrukkelijk genoemd als kritisch aspect voor digitale duurzaamheid.
Opvallend is dat vervolgens in de Archiefregeling de goede staat vertaald is naar duurzaamheidseisen (overigens niet voor elektronische dragers) met vervanging, en de geordende en toegankelijke staat naar conversie, migratie of emulatie zonder vervanging. Uiteindelijk biedt de Archiefwet en -regelgeving voldoende kader voor digitale duurzaamheid.
Informatieobjecten kunnen volgens het OAIS-informatiemodel bestaan uit meerdere dataobjecten. Dat is een belangrijke vaststelling: het gaat niet om het duurzaam toegankelijk houden van eenheden data (bestanden), maar om het duurzaam toegankelijk houden van eenheden informatie. Ander belangrijk gegeven is de beschikbaarheid van representatie-informatie over de benodigde software. Een informatieobject is in feite dat wat wij waarnemen in een viewer. Daarmee is de viewer ook in de toekomst noodzakelijk om het informatieobject waar te kunnen nemen. Dat is met name van belang voor complexe informatieobjecten De doelgroep bepaalt tot slot hoe informatie in het depot wordt opgeslagen en beschikbaar wordt gesteld. OAIS biedt daarmee een helder kader van verantwoordelijkheden en modellen voor de inrichting van een depot.
Beheerders van een betrouwbaar digitaal depot moeten hiermee aan de slag en voorzien in oplossingen. Aan archiefdiensten de taak om hun rol waar te maken in duurzame toegankelijkheid.

Trainingen OAIS
Trainingen in de eisen voor een betrouwbaar digitaal depot worden gegeven door The Primary Trustworthy Digital Repository Authorisation Body. Beschikbaar zijn trainingen in ‘ISO 14721 – OAIS’ en ‘ISO 16363 – Audit and certification of trustworthy digital repositories’. Volgend jaar wordt in Nederland samen met de NCDD een training OAIS gegeven. Voor meer informatie: www.iso16363.org/courses/

Roland Bisscheroux, informatiemanager/archiefinspecteur bij het Noord-Hollands Archief (roland.bisscheroux@noord-hollandsarchief.nl).

Noten
1 Roland Bisscheroux, Archivering en de omgevingswet, Archievenblad (2015), nr. 6, pp. 24-26.
2 KING, Onderzoek Functionaliteit e-depot Decentrale Overheden (2015).
3 Archiefbesluit 199, artikel 11.1.
4 Volgens de Toelichting op het Archiefbesluit worden aan de duurzaamheid van de op termijn te vernietigen archiefbescheiden en aan de duurzaamheid van ontvangen archiefbescheiden geen bijzondere eisen gesteld. Deze archiefbescheiden moeten wel in goede, geordende en toegankelijke staat gebracht en bewaard worden (voor wat vernietigbare archiefbescheiden betreft: tot de vernietigingstermijn is aangebroken).
5 Archiefbesluit 1995, Nota van toelichting bij artikel 11.
6 David Giaretta, Advanced digital preservation (Berlijn, 2011).
7 Een derde en laatste onderdeel van het OAIS-informatiemodel is het concept van ‘packaging’. Een informatiepakket bestaat uit contentinformatie, preserveringsinformatie, pakketinformatie en pakketbeschrijving. Pakketinformatie bindt of relateert de componenten van een informatiepakket tot identificeerbare entiteiten op een specifiek medium. OAIS kent drie vormen van informatiepakketten: Submission Information Package (SIP), Archival Information Package (AIP) en Dissimination Information Package (DIP). Alleen het AIP is verder uitgewerkt in OAIS. Deze begrippen zijn onderdeel van het functioneel ontwerp (figuur 1).
8 http://archiefwiki.org/wiki/Authenticiteit
9 Archiefregeling 2009, Toelichting, Staatscourant (2010), nr. 70, 38.
10 http://archiefwiki.org/wiki/Integriteit
11 Archiefregeling 2009, Toelichting, Staatscourant (2010), nr. 70, 41.
12 Verder is er ook het ‘computermuseum’, waarbij niet alleen de data en eventueel de toepassingssoftware, maar ook de complete originele omgeving (de computers en de systeemsoftware die daarop draait) worden bewaard. Deze methode wordt weinig toegepast.