1 oktober 2009

Het digitale depot van Stadsarchief Amsterdam

image for Het digitale depot van Stadsarchief Amsterdam image

Na een uitgebreide testfase is het nieuwe digitale bewaardepot van het Stadsarchief Amsterdam nu echt in gebruik. 800.000 gedigitaliseerde persoonskaarten zijn succesvol overgedragen naar het nieuwe depot. “De inname van de bestanden in het nieuwe bewaardepot is verrassend soepel verlopen”, zegt Sander Ujzanovitch, teamleider Digitaal Beheer. “De opname van de gedigitaliseerde persoonskaarten was een pilot. Nu is het zaak het hele proces, van inname tot uitgifte, grondig te evalueren.”

Na een uitgebreide testfase is het nieuwe digitale bewaardepot van het Stadsarchief Amsterdam nu echt in gebruik. 800.000 gedigitaliseerde persoonskaarten zijn succesvol overgedragen naar het nieuwe depot. “De inname van de bestanden in het nieuwe bewaardepot is verrassend soepel verlopen”, zegt Sander Ujzanovitch, teamleider Digitaal Beheer. “De opname van de gedigitaliseerde persoonskaarten was een pilot. Nu is het zaak het hele proces, van inname tot uitgifte, grondig te evalueren.”

Spectaculaire groei
Het Stadsarchief Amsterdam beheert meer dan 35 kilometer archief. Het grootste deel van deze charters, egodocumenten, registers, bouwtekeningen en akten bestaat alleen in analoge vorm, maar in de toekomst zal vrijwel de hele collectie gedigitaliseerd zijn. Dit proces is in 1999 in gang gezet, met het scannen van ruim een miljoen gezinskaarten. Sinds die tijd is het aantal digitale bestanden explosief gegroeid. Leek in 1999 een opslag capaciteit van drie terabyte nog extreem veel, tien jaar later is al ruim dertien terabyte in gebruik.

Deze spectaculaire groei komt vooral door de grootschalige digitalisering van de eigen analoge archieven. Stadsarchief Amsterdam digitaliseert aanvragen van de klant en daarnaast ook eigen projecten, zoals bovengenoemde gezinskaarten. Per week worden er gemiddeld ongeveer 20.000 objecten gescand en opgeslagen. Op dit moment beheert het Stadsarchief meer dan acht miljoen scans en elke week groeit dit aantal.

De grote voordelen van digitalisering zijn dat archiefstukken online worden aangeboden en de archiefonderzoeker de reis naar de studiezaal niet meer hoeft af te leggen. Daarbij komt dat kwets baar materiaal in de veilige omgeving van de depots mag blijven liggen: voor bestudering en onderzoek voldoet in de meeste gevallen immers de digitale weergave.

De komende jaren zullen archieven steeds vaker te maken krijgen met digital born-objecten. Dit kunnen databases zijn, digitale formulieren, audiovisuele bestanden, websites of tekstdocumenten.

Langetermijnarchivering
Hoe moeten digitale archiefstukken ingenomen, opgeslagen en toegankelijk gemaakt worden, op zo’n manier dat ze over honderd jaar ook nog te raadplegen zijn? Hoe voorkomen we dat bestandsformaten zodanig verouderen dat niemand meer weet hoe ze te openen zijn? Hoe controleren we of een opgeslagen object niet verandert, corrumpeert?
Het beantwoorden van die vragen is niet eenvoudig, zeker niet in de laatste plaats omdat de wetgeving achterloopt bij de realiteit. De archiefwet stamt uit 1995, en in die veertien jaar heeft digitalisering binnen het archiefwezen een enorme ontwikkeling meegemaakt. Daarnaast speelt ook mee dat duurzaam archiveren zich wereldwijd nog in een beginfase bevindt en vernieuwingen op technologisch gebied elkaar in hoog tempo opvolgen.

Od oktober 2009, blz. 8
Figuur 1. Schematische weergave van het E-depot van Stadsarchief Amsterdam. Ontwerp Victor Levie.
(klik op de afbeelding voor een vergroting)

Met de kennis die nu voor handen is, is het echter wel mogelijk om door middel van continue controles data authentiek en toegankelijk te houden, en door geavanceerde back-upsystemen het risico van gegevensverlies te minimaliseren. 

Kernbegrip hierbij is ‘duurzame toegankelijkheid’. Hiermee worden twee dingen bedoeld: ten eerste de waarborging van de kwaliteit van de gegevensdrager, en ten tweede de waarborging van de feitelijke beschikbaarheid van de gegevens. Gegevens moeten immers op de lange termijn niet alleen nog bestaan, maar ook opvraagbaar en raadpleegbaar zijn.

Met dit voor ogen besloot Stadsarchief Amsterdam in 2008 om tot de aanschaf van een nieuw digitaal depot over te gaan.
Maar met een nieuw depot alleen is langetermijnarchivering nog niet gewaarborgd. Het begrip E-depot omvat daarom meer dan een bewaardepot. Ook het innemen van digitale objecten en metadata en het beschikbaar maken en houden hiervan hoort erbij, evenals gedegen kennis en vaardigheden van de medewerkers.

Als leidraad bij het inrichten van het E-depot volgde het Stadsarchief het zogenaamde OAIS-model (Reference Model for an Open Archival Information System). Het model werd ontwikkeld door NASA’s Consultative Committee for Space Data Systems. Dit archiefsysteem onderscheidt vijf verschillende processen die bij langetermijnarchivering komen kijken: het innemen, de langetermijnopslag zelf, het toegankelijk maken, het beheer en tot slot het ter beschikking stellen van objecten. 

Bij Stadsarchief Amsterdam hebben deze vijf aspecten zich in de afgelopen jaren niet in hetzelfde tempo ontwikkeld. De raadpleegfunctionaliteiten liepen bijvoorbeeld ver vooruit. Al jaren biedt het Stadsarchief zoekmogelijkheden aan in de vorm van de Beeldbank, en sinds 2006 kunnen bezoekers ook online terecht voor het zoeken in archieven via de Archiefbank. Het innameproces en de langetermijnopslag hadden daarentegen nog nauwelijks vorm gekregen. 

De keuze om niet bij één leverancier een compleet E-depot aan te schaffen, maar te kiezen voor een modulaire opbouw was daarom gauw gemaakt. Het grote voordeel van deze aanpak is dat er zodoende de vrijheid bestaat om bij verschillende leveranciers de onderdelen uit te kiezen die het beste aansluiten bij de wensen en eisen die het Stadsarchief stelt. Bovendien maakt deze stapsgewijze ontwikkeling het beter mogelijk om gebruik te maken van voortschrijdend inzicht. 

Waarborgen van duurzaamheid
Maar op welke manier is het E-depot, zoals Stadsarchief Amsterdam dat heeft opgebouwd, in staat duurzaamheid te waarborgen?
De eerste stap hierbij is een grondige controle van nieuw ontvangen digitale objecten (hetzij scans, hetzij digital born-bestanden). Deze komen niet gelijk in aanmerking voor langetermijnarchivering. In de ontvangstomgeving controleren automatische processen de objecten eerst op veiligheid, volledigheid, authenticiteit, validiteit en op inhoud. De metadata (gegevens over de objecten) worden gecontroleerd op kwaliteit, volledigheid, veiligheid en structuur. Deze metadata moeten voldoen aan de eis van standaardisatie.

Wanneer de controles van de objecten met goed resultaat zijn afgerond, kunnen de bestanden worden ingenomen in het bewaardepot. Het tijdstip waarop een object in aanmerking kan komen voor verwijdering, de zogenaamde retentietijd, wordt vastgelegd. Zolang de retentietijd niet is verstreken, is het niet mogelijk om het bestand te verwijderen. Deze retentietijd kan niet worden vervroegd. Wel kan de retentietijd eindeloos worden verlengd. Om verwijdering in gang te zetten zijn meerdere verantwoordelijken nodig die gecoördineerd de verwijdering in gang zetten. Een verwijdering kan zodoende nooit een individuele handeling zijn. Al deze stappen worden uitgebreid gelogd om een grondige auditing mogelijk te maken.

Naast deze controles, besteedt het Stadsarchief veel aandacht aan veiligheidskopieën. Van zowel het ontvangst- als het raadpleegdepot worden diverse back-ups op disk en op tape gemaakt. Het bewaardepot wordt op een andere manier beveiligd. “We gebruiken hiervoor een intelligent systeem, dat objecten geautomatiseerd, maar wel gecontroleerd naar een andere geografische locatie kopieert”, aldus Ujzanovitch. “Zo wordt een volledige kopie gemaakt naar een identiek systeem, maar wanneer daarbij blijkt dat een object verminkt is, wordt dit gesignaleerd en het object geautomatiseerd teruggezet. Verminkingen worden zodoende niet een-op-een gespiegeld.”

De rode draad binnen het E-depot van het Stadsarchief is de controle of een bestand onveranderd is gebleven. Dit gebeurt op diverse momenten binnen het inname- en bewaarproces door middel van een MD5 hashing. Met dit algoritme wordt een checksum van een bestand gemaakt, in de vorm van een unieke reeks van 32 cijfers en letters. Als er ook maar 1 bit in het bestand gewijzigd is, geeft een nieuwe MD5 hashing een ander resultaat aan. Zodoende kan worden gecontroleerd of een bestand veranderd of beschadigd is. Daarnaast worden de objecten in het bewaardepot continue gecontroleerd op leesbaarheid en volledigheid. Elke stap wordt uitgebreid gelogd en indien nodig worden bestanden gemigreerd naar een nieuw technologisch bestandsformaat. 

Dit is het begin
Kunnen we, nu het E-depot is gerealiseerd en het bewaardepot naar behoren werkt, met de armen over elkaar gaan zitten?
“Welnee”, lacht Bert Nijhoff, hoofd ICT, “we zijn nog maar net begonnen. Komende tijd gaan we ons richten op het nauwkeurig inrichten van de innameprocedure en gaan we verder met het beleggen van taken en het opleiden van onze mensen. Want een ding staat als een paal boven water: het ontwikkelen van een E-depot is bovenal een groeiproces.”

Annemarie Lavèn is projectsecretaris van het project Stadsarchief Digitaal bij Stadsarchief Amsterdam en werkt daarnaast als freelance tekstschrijver en beeldresearcher.