1 juni 2009

Pro’s en contra’s van conversie

image for Pro’s en contra’s van conversie image

De overheid moet haar handelen te allen tijde kunnen reconstrueren. Overheidsarchieven moeten daarom authenticiteit van documenten waarborgen. Met digitale informatie is dat lastig, omdat verandering van zowel hardware als software met de regelmaat van de klok plaatsvindt.

De overheid moet haar handelen te allen tijde kunnen reconstrueren. Overheidsarchieven moeten daarom authenticiteit van documenten waarborgen. Met digitale informatie is dat lastig, omdat verandering van zowel hardware als software met de regelmaat van de klok plaatsvindt.

Authenticiteit
Authenticiteit wordt door de onderzoekers Gladney en Bennett aan de orde gesteld Bastiaan de Goedein een artikel waarin zij in een aantal gevallen de betekenis van authenticiteit bevragen.1 In het geval van digitale gegevens wijzen zij op een gegevensstroom die dan foutloos gekopieerd kan worden, maar waarvan de weergave op het scherm of een afdruk daarvan bepaald wordt door de computeromgeving. Na hun afweging komen de beide heren met een beschrijving van het woord authenticiteit, die als volgt luidt: “Authenticiteit: een betrouwbaar derivaat met ware herkomst.”

Conversiemethoden
Laten we eerst eens kijken naar de mogelijkheden die er zijn om data te redden. In een vorig artikel werd al ingegaan op conversiemethoden2, maar laten we nog even het geheugen opfrissen.
Bij migratie worden data naar een nieuw type drager overgezet dan wel in een nieuw formaat opgeslagen al dan niet passend bij een nieuw besturingssysteem. Ook het overzetten van bestanden van de ene hard- en/of software omgeving naar de andere valt onder migratie.
Bij emulatie gedraagt een nieuw computersysteem zich als het vroegere computersysteem om data uit te lezen. Feitelijk wordt de oude omgeving met nieuwe hard- en software opnieuw opgebouwd.
Een derde methode is refreshing waarbij data worden overgebracht naar een nieuw medium met behoud van formaat en platform.

Om een document goed te kunnen interpreteren is het van belang het te kunnen raadplegen zoals het destijds is opgemaakt. Om dit zo te houden voor toekomstige generaties die te maken krijgen met voortschrijdende computertechniek, zal tussentijdse gegevensconversie nodig zijn. Niet alleen de informatie is hierbij van belang, ook logo’s, kleurstellingen en meta-informatie (geadresseerde, kenmerk, etc.) op een document kunnen van wezenlijk belang zijn om te kunnen vaststellen of je met een officieel stuk van doen hebt. Jeff Rothenberg, goeroe op gebied van emulatie, meldde in 1999 al dat oude bitstreams nooit overlijden maar slechts onleesbaar worden. Oftewel: de gegevens zijn er nog wel, alleen je kunt ze niet meer raadplegen… Als je niets doet om ze te redden dus.

Er kan immers een hoop verloren raken zonder goede reddingsoperaties. Gegevensverlies (bits), verlies van de programmatuur (software) waarmee het document is gemaakt, verlies van programmabibliotheken (DLL-bestanden die in de Windows directory staan en dus niet in de specifieke software directory), verlies van besturingssystemen, verlies van de media zelf (bijvoorbeeld door oxidatie/demagnetisering van datalaag) of het verlies van de apparatuur (hardware).

Controle
Bij het overzetten van digitale informatie in het kader van duurzaam behoud, kan het toch zijn dat delen van deze onder liggende informatie verdwijnen, omdat die in de conversie niet altijd kunnen worden meegenomen.
Zo worden bij migratie gegevens overgezet van het ene bestandsformaat naar een ander bestandsformaat dat echter een andere opbouw en structuur kent, en daarom bepaalde informatie uit het brondocument niet kan meenemen naar het andere formaat. Hiermee gaat dus informatie onherroepelijk verloren.
Met migratie van TXT-bestanden uit DOS naar Windows waren er geen problemen, omdat TXT geen opmaak of structuur kent die verloren kon gaan. Met de complexe bestandsformaten die heden ten dage gebruikt worden is dat wel anders.

Dat bij migratie altijd een controle moet plaatsvinden of alle gegevens correct zijn overgenomen, onderschrijven wij dan ook ten zeerste. Bij een controleklus op (adres)gegevens die van de ene database waren overgezet naar de andere, had het systeem bij huisnummers van ‘22 I’ bijvoorbeeld ‘221’ gemaakt. Fouten die je niet wilt hebben, omdat dan het risico bestaat dat post verkeerd geadresseerd kan worden. Er was hier dus informatie verloren gegaan die hersteld moest worden.

Een voordeel van migratie is dat je het bestand, met eventueel (het geaccepteerde) informatieverlies, overzet naar een nieuw formaat, bij voorkeur een platformonafhankelijke standaard, zodat deze gemakkelijk op nieuwe besturingssystemen geraadpleegd kan worden.
Nadeel is dat er gegevensverlies kan optreden, omdat bepaalde data niet kunnen worden overgezet.

Juiste beschrijving
Emulatie is een andere manier om data te converteren.
Hier blijven de data echter zoals zij destijds zijn opgemaakt, en wordt de situatie waarin de data zijn ontstaan opnieuw gecreëerd. Feitelijk is emulatie een manier om apparatuur en programmatuur zich te laten gedragen als de oorspronkelijke computeromgeving. Op deze wijze kan men vanuit de huidige systeemconfiguratie via een virtuele omgeving de oude situatie nabootsen om zo het bestand in oorspronkelijke staat te raadplegen.
Een voordeel van deze methode is dat een bestand authentiek kan worden opgeslagen en in de context waarin het gemaakt werd, kan worden geraadpleegd. Een nadeel is dat je dan wel, om de besturingsomgevingen waarin bestanden zijn gemaakt op te roepen, de soft- en hardware moet bewaren om deze in een virtuele omgeving te kunnen nabootsen. Ook is het van belang het document op de juiste manier te beschrijven om een goede vertaalslag te kunnen maken.

Van tekstobjecten moeten de inhoud, structuur en presentatie worden weergegeven, zodat deze in context met elkaar bekeken en doorzocht kunnen worden. PDF en XML zijn hiervoor goede mogelijkheden, ook uit oogpunt van standaardisering. Lastiger is het voor executables (EXE-bestanden), gecombineerde programmabestanden waarin zowel inhoud, structuur en weergave van software door elkaar zijn verweven.

Als je bestanden wilt gaan vervangen door nieuwe versies is het dus zaak goed na te denken wat je in de toekomst met de bestanden gaat doen en zodoende de keuze van de conversie methode hierop af te stemmen. In elk geval is het goed om de website over Digitale Duurzaamheid van het Nationaal Archief3 als ook de Taskforce Archieven4 goed in de gaten te houden voor de laatste ontwikkelingen.

Hans van Rijn is redactielid van Od, hvanrijn@hhdelfland.nl
Bastiaan de Goede is medewerker informatiebeheer bij de bestuursdienst van de gemeente Amsterdam, bgoede@bda.amsterdam.nl


1 Zie ook: http://www.taskforce-archieven.nl/dossiers/dceuitgelicht/onleesbaar Voor het hele artikel H.M. Gladney en J.M. Bennett: ‘What do we mean by authenticity? What is the real McCoy?’ In: D-Lib Magazine 9(7/8), (2003), zie: http://www.dlib.org/dlib/july03/gladney/07gladney.html 
2 De Goede, B., ‘Converteren of je bestanden aborteren’, In: Od, jrg. 63, nr. 2, (2009).
3 http://www.digitaleduurzaamheid.nl/home.cfm
4 http://www.taskforce-archieven.nl/