, 1 februari 2009

Converteren of je bestanden aborteren?

image for Converteren of je bestanden aborteren? image

Digitaal bewaren vraagt om andere maatregelen dan papieren archieven. Bij digitale bestanden zijn leesbaarheid en authenticiteit niet gewaarborgd, als er niet tijdig maatregelen worden getroffen.

Digitaal bewaren vraagt om andere maatregelen dan papieren archieven. Bij digitale bestanden zijn leesbaarheid en authenticiteit niet gewaarborgd, als er niet tijdig maatregelen worden getroffen.
Er bestaan echter een aantal manieren om bestanden voor de toekomst beschikbaar te houden. Het bewaren van de benodigde hard- en software (die op een nieuw systeem kan worden geïnstalleerd) is daar één van, maar ook kunnen data worden omgezet, via bijvoorbeeld migratie, zodat ze in een nieuwe systeemomgeving kunnen worden gebruikt. Hieronder volgt een overzicht van mogelijkheden om gegevens voor de toekomst beschikbaar te houden.

Migratie
Migratie is een serie activiteiten voor het overzetten en her schrijven van digitale archiefdocumenten, waarbij de gegevens van een bestaand bestandsformaat worden overgezet naar een platformonafhankelijke standaard, die compatibel is met alle mogelijke besturingsplatformen. Er vindt dus een aanpassing plaats van de oorspronkelijke data ten behoeve van nieuwe hard-/software.
Tijdens dit migratieproces moeten alle eigenschappen van het document in de nieuwe omgeving gewaarborgd blijven. In hoe verre dit kan worden bereikt is sterk afhankelijk van de functionaliteit van de bronsoftware. Eventuele koppelingen die in het document zijn aangebracht zullen mogelijk los van het document bewaard en opnieuw met elkaar verbonden moeten worden. Regelmatige migratie is een kostenintensief proces, met kans op fouten en daarom vooral geschikt voor de middellange termijn. Met de invoering van telkens nieuwe versies van besturingssystemen en daarop draaiende software, is migratie met enige regelmaat nodig. Een grote migratieslag moest in veel organisaties gemaakt worden toen men overging van MS-DOS naar MS Windows.
Migratie kan plaatsvinden door gehele documenten over te zet ten naar een nieuw formaat, bijvoorbeeld een Word-document naar een PDF/A- of ODF-bestand, maar ook van gegevens binnen documenten, zoals vanuit database X naar database Y.

Emulatie
Een andere conversiemethode is emulatie. Dit betreft het naboot sen van een besturingsplatform en hardware. Het onleesbaar worden van data wordt ondervangen door het oude computersysteem opnieuw te creëren voor een specifiek doeleinde. In feite wordt de oorspronkelijke omgeving waarin het bestand is opgemaakt, binnen de nieuwe omgeving gesimuleerd om het te bestand te kunnen uitlezen.
Voor complexe bestandstypen is dit een prima oplossing, daar deze dan in hun oorspronkelijke formaat bewaard kunnen worden. In een emulatieomgeving kan de gebruiker vervolgens beschikken over alle functionaliteiten die er ook in de bronsoftware aanwezig waren. Emulatie is een complex proces, omdat verschillende besturingselementen op elkaar moeten worden afgestemd. Als je bijvoorbeeld bestanden van Corel Draw 5 wilt openen, dan heb je als systeemeisen een 386 of 486 PC nodig met 8 tot 16 MB intern geheugen, Windows 3.1 als besturingssysteem en een VGA-monitor. Heel andere eisen dan de computeromgevingen van heden ten dage. Wie heeft er nog een 486 staan? Ik zelf al lang niet meer, maar destijds was dit het hoogst haalbare en voldoende voor het goed functioneren van een programma als Corel Draw 5. Dus om deze bestanden goed uit te kunnen lezen dient deze hele omgeving opnieuw opgezet te worden.
Veel lezers zullen waarschijnlijk ook het blauwe scherm van de tekstverwerker Word nog herinneren. Mogelijk zijn er in uw organisaties nog floppies met bestanden uit die tijd.
Als je bestanden wilt lezen die met Word 5.1 voor DOS gemaakt zijn, moet je dit doen in een omgeving die bestanden als deze kan openen, met een oude MS-DOS-versie, maar ook met Windows 3.1 en Windows 98 met toegang tot de MS-DOS-omgeving is het mogelijk om bestanden uit Word 5.1 te openen.
Filip Boudrez (Stadsarchief Antwerpen) schreef in een rapport1 dat migratie het best kan worden toegepast wanneer de inhoud van een digitaal bestand vastligt en de functionaliteit door meerdere applicaties kan worden ondersteund. Het is derhalve een goede methode wanneer het voldoet dat de data zelf worden gearchiveerd voor het in de toekomst opvragen ervan. Wanneer er meer afhankelijkheid is van de eigenschappen of structuur van een specifieke applicatie, wint emulatie aan belang. Emulatie is daarmee een meer specialistische en complexere methode dan migratie.
Naast vorenstaande methoden kan een bestand ook worden geconverteerd naar het XML-formaat, dat door verschillende computersystemen gelezen kan worden. Voordeel hiervan is dat, vanaf de opbouw van het document, structuur en metagegevens worden vastgelegd in een apart bestand.
Een andere mogelijkheid is om gebruik te maken van de zogenaamde Universele Virtuele Computer (UVC), een techniek die nog in ontwikkeling is. Hierbij wordt op het moment van archivering (!) een computerprogramma geschreven dat de bestanden uitleest volgens de taal van de UVC. Dit programma dient dan tezamen met het bestand te worden bewaard.

Standaarden
Omdat voorkomen beter dan genezen is, wordt het in de toe komst steeds belangrijker gebruik te maken van standaarden, waarbij de voorkeur uit gaat naar open standaarden. Er zijn name lijk diverse soorten standaarden, waaronder de defacto standaard, waarvan de specificaties het resultaat zijn van niet-officiële initiatieven. Zo ontstond het World Wide Web Consortium (W3C) op basis van bevindingen van expertgroepen. Tevens worden standaardformaten aangewezen door internationale instanties als het ISO.
Er kan daarnaast een onderscheid worden gemaakt tussen open en gesloten standaarden.
Het eerste type betreft standaarden, waarvan de eigenschap pen door programmeurs kunnen worden aangepast, uitgebreid en vertaald naar eigen gebruiksdoeleinden, zoals het TIFF-formaat. Gesloten standaardformaten zijn afkomstig van een specifieke leverancier die omwille van concurrentie zijn specificatie geheim houdt (Microsoft Word). Open bestandsstandaarden moeten hier bij voorrang krijgen omdat deze interoperabel, stabiel, verliesvrij en gestructureerd zijn. Groot voordeel van dit type platformonaf hankelijke bestanden is dat zij in toekomstige computeromgevingen correct kunnen worden geïnterpreteerd binnen de nieuwe situatie.
Het vorenstaande geeft weer dat er, links- of rechtsom, maat regelen getroffen zullen moeten worden om digitale bestanden steeds weer aan te passen aan veranderende computeromgevin gen, opdat zij voor toekomstige generaties, op de wijze waarop zij zijn verschenen, zijn na te gaan. Daarmee voorkom je dat je de digitale bestanden naar het slachthuis moet brengen omdat ze onleesbaar zijn geworden. Er liggen hiermee genoeg uitdagingen voor DIV’ers om de informatie in hun organisatie over te zetten naar een, voor een nieuwe generatie computers én een nieuwe generatie gebruikers, leesbaar formaat.

Meer lezen over dit onderwerp: http://www.digitaleduurzaamheid.nl (ontwikkeld door ICTU, nu onderdeel van Nationaal Archief)

 

BGoede@bda.asterdam.nl

Bastiaan de Goede is medewerker Informatiebeheer bij de Bestuursdienst van de gemeente Amsterdam.


1 DAVID-rapport nr. 4. Het digitaal archiveringssysteem: beheersinventaris, informatielagen en beslissingsmodel als uitgangspunt, Stadsarchief Antwerpen, Antwerpen, 2001. URL: http://www.expertisecentrumdavid.be/davidhandboek/e_informatiesystemen.htm