1 oktober 2009

Een oerwoud aan bestandsformaten

image for Een oerwoud aan bestandsformaten image

PDF/A
Het kabinet streeft naar verbetering van overheidsdienstverlening en administratieve lastenverlichting. In 2006 zijn daarom het College en het Forum Standaardisatie ingesteld om de digitale samenwerking tussen bedrijven, burgers en overheden te verbeteren. Het Forum Standaardisatie heeft, na een consultatieronde van een expertcommissie, PDF/A-1 op de lijst van standaarden opgenomen.1

PDF/A
Het kabinet streeft naar verbetering van overheidsdienstverlening en administratieve lastenverlichting. In 2006 zijn daarom het College en het Forum Standaardisatie ingesteld om de digitale samenwerking tussen bedrijven, burgers en overheden te verbeteren. Het Forum Standaardisatie heeft, na een consultatieronde van een expertcommissie, PDF/A-1 op de lijst van standaarden opgenomen.1

Bij de aanschaf van ICT-diensten of ICT-producten dient een overheidsinstelling als regel te kiezen voor open standaarden of, in die gevallen dat er goede gronden zijn om dat toch niet te doen, vast te leggen welke die goede gronden zijn. Hiermee wordt ten behoeve van het Rijk invulling gegeven aan het zogenoemde comply or explain-principe bij het gebruik van open standaarden.2

Volgens het Forum voldoet de standaard PDF/A-1 aan criteria met betrekking tot openheid, bruikbaarheid en potentieel. Verder stelt het dat de invoering van de standaard PDF/A-1 vooral impact heeft op het creatieproces van documenten. Organisaties zullen regels moeten vaststellen voor de creatie van documenten, zodat deze documenten ook opgeslagen kunnen worden als PDF/A-1a-formaat. Een tweede effect is dat de standaardisatie in PDF/A-1 zorgt voor een betere langdurige opslag en beschikbaarheid van documenten en een vereenvoudiging van conversie- en migratietrajecten. Tot slot versterkt de invoering van PDF/A-1 de implementatie van de NEN-ISO 15489:1 (de kwaliteitsnorm van informatie- en archiefmanagement) en van het Besluit Kwaliteit rijksoverheidswebsites.’3

Het toepassingsgebied van PDF/A-1, zoals beschreven door het Forum Standaardisatie, betreft de eindversies van documenten die organisaties creëren of ontvangen bij de uitvoering van overheidstaken. Er zijn hierbij twee toepassingsmogelijkheden; bij de eerste toepassing wordt slechts de visuele weergave van het document opgeslagen (conform PDF/A-1b) en bij de tweede wordt ook de structuur en semantiek van het document correct gerepresenteerd (conform PDF/A-1a).Concreet betekent dit dat alle nieuwe digital born-documenten die worden gecreëerd door de overheid bij de uitvoering van overheidstaken volgens PDF/A-1a worden opgeslagen. Opslag zal volgens PDF/A-1b plaatsvinden wanneer het gaat om:

  • analoge (papieren) documenten en afbeeldingen die worden gedigitaliseerd (gescand);
  • bestaande /oude (legacy) digitale documenten die niet correct over te zetten zijn naar PDF/A-1a, omdat ze gemaakt zijn met oude software, omdat er legacy fonts in zijn opgenomen, omdat er bijvoorbeeld wiskundige vergelijkingen in staan of om andere redenen waardoor omzetten naar PDF/A-1a niet mogelijk is.

PDF/A heeft dus vooral impact op het creatieproces van documenten. De toepassing van PDF/A-1a vraagt namelijk van de auteur van de documenten om gedurende het creatieproces ‘nette’ documenten te maken. Dit zijn documenten met een goede structuur en met correct toegevoegde metadata. Hier zit zowel een valkuil als een kans. Veel organisaties zijn nog steeds niet in staat om gestructureerde documenten te maken. Soms komt dit door het ontbreken van een goede huisstijl en sjablonen, maar soms zijn er ook andere oorzaken. Heel vaak komt nog steeds de situatie voor dat docu¬menten digital born zijn (en dus een uitstekende kandidaat zijn voor omzetting naar PDF/A-1a), maar dat het document wordt geprint om er een handtekening op te plaatsen. Dit document wordt dan vervolgens opnieuw ingescanned en kan dan logischerwijs alleen nog maar PDF/A-1b worden. Scannen van informatie is dus niet altijd de beste optie, al kan het door het ontbreken van het origineel of vanwege andere redenen soms onontkoombaar zijn.
Een goede implementatie van een PDF/A-strategie biedt enerzijds de kans om te zorgen voor verdere regulering van het creatieproces van documenten. Dit versterkt de implementatie van de NEN-ISO 15489:1. Een ander positief effect is dat door de standaardisatie van PDF/A-1 duurzame opslag met garantie van bruikbaarheid en wereldwijde ondersteuning kan worden gegarandeerd.

De ontwikkeling van open standaarden
De afgelopen jaren zijn er verschillende nieuwe open standaarden op de markt gekomen voor het uitwisselen van bewerkbare documenten. De belangrijkste daarvan is Open Document Format (ODF).4 ODF (ISO/IEC 26400) is een bestandsformaat voor het maken van elektronische kantoordocumenten, zoals tekstbestanden, spreadsheets en presentaties, waarbij de documenten volledig bewerkbaar blijven. De indeling is van oorsprong gebaseerd op een XML-indeling. ODF is tussen 2002 en 2005 ontwikkeld door de Organization for the Advancement of Structured Information Standards (OASIS) en is in november 2006 een ISO-standaard geworden.

Bij het implementeren van een infrastructuur voor een open document is het van belang dat overheden zich niet alleen op de technologie concentreren, maar ook op de toepassing van die technologie. Met andere woorden: het uiteindelijke doel moet niet zijn om over te stappen op zo min mogelijk open standaarden, maar om de juiste open standaard voor de juiste toepassing te vinden. In theorie kunnen zowel ODF als PDF worden gebruikt voor praktisch elke documentgerelateerde taak, of het nu gaat om het bewerken van niet-definitieve documenten of het uitwisselen van definitieve documenten.

Daarom zou je kunnen beargumenteren dat een van deze standaarden voldoende is voor een open document-architectuur. Ten aanzien van het gebruik van een bestandsformaat voor langdurige archivering is het echter met name PDF/A dat de beste kaarten in handen heeft. Het verschil met PDF zit vooral in het adoptiecriterium: het gebruik van het jonge ODF-bestandsformaat is wereldwijd nog (relatief) gering. Een ander en veel belangrijker probleem van het ODF-formaat is dat een eenduidige weergave van de documentopmaak tussen verschillende viewers en omgevingen niet is te garanderen.
Zo kunnen verschillen optreden in regeleindes, pagina-eindes, de positionering van elementen als afbeeldingen, tabellen en fonts. Doordat fonts niet ingebed kunnen worden in het ODF formaat, is een eenduidige weergave op computers waar het betreffende font niet aanwezig is onmogelijk. De leden van de expertgroep die het advies hebben gegeven aan het Forum Standaardisatie zien wel een nauwe relatie tussen het werkingsgebied voor ODF en het werkingsgebied voor PDF/A-1.
Beide standaarden zijn bedoeld voor documenten, ODF ten behoeve van creatie, uitwisseling en revisie van documenten, PDF/A-1 ten behoeve van de duurzame opslag, duurzame toegankelijkheid en onveranderbaarheid van documenten.

Gescande documenten
Omdat de meeste activiteiten op het vlak van documentarchivering in het verleden gericht zijn geweest op papieren documenten, is het logisch dat we deze willen converteren naar elektronische representaties voor elektronische archivering. Het scannen van papier naar computerafbeeldingen is hierbij vaak het startpunt. Het TIFF-bestandsformaat wordt hier traditioneel veel voor gebruikt. Het probleem met TIFF is dat dit formaat een hele reeks keuzes biedt voor het representeren van afbeeldingen, waaronder RGB- en CMYK-kleurenrepresentaties en JPG, LZW, FAX en andere compressietechnologieën.

TIFF wordt vaak gebruikt zonder compressie, gebaseerd op het idee dat gegevens eenvoudig kunnen worden teruggevonden en niet per ongeluk worden beschadigd (zoals het geval zou kunnen zijn als er gebruik wordt gemaakt van verliesvrije compressie). De prijs die hiervoor wordt betaald is een grotere bestandsomvang, die ook meer archiveringsruimte eist. Er is ook enig risico bij het gebruik van TIFF voor archivering, omdat het een bedrijfseigen standaard is en geen open standaard. Bovendien is het bestandsformaat buitengewoon gefragmenteerd geraakt sinds de laatste officiële publicatie (TIFF versie 6 in 1992).5

Het scannen van papier komt nog veel voor, omdat dit het dichtst bij het bewaren van papier komt – maar dan in elektronische vorm. Hiermee erft het wel een gebrek aan de meer uitgebreide mogelijkheden van elektronische documenten.
Recordsmanagers die een voorkeur hebben voor open standaarden zouden hun gescande documenten zoveel mogelijk moeten opslaan als PDF/A-1b, waarbij in verschillende compressiemethodes kan worden voorzien en waarbij ook de doorzoekbaarheid kan worden geregeld.

XML
XML is een markeringstaal (Markup Language) voor algemene documenten waarin labels (tags) voor paragrafen, allerlei soorten lijsten, hoofdstukken en allerlei andere textuele componenten zijn bedacht. De XML-notatie wordt echter gebruikt om duizenden documentsoorten te markeren, variërend van visitekaartjes, offertes, gezondheidsdossiers en vectortekeningen tot database-ingangen en programmeertalen. Gegeven de diversiteit van speciale markeringstalen, is het zinvoller om specifiek te praten over XML voor visitekaartjes, XML voor algemene documenten of XML voor hypertext (XHTML) in plaats van de term XML in algemene zin te gebruiken.

In specifieke markten en voor specifieke toepassingen geldt zeker dat XML, via goed gedefinieerde schema’s, een uitstekende manier biedt om documenten op te slaan, waarbij (hopelijk) de visuele aspecten en de inhoud volledig bewaard blijven. De vraag is of er op lange termijn viewers zijn die de XML nog kunnen representeren. Wanneer de focus van het te archiveren document ligt op de betrouwbare visuele representatie in de toekomst, is het gebruik van PDF/A aanbevolen.
Als de focus meer ligt op hergebruik, dan is XML wellicht een prima alternatief.

Het gebruik van specifieke XML (XMP) voor de beschrijving van metadata in een PDF-document is overigens wel sterk aanbevolen. Het gestructureerde karakter en de uitbreidbaarheid van XML zorgen ervoor dat metadatering heel nauwkeurig en toegespitst op de wensen van een organisatie kan plaatsvinden.

Weloverwogen keuze
De PDF/A-1-standaard zal een bijdrage leveren aan de langdurige opslag en toegankelijkheid van digitale documenten.
Veel bedrijven en instellingen doen momenteel hun eerste ervaringen op met PDF/A, daarbij gesteund door leveranciers van hard- en software. Omdat PDF/A een relatief nieuwe standaard is, loopt men bij de conversie soms nog tegen problemen aan. Zo wordt er bijvoorbeeld geprobeerd om een bestaande PDF naar PDF/A te converteren. PDF is sinds 2008 een open standaard en dit betekent dat er verschillende leveranciers zijn die PDF-creatiesoftware aanbieden. De kwaliteit van het PDF-bestand is sterk afhankelijk van de tool die gebruikt wordt.
Hierdoor gaat het converteren nog weleens mis. De bestaande PDF heeft soms problemen met fonts en bevat soms wel, soms geen structuur, waardoor in het beste geval alleen nog conversie naar PDF/A-1b mogelijk is. Ook validators geven vaak nog verschillende uitkomsten, en de verwachting is ook niet dat ze allemaal op één lijn komen. 

Uiteindelijk hebben alle bestanden hun sterke en zwakke punten. Toch is het belangrijk om goed op de hoogte te zijn van de geldende richtlijnen en de onderlinge verschillen tussen bestandsformaten, zodat er weloverwogen keuzes gemaakt kunnen worden. Het gebruik van open standaarden hoeft geen beperking te zijn, zolang er kritisch gekeken wordt naar de toepassingsmogelijkheden van de gebruikte bestandsformaten. Alleen op deze wijze kan worden gegarandeerd dat de interoperabiliteit en toegankelijkheid van documenten ook op lange termijn gewaarborgd is. 

Colin van Oosterhout is Business Development Manager bij Adobe Systems Benelux.


1 http://www.forumstandaardisatie.nl/
2 http://www.forumstandaardisatie.nl/fileadmin/OVOS/VKA-rapport.pdf
3 http://www.webrichtlijnen.nl/besluit
4 http://be.opendocsociety.org/HandboekODF
5 http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf