, 1 juli 2019

Verdwaald tussen de formaten

image for Verdwaald tussen de formaten image Achtergrond

De aanleiding
Eerst maar eens de aanleiding. EDDA beheert het Centraal Digitaal Depot (CDD+), het e-depot voor het Ministerie van Justitie en Veiligheid en alle organisaties die daaronder vallen. Via het CDD+ kan informatie worden uitgewisseld, en duurzaam worden beheerd. Hoewel veel stukken slechts enkele jaren bewaard hoeven te blijven, zijn er ook veel stukken met langere bewaartermijnen – veertig of tachtig jaar – en stukken die voor eeuwig bewaard moeten blijven.1

De aanleiding
Eerst maar eens de aanleiding. EDDA beheert het Centraal Digitaal Depot (CDD+), het e-depot voor het Ministerie van Justitie en Veiligheid en alle organisaties die daaronder vallen. Via het CDD+ kan informatie worden uitgewisseld, en duurzaam worden beheerd. Hoewel veel stukken slechts enkele jaren bewaard hoeven te blijven, zijn er ook veel stukken met langere bewaartermijnen – veertig of tachtig jaar – en stukken die voor eeuwig bewaard moeten blijven.1

Om het materiaal duurzaam toegankelijk te houden, worden meerdere activiteiten ondernomen. Er worden natuurlijk meerdere back-ups gemaakt van alle informatieobjecten om ervoor te zorgen dat er geen informatie verloren gaat als gevolg van technische mankementen. Dat is onderdeel van het beleid om de integriteit van de informatieobjecten te borgen. Daarnaast wordt er ook rekening gehouden met de bruikbaarheid van de informatieobjecten. Bestanden die zijn opgeslagen in een bestandsformaat dat nu gangbaar is, zijn over vijftig jaar mogelijk niet meer te openen, omdat de betreffende software niet meer bestaat.

Voor dat probleem bestaan meerdere oplossingsrichtingen. De meest gangbare zijn emulatie en conversie. Bij emulatie zorg je ervoor dat de benodigde software gebruikt kan blijven worden, door oudere hardware en/of een oud besturingssysteem na te bootsen. Bij conversie kies je ervoor om bestanden in een oud formaat te converteren naar een nieuw formaat. Dit laatste is wat er binnen het CDD+ gebeurt: alle bestanden die binnenkomen worden geconverteerd naar een duurzaam formaat – een formaat waarvan wij denken dat het de komende twintig jaar nog bruikbaar zal zijn. Daarnaast bewaren we ook het originele bestand. Mocht het originele bestand niet meer bruikbaar zijn, dan hebben we altijd het duurzame bestand om op terug te vallen. Komt naar verloop van tijd ook de houdbaarheidsdatum van ons duurzame formaat in beeld, dan kiezen we een nieuw duurzaam formaat, en converteren we onze informatieobjecten naar het nieuwe formaat.

Eerlijk is eerlijk: bovenstaande paragraaf is iets te enthousiast, met de claim dat alle bestanden worden geconverteerd. Het CDD+ kreeg oorspronkelijk met name tekstdocumenten te verwerken: brieven, besluiten, processen-verbaal, enzovoort. Als duurzaam formaat is gekozen voor PDF/A, de archiefvariant van PDF. Binnenkomende tekstdocumenten en afbeeldingen worden dus geconverteerd naar PDF/A. Dat is ook de enige conversie die het CDD+ kent, en daarmee wordt gelijk een probleem zichtbaar: PDF/A is niet voor elk soort bestand een zinnig formaat. Onder andere video en geluid kunnen niet worden geconverteerd naar PDF/A. Dergelijke bestanden zijn wel toegestaan in het CDD+, maar de bruikbaarheid wordt (dus) niet gegarandeerd.

Een duurzaam formaat voor audio en video
Tot nu toe vormden video- en geluidsbestanden geen groot deel van de inhoud van het CDD+, maar de verwachting is dat dit in de komende jaren zal veranderen. Daarmee wordt het dus ook belangrijker om ook voor dit soort bestanden de bruikbaarheid te kunnen borgen. Met andere woorden: er moet een duurzaam formaat worden geselecteerd voor video en geluid, waar we de andere formaten naartoe kunnen converteren.

Daarmee komen we onherroepelijk bij de vraag: wanneer is een formaat duurzaam? In tegenstelling tot wat we misschien verwachten, hangt dit niet echt af van de technische eigenschappen van een formaat. Het gaat om de ondersteuning van het formaat: wordt het nu goed ondersteund, en zijn er geen belemmeringen voor die ondersteuning in de toekomst? We stellen de volgende eisen:

  • Het formaat is een open standaard en vrij van licentiekosten.
  • Het formaat is goed beschreven.
  • Het formaat wordt veel gebruikt in de samenleving.
  • Het formaat wordt veel gebruikt door archiefinstellingen.
  • Het formaat wordt ondersteund op meerdere platformen.
  • Het formaat is niet afhankelijk van externe bestanden.

Verder heeft het de voorkeur dat het formaat zo simpel mogelijk is.

Het feit dat we andere formaten willen converteren naar ons duurzame formaat (dat ik vanaf nu het conversieformaat zal noemen), maakt dat we wel wat eisen hebben aan de technische specificatie. Het formaat moet zo breed mogelijk zijn in termen van de toegestane of mogelijke kleurruimte, sample rates en resoluties. Is het formaat dat niet, dan gaan we bij de conversie informatie verliezen, en dat moeten we vermijden. Een simpel voorbeeld: bij een conversie van een kleurenvideo naar een (fictief) formaat dat alleen zwart-wit aankan, verliezen we natuurlijk een deel van de informatie.

Codecs en containers
Bij de selectie van een conversieformaat voor audio en video wordt al snel een verwarrende factor duidelijk. Bij deze formaten wordt de inhoud gecomprimeerd, zodat hij minder ruimte inneemt. Bij het afspelen wordt de inhoud gedecomprimeerd, zodat hij kan worden afgespeeld. De software die zorgt voor het comprimeren en decomprimeren heet een codec – een afkorting van coder-decoder. De codec is een belangrijk onderdeel van het formaat, maar het is niet het enige onderdeel. De gecomprimeerde inhoud wordt vervolgens in een verpakking – de zogenoemde container – gestopt. Als er gesproken wordt over een audio- of videoformaat, gaat het vaak over óf de container óf de codec – eigenlijk maar de helft van wat er nodig is. Het selecteren van een conversieformaat voor audio en video bestaat dus uit twee delen: het selecteren van een codec, en het selecteren van een container.

Voor het inventariseren van de formaten is gebruikgemaakt van diverse bronnen. De belangrijkste daarvan waren Beeld en Geluid en de formaten-database van de Amerikaanse Library of Congress. Bij de inventarisatie van de formaten werd één ding al snel duidelijk: de meeste veelgebruikte formaten zijn duurzaam (deels juist omdat ze veel gebruikt worden, en dus veel ondersteund worden). Ook zijn ze op zich doorgaans breed genoeg om gebruikt te worden als conversieformaat. Wel vallen een aantal codecs af omdat ze lossy zijn. Dit houdt in dat er bij de compressie informatie verloren gaat: de compressie wordt deels bereikt door details weg te laten. Een dergelijke codec is dus niet goed in te zetten als conversieformaat.

Iets anders dat duidelijk werd, is dat er geen formaten zijn met dezelfde status als PDF/A, en daarmee de meest voor de hand liggende keuze voor conversieformaat. Echter, er is wel een patroon zichtbaar bij een inventarisatie van wat er zoal gebruikt wordt door archieven.

Een groot deel van de archieven gebruikt voor geluid WAVE-bestanden (of de opvolger BWF) met een LPCM-codering. Voor video wordt gebruikgemaakt van uncompressed video (bestanden die dus niet gecomprimeerd zijn met behulp van een codec) of van het Multimedia eXchange Format met M-JPEG2000-codering. Met name partijen die zich al langer bezighouden met het archiveren van audio en video gebruiken deze formaten. Partijen die recenter zijn begonnen gebruiken nieuwere formaten: FLAC voor audio, en Matroska met FFV1 voor video.

Uncompressed videobestanden zijn erg groot, en om die reden hebben ze voor het CDD+ niet de voorkeur. Maar verder is er geen sterke voorkeur. We kiezen daarom voor de meest moderne bestanden – dus FLAC voor audio, en Matroska met FFV1 voor video.

Converteren of niet?
Een keuze voor het conversieformaat is gemaakt. Zijn weer daarmee? Nee. Er valt nog het één en ander aan te scherpen. Zoals gezegd, zijn veel van de veelgebruikte audio- en videoformaten op zich wel duurzaam. Hier wijken audio en video af van tekst. Bij tekst is het zinvol om alle binnenkomende informatieobjecten te converteren naar PDF/A. Maar bij audio en video is dit minder vanzelfsprekend: als een object al in een duurzaam formaat staat, maar niet in het conversieformaat, is het dan nog zinvol om het te converteren? Hier is een afweging te maken. Niet converteren scheelt natuurlijk inspanning.

Het betekent echter wel dat er meer verschillende formaten gemonitord moeten worden, want als een van die formaten niet langer duurzaam is, dan moeten de betreffende objecten alsnog geconverteerd worden (voor zover ze nog niet vernietigd zijn). De middenweg is wellicht de beste oplossing: converteer duurzame formaten die door onze gebruikers veel gebruikt worden niet, om het conversieproces te ontlasten, en converteer de weinig gebruikte duurzame formaten wel, om het monitorproces te ontlasten. Daarmee wordt het preservatiebeleid voor audio en video net iets anders dan het bestaande beleid voor tekst. Bij tekst kennen we één duurzaam formaat dat ook het conversieformaat is. Voor audio en video gaan we dus meerdere duurzame formaten aanwijzen, waaronder één conversieformaat.

Duurzaam formaat of uitwisselformaat
Er is nog een tweede afwijking in het beleid nodig, hoewel die strikt genomen niet de preservatie raakt. Binnen de vreemdelingenketen is de afspraak gemaakt dat bij het opvragen van een informatieobject uit het CDD+, er altijd voor wordt gekozen om het duurzame formaat (de PDF/A) op te vragen, en niet het origineel. PDF/A is daarmee niet alleen het duurzame formaat maar ook het uitwisselformaat.  Ook buiten de vreemdelingenketen is dat de facto het geval. Voor het CDD+ is dat een simpele situatie. Aangezien het duurzame formaat ook het uitwisselformaat is, is er maar één conversie nodig.

Voor audio en video ligt dit anders. De duurzame formaten zijn niet per se ideale uitwisselformaten.2 Daarnaast  is het verstandig om meerdere mogelijkheden voor uitlevering te hebben. Afhankelijk van welk apparaat de gebruiker gebruikt, wat de kwaliteit is van zijn internetverbinding en of hij wel of niet wil streamen, zijn andere eisen te stellen aan het uit te leveren bestand.

Dus, waar we eerder konden volstaan met het aanmaken van een duurzame versie van elk informatieobject, moeten we voor audio en video ook zorgen voor passende uitleverversies van het object.

Al met al heeft het toevoegen van audio- en videoformaten aan het preservatiebeleid geleid tot aanzienlijk meer uitbreidingen dan het simpelweg toevoegen van twee conversieformaten. Deze uitbreidingen passen allemaal goed binnen het bestaande gedachtegoed, maar de grote hoeveelheid audio- en videoformaten maakt dat er meer is om over na te denken dan bij de tekstformaten.


Emile de Maat
Expert informatiehuishouding bij de Justitiële Informatiedienst 


Noten

1 Deze stukken blijven echter maar twintig jaar in het CDD+, en worden dan overgebracht naar het Nationaal Archief.
2 En andersom. De strafrechtketen heeft gekozen voor MP4 met H.264 als uitwisselformaat voor video, en WAV of MP3 als uitwisselformaat voor audio. MP3 en (de meeste versies van) H.264 zijn echter lossy, en daarmee niet geschikt als conversieformaat.