20 augustus 2012

MeDuSa

image for MeDuSa image

Metagegevens: waarom ook alweer?

Metagegevens: waarom ook alweer?
Op de vraag ‘wat zijn metagegevens?’ zullen veel mensen het antwoord geven ‘gegevens over gegevens’. Voor recordsmanagement is dit een nogal magere definitie. De ISOstandaarden (15489 en 23081) beschrijven metagegevens als gegevens die de context, inhoud en structuur van records beschrijven, evenals het beheer van die records door de tijd heen.2 Ze zijn niet alleen onmisbaar om terugvindbaarheid, bruikbaarheid, authenticiteit, integriteit en betrouwbaarheid van de records te garanderen en het beheer ervan op lange termijn mogelijk te maken, maar ook van essentieel belang voor interoperabiliteit. Om het uitwisselen van records tussen systemen mogelijk te maken, moeten afspraken gemaakt worden over de manier waarop dat gebeurt, in welke ‘taal’ deze systemen met elkaar spreken (zoals XML) en hoe metagegevens en records geïnterpreteerd moeten worden. Als het gaat om metagegevens zijn zulke afspraken vastgelegd in onder andere metagegevensschema’s. Uitwisseling tussen systemen is zowel aan de orde binnen organisaties als tussen organisaties, bijvoorbeeld bij overbrenging van digitale archieven naar een e-depot.

Een klein beetje context
De Archiefregeling schrijft in het eerste lid artikel 19 het volgende voor: “De zorgdrager legt een metagegevensschema als bedoeld in NEN-ISO 23081:2006 vast.” Wat wordt bedoeld met zo’n metagegevensschema en wat heeft MeDuSa daarmee te maken? Om dat uit te leggen wil ik eerst een paar begrippen toelichten3:

  • Metagegevensstandaard: een abstract document waarin de basisbeginselen en implementatievraagstukken rond metagegevens worden beschreven. Dit is de ISO 23081.
  • Metagegevensschema: een logisch ontwerp waarin de relatie tussen metagegevenselementen wordt beschreven door regels te benoemen voor het gebruik en beheer van metagegevens, vooral met betrekking tot semantiek, syntaxis en het verplichtingenregime (welke elementen zijn verplicht en welke optioneel). Dit wordt ook wel een elementenset genoemd. De term metagegevensschema moet niet verward worden met het XML-schema (zoals MeDuSA).
  • Toepassingsprofiel: een toepassingsprofiel beschrijft de manier waarop de metagegevens uit zo’n metagegevensschema gebruikt moeten worden in een bepaalde bedrijfscontext (= de toepassing). Het is een verdere specificatie van de elementen, eventueel uitgebreid met subelementen. Waar het metagegevensschema vaststelt welke concepten er in elementen vastgelegd moeten worden en bedoeld is om de semantiek of betekenis van die elementen te verankeren, gaat een toepassingsprofiel verder door daar afspraken en richtlijnen aan toe te voegen over de manier waarop de elementen gebruikt moeten worden. Het identificeert wanneer elementen verplicht zijn en geeft toelichting en voorbeelden, waarmee het begrip van de elementen verduidelijkt kan worden. Hoewel een toepassingsprofiel op zich niet direct iets te maken heeft met applicaties, vormt het op die manier wel de basis voor een deel van de functionele eisen die aan applicaties gesteld worden. Afbeelding 1 laat zien hoe een toepassingsprofiel zich verhoudt tot het metagegevensschema en de metagegevensstandaard ISO 23081.
  • Gecontroleerde woordenlijsten: een gecontroleerde lijst van alle toegestane waarden voor de metagegevenselementen in natuurlijke taal en/of in een gecodeerde reeks van tekens die gebruikt kunnen worden om die waarden machineleesbaar te maken (syntax). Deze woordenlijsten specificeren hoe de mogelijke waarden voor een metagegevenselement geschreven moeten worden, zoals datumnotatie, persoonsnamen etc.

Het toepassingsprofiel kan vertaald worden naar een machineleesbaar schema, waarbij je eventueel gebruik maakt van gecontroleerde woordenlijsten. Dit machineleesbare schema is dus een instrument om een toepassingsprofiel te implementeren. Het XML-schema MeDuSa is een voorbeeld van zo’n instrument.
De internationale metagegevensstandaard NEN-ISO 23081 is ook in Nederland vastgesteld. Voor de Nederlandse overheid is de standaard in 2009 uitgewerkt tot de Richtlijn Metagegevens Overheidsinformatie voor gebruik binnen de Nederlandse overheid. Naar analogie met bovenstaande is dit het metagegevensschema voor de overheid.4 De richtlijn maakt deel uit van de Nederlandse Overheid Referentie Architectuur (NORA). De rijksoverheid heeft in 2009 ook een voor het Rijk generiek toepassingsprofiel vastgesteld, dat iedere rijksoverheidsorganisatie moet vertalen naar een organisatiespecifiek toepassingsprofiel (dat zijn dus de onderste ‘huisjes’ in afbeelding 1). Dit Toepassingsprofiel Metagegevens Rijksoverheid maakt onderdeel uit van de Baseline Informatiehuishouding Rijksoverheid.5 Om aan de eis uit artikel 19 van de Archiefregeling te voldoen, moet een overheidsorganisatie over een organisatiespecifiek toepassingsprofiel beschikken. Overigens is de richtlijn ook verankerd in de normen 3b, 4 en 5 van de vorig jaar verschenen Baseline Informatiehuishouding Gemeenten.
MeDuSa is gelijktijdig ontwikkeld en afgestemd met de richtlijn en het toepassingsprofiel en bevat daardoor dezelfde elementen. Daarmee wordt dus al een belangrijk aandeel van de interoperabiliteit ondersteund: MeDuSa laat het systeem van de zorgdrager die voldoet aan de richtlijn en het toepassingsprofiel communiceren met het e-depot.

Relatie ISO 23081 - metagegevensschema - toepassingsprofielen
Afbeelding 1. Relatie ISO 23081 – metagegevensschema – toepassingsprofielen
Uit: ‘Building a metadataschema: where to start?’ (zie noot 3)

MeDuSa: het XML-schema voor het e-depot
De Archiefregeling schrijft niet alleen voor dat een overheidsorganisatie over een metagegevensschema dient te beschikken, maar ook dat aan de records metagegevens gekoppeld worden die vastleggen binnen welke context de records zijn ontstaan, welke beheersactiviteiten erop zijn uitgevoerd en wat de technische kenmerken zijn. Met het XML-schema MeDuSa kun je deze metagegevens vastleggen én koppelen aan de records waarop ze betrekking hebben. Dat kan overigens ook op andere aggregatieniveaus dan record, namelijk archief, serie en dossier. Dat is afhankelijk van de manier waarop het archief wordt aangeleverd en of het binnen de gebruikte systemen mogelijk is om op lagere aggregatieniveaus metagegevens van hogere niveaus over te erven. De laagste eenheid waarop metagegevens met MeDuSa vastgelegd kunnen worden is ‘file’ of ‘computerbestand’, aangezien een record in een digitale context uit een of meerdere files kan bestaan. Door de metagegevens op die manier te koppelen aan de records ontstaat een zogenaamde Submission Information Package (SIP), die opgenomen kan worden in het e-depot.6
MeDuSa is opgebouwd uit een set generieke metagegevenselementen die door elke archiefvormende organisatie gebruikt kan worden, zowel overheid als particulier. Dat zijn alle elementen die ook in de Richtlijn Metagegevens Overheidsinformatie voorkomen en die informatie bevatten over de context waarbinnen de archiefbescheiden gevormd en gebruikt zijn, de manier waarop ze beheerd zijn en de techniek waarmee ze gevormd en gebruikt zijn. Deze metagegevenselementen zijn voor iedere organisatie van toepassing. MeDuSa biedt daarnaast de mogelijkheid om organisatiespecifieke metagegevens toe te voegen die niet in het generieke schema worden gedefinieerd. Dat is bijvoorbeeld aan de orde wanneer er metagegevens aan de archiefbescheiden zijn gekoppeld die specifiek iets zeggen over het primaire proces. MeDuSa heeft voor dit soort metagegevens een aparte container: de zogenaamde Agency Specific-metagegevens. Dit element kan álle oorspronkelijke metagegevens opnemen in de structuur zoals ze door de archiefvormer zijn gebruikt. Daarmee blijft het altijd mogelijk om de records te hergebruiken in de oorspronkelijke omgeving.

‘Wat moet ik ermee’?
Je krijgt pas met MeDuSa te maken op het moment dat je je digitale archieven gaat overbrengen naar het e-depot. Dan wordt de SIP – het pakketje digitale archiefbescheiden én de bijbehorende metagegevens – namelijk volgens de structuur van MeDuSa in het e-depot gezet. Dat wil echter niet zeggen dat je tot dat moment niks hoeft te doen. Hieronder drie suggesties voor nog uit te voeren werk:

  • Een fit gap-analyse maken: pak het Toepassingsprofiel Metagegevens Rijksoverheid erbij en onderzoek samen met een informatiearchitect binnen je organisatie welke metagegevens uit dat toepassingsprofiel (in je eigen organisatie) worden vastgelegd en waar ze worden vastgelegd.7 Dat hoeft niet alleen in een documentmanagementsysteem te zijn, maar kan ook in andere applicaties (bijvoorbeeld workflowsystemen of primaire procesapplicaties) en in de records zelf voorkomen (bijvoorbeeld in de documenteigenschappen van een bestand). Op die manier breng je in kaart hoe de metagegevens voor recordsmanagement in jouw organisatie worden opgeslagen en welke metagegevens ontbreken. Het overzicht van de ordeningsstructuur van de archieven in je organisatie is daarbij een heel bruikbaar instrument (bijvoorbeeld vastgelegd in een documentair structuurplan, zie ook artikel 18 van de Archiefregeling). Er is inmiddels ook een derde deel van de NEN-ISO 23081, waarmee je een selfassessment kan uitvoeren om vast te stellen hoe het met je metagegevensbeheer staat.
  • Een metagegevensschema maken: daarmee voldoe je aan de eis in artikel 19 van de Archiefregeling. Met alleen een lijst van elementen die je in je documentmanagementsysteem koppelt aan records kom je er echter niet. Het is van belang dat je eerst vaststelt wat de structuur van het schema moet zijn: beschrijf je de metagegevens aan de hand van een of meerdere entiteiten (record, actor, proces, mandaat, relatie)? In de meeste gevallen is er slechts sprake van een één-entiteitenbenadering, waarbij alle metagegevens worden gerelateerd aan de entiteit ‘record’ (zo ook in het Toepassingsprofiel). Wat is het hoogst mogelijke aggregatieniveau waarop je metagegevens kan toevoegen en laten overerven? Welke elementen zijn verplicht en welke facultatief? Met de implementatie van een toepassingsprofiel kun je vervolgens in kaart brengen op welke manier het toevoegen van metagegevens ingericht wordt. Zie de verwijzing in noot 3 voor een korte maar krachtige beschrijving van hoe je dit aanpakt.
  • Een mapping maken: op het moment dat je digitaal archief gaat overbrengen moet je een mapping maken van de metagegevens uit het systeem (of de systemen) waar het archief tot dat moment in is beheerd naar de metagegevens in MeDuSa. Met een mapping breng je in kaart op welke manier de metagegevens uit het systeem (of de systemen) waar ze oorspronkelijk in opgeslagen zijn (bronsysteem), vertaald kunnen worden naar de metagegevens in het systeem waarnaar ze overgebracht moeten worden (doelsysteem). Je moet daarvoor eerst vaststellen hoe de records en de metagegevens geëxporteerd worden. Is het überhaupt mogelijk om de metagegevens te exporteren in een uitwisselbaar bestandsformaat en te koppelen aan de records? Ook is het nodig om te weten wat de structuur van het over te brengen archief is en hoe je ervoor zorgt dat de juiste metagegevens aan de juiste records en aggregatieniveaus worden gekoppeld. Een metagegevensschema is hier onontbeerlijk: zonder metagegevensschema weet je immers niet op welk niveau welke metagegevenselementen voorkomen en wat de betekenis van die elementen is. Bij een overbrenging naar een e-depot zou je dat dan achteraf moeten gaan reconstrueren.
Relatie tussen NEN-ISO 23081, Richtlijn Metagegevens Overheid, Toepassingsprofiel Metagegevens Rijksoverheid en MeDuSa (versie april 2011)
Afbeelding 2. Relatie tussen NEN-ISO 23081, Richtlijn Metagegevens Overheid, Toepassingsprofiel Metagegevens Rijksoverheid en MeDuSa (versie april 2011)

Meer weten?
Op de website van het Nationaal Archief is meer te lezen over het XML-schema en de betekenis van elementen. Het schema kan daar ook worden gedownload.8 Met een XML- editor is het schema makkelijk leesbaar en te interpreteren.9 Overigens is het aan te raden om de beschrijving van de elementen in de Richtlijn Metagegevens Overheidsinformatie en eventueel het Toepasingsprofiel Metagegevens Rijksoverheid daarbij houden en te vergelijken met de elementen uit MeDuSa.
Om de toepassing van metagegevens binnen overheidsorganisaties duidelijk te maken, hebben we bij het Nationaal Archief de zogenaamde Metadatamappinggame gemaakt. Het spel laat zien wat de belangrijkste beginselen rond metagegevens voor recordsmanagement zijn en op welke manier ze in de praktijk toegepast kunnen worden, bijvoorbeeld bij het maken van een metagegevensschema of het overbrengen van digitale archieven naar een e-depot.

Jorien.Weterings@nationaalarchief.nl, Jorien Weterings is adviseur Recordkeeping bij de sector Informatie, Infrastructuur en Innovatie van het Nationaal Archief.


1 Tot vorig jaar had het XML-schema nog NACore als werktitel. Het werd tijd om een nieuwe naam te kiezen, omdat NACore de indruk kan wekken dat het XML-schema alleen van toepassing is voor het Nationaal Archief. Het is echter een generiek instrument dat ook in te zetten is voor andere archiefdiensten, bijvoorbeeld wanneer aangesloten wordt op een gemeenschappelijke e-depotvoorziening. Het XML-schema is bijvoorbeeld ook in gebruik bij het Gemeentearchief Rotterdam. De naam MeDuSa is het democratische resultaat van een prijsvraag onder enkele medewerkers van departementen, provincies, gemeenten en archiefdiensten.
2 In 2006 schreef Jeroen Poppe voor de nummers 9, 10 en 11 van Od drie artikelen naar aanleiding van de toen recent gepubliceerde standaard ‘Metadata: ISO 23081 en andere standaarden’.
3 Voor deze paragraaf heb ik gebruik gemaakt van het document ‘Building a metadata schema: where to start?’, dat door de ISO is opgesteld. Dit document is te downloaden op de website van de NISO en zeer lezenswaardig voor DIV’ers, archivarissen, informatiearchitecten, recordsmanagers en ICT’ers en anderen die betrokken zijn bij het opstellen en implementeren van toepassingsprofielen en XML-schema’s voor metagegevens: http://www.niso.org/apps/group_public/download.php/5271/N800R1_Where_to_start_advice_on_creating_a_metadata_schema.pdf (laatst geraadpleegd 8 juni 2012).
4 http://kennislab.files.wordpress.com/2010/01/richtlijn-metagegevens-overheid-schema-entiteiten-en-elementen-versie-2-5.pdf en http://kennislab.files.wordpress.com/2010/01/richtlijn-metagegevens-overheid-toelichting-versie-2-5.pdf (laatst geraadpleegd 8 juni 2012). Over status, reikwijdte en toepassing en de richtlijn schreef Wil Rombout in 2009 voor nummer 12 van Od het artikel ‘Richtlijn metagegevens overheidsinformatie’.
5 http://www.kennislab.info/fileadmin/bestanden/documenten/091210-toepassingsprofiel-metagegevens-v1-0.pdf (laatst geraadpleegd 8 juni 2012).
6 Deze term is afkomstig uit de internationale standaard ISO 14721, Open Archival Information System (OAIS). De architectuur van het edepot is gebaseerd op de concepten in deze standaard.
7 Voor provincies, gemeenten en waterschappen zijn nog geen generieke toepassingsprofielen ontwikkeld. De Werkgroep Voorbereiding Implementatie e-Depots (WVI) van de Regionaal Historische Centra werkt momenteel aan een toepassingsprofiel wat daarbij als voorbeeld kan dienen. Zie http://duurzaamtoegankelijk.blogspot.com.
8 http://www.nationaalarchief.nl/onderwerpen/overbrengingvervreemding/het-overbrengen-digitale-overheidsarchieven/e-depot/MeDuSa (laatst geraadpleegd 8 juni 2012).
9 Bijvoorbeeld XML Spy van Altova. Tik ‘XML-editor’ in op Google en je vindt een keur aan vrij beschikbare tools voor het lezen of bewerken van XML-schema’s, óók geschikt voor mensen zonder ervaring met XML.