14 december 2015

De waarde van metadata

image for De waarde van metadata image

Ik ben een groot fan van Google en haar producten, waaronder Google Search. Ik gebruik de zoekmachine dagelijks omdat de zoekresultaten die worden opgeleverd veelal relevant zijn voor mijn zoekvraag. Maar soms wordt Google Search als excuus gebruikt om binnen de eigen organisatie niet na te hoeven denken over metadata. Een veel gehoord argument dat dan wordt gebruikt is: “Met full-text search kun je alles vinden!”.

Ik ben een groot fan van Google en haar producten, waaronder Google Search. Ik gebruik de zoekmachine dagelijks omdat de zoekresultaten die worden opgeleverd veelal relevant zijn voor mijn zoekvraag. Maar soms wordt Google Search als excuus gebruikt om binnen de eigen organisatie niet na te hoeven denken over metadata. Een veel gehoord argument dat dan wordt gebruikt is: “Met full-text search kun je alles vinden!”.

De suggestie dat Google exclusief werkt op basis van het indexeren van de inhoud klopt echter niet. Natuurlijk kun je op basis van fulltext search documenten vinden, maar zijn dit de relevante documenten? Om de relevantie te bepalen, om ons de juiste zoekresultaten te tonen, gebruikt Google veel meer ‘signalen’.

Een mix van signalen
Naast inhoud, of het nu tekst of beeld is, is bijvoorbeeld ook het internetadres van belang: hoe oud is de domeinnaam (geloofwaardigheid groeit met leeftijd) en door welke organisatie is deze geregistreerd. De titel van een informatieobject op internet is veelal de meest beknopte samenvatting van de inhoud, dus belangrijk. Wie is de auteur en is deze gelinkt aan een openbaar profiel bij Google+, Facebook, Twitter, …? Is de informatie oud, of van vandaag, een eerste versie of wordt er dagelijks content bijgewerkt? Het fameuze PageRankalgoritme van Google ging (en gaat?) uit van inkomende en uitgaande links in de webpagina. Als gezaghebbende domeinen linken naar de webpagina is deze vast belangrijker dan een pagina, waar niet naar wordt gelinkt. Is het een webpagina, pdfdocument of afbeelding? Hoe groot is het informatieobject? Zijn er voor het object gebruiks rechten gedefinieerd, zoals het restrictieve copyright of een open Creative Commonslicentie? Wordt de content aangeboden via een beveiligde httpsverbinding of niet, is de pagina snel geladen?

De precieze mix van signalen, informatie over de informatieobjecten oftewel metadata, die Google gebruikt is geheim. Sommige metadata worden wellicht alleen gebruikt bij speciale zoekvragen: geef mij groenachtige afbeeldingen van bloemen die afgelopen jaar zijn gemaakt en die ik kan hergebruiken. En van de andere kant, de relevatie voor mij is anders dan voor jou. Wie de zoekopdracht doet (wel of niet ingelogd bij Google), je zoekgeschiedenis, je IPadres, je locatie en wellicht zelfs het tijdstip en type device en browser (allemaal metadata!) kunnen hiervoor worden gebruikt.
Feit is: zonder metadata kan Google Search ons geen relevante zoekresultaten leveren. Kunnen organisaties hun eigen informatie dan wel goed toegankelijk maken zonder metadata?

Beschikbare metadata
Google en ook andere zoekmachines gebruiken de beschikbare metadata die zij kunnen vergaren of afleiden. Veelal gaat het om technische informatie die geautomatiseerd wordt geleverd, soms ook data die een auteur zelf heeft ingevuld. Het ontdekken van deze metadata is een kunst op zich. Het kan in de tekst zitten, denk aan een referentie naar een CCBYlicentie (= je mag de content hergebruiken mits er naamsvermelding is), in speciale velden in HTML, de zogenaamde metatags, of onderdeel uitmaken van het bestandsformaat, denk aan EXIFdata die in foto’s zit of de documentinformatie in pdfof Wordbestanden.
Dat Google en consorten graag de inhoud beter wil kunnen typeren om beter zoekresultaten te krijgen zie je overduidelijk in een initiatief als schema.org (zie kader).

Schema.org is a joint effort, in the spirit of sitemaps. org, to improve the web by creating a structured data mark-up schema supported by major search engines. On-page mark-up helps search engines understand the information on web pages and provide richer search results. A shared mark-up vocabulary makes easier for webmasters to decide on a mark-up schema and get the maximum benefit for their efforts. Search engines want to make it easier for people to find relevant information on the web. Markup can also enable new tools and applications that make use of the structure.

Zo zijn er op schema.org schema’s te vinden voor onder andere gebeurtenissen (Event), gezondheid (Health), organisaties (Organisation), personen (Person), plaatsen (Place), producten (Product), reviews (Review) en acties (Action). Door inhoud te markeren komen er weer meer metadata beschikbaar voor gebruik. Het vocabulaire van schema.org (het ‘wat’) kan gebruikt worden met behulp van technische formaten (het ‘hoe’) als Microdata, RDFa, of JSONLD.

Standaardmetadataschema’s
Er zijn veel standaardmetadataschema’s, elke met een eigen doel, domein en focus. Het is belangrijk om de eigenschappen van de verschillende schema’s goed te begrijpen zodat deze op waarde kunnen worden geschat en niet zomaar afgeserveerd worden als niet belangrijk of we gebruiken al standaard XYZ.
Zo is de Overheid.nl Web Metadata Standaard (OWMS1) de metadatastandaard voor informatie van de Nederlandse overheid op internet. Deze standaard is gebaseerd op de internationale metadatastandaard van het Dublin Core Metadata Initiative. Informatie die volgens OWMS van metadata is voorzien, is beter vindbaar voor zoekmachines en kan met meer gemak in samenhang met andere informatie worden gepresenteerd.

Maar wat als je zeker wilt weten of informatie van lokale overheden authentiek en integer is en hoe die tot stand is gekomen? Ook daar is een standaard voor: het Toepassingsprofiel Metadatering Lokale Overheid.2 Deze standaard, afgeleid van ISO 23081, heeft de focus op duurzame toegankelijkheid. Dus welke metadata zijn van belang om informatie morgen en over twintig jaar op waarde te schatten?

Wil je als overheidsorganisatie je dienstverlening verbeteren richting burger, de elektronische dienstverlening ondersteunen en de bedrijfsvorming verbeteren? Dan is het Referentiemodel Gemeentelijke Basisgegevens van Zaken (RGBZ3) een goed informatiemodel om te gebruiken. Ook RGBZ draagt bij aan het adequater beheren van de, steeds meer digitale, documentaire informatievoorziening en archivering. Een model als het RGBZ vertoont dan ook overlap met bijvoorbeeld TMLO, velden uit het RGBZ zijn te mappen op velden in TMLO. Metadata die volgens TMLO benodigd zijn, zijn dus waarschijnlijk al beschikbaar in het zaaksysteem. De genoemde standaarden kunnen organisaties helpen om te bepalen welke metadata voor de eigen organisatie van toepassing en van nut zijn.

Google zet in een van haar recente onderzoeks projecten onder de naam RankBrain in op machine learning en kunstmatige intelligentie om informatie beter te begrijpen. Dit verbeterde begrip van de inhoud moet weer leiden tot relevantere zoekresultaten. Maar we moeten ons wel realiseren dat ‘informatie vinden’ maar een van de functies is die gebaat is bij metadata. Andere functie zijn onder andere gegevensuitwisseling tussen organisaties, slim aan elkaar koppelen van informatie, beoordelen van de context van informatie en archiveren van informatie.

Invoervelden
De weerstand tegen metadata komt deels uit de angst en wellicht ervaring dat medewerkers oeverloze formulieren moeten invullen als ze een document opslaan of mailtje versturen. En de aanname is vaak dat medewerkers niet mee willen in deze registratiewoede en work arounds gaan verzinnen.
Maar waarom worden metadata altijd gekoppeld aan ‘heel veel extra invoervelden die ik moet invullen’?
Ik denk dat de oplossing ligt in een combinatie van slimme systemen en slimme medewerkers.

Slimme systemen
Om bij de slimme systemen te beginnen. Metadata zijn niet informatie over het informatieobject dat de medewerker keer op keer handmatig moet invullen. Deels kunnen de metadata afgeleid worden, denk hierbij aan de meer technische metadata, bestandsgrootte, type, hash, creatiedatum, enzovoorts. Deels kunnen de metadata ook via ‘overerving’ verkregen worden. Denk bijvoorbeeld aan documenten die metadata van de zaak of dossier overnemen.
De resterende extra velden moeten gebruikersvriendelijk zijn, bijv. door selectielijstjes (met relevante, herkenbare waarden) en persoonlijke voorkeurswaarden aan te bieden in plaats van vrije tekst invoer zonder enige onder steuning. En ja, probeer het aantal velden te beperken. De ‘tijds investering’ die medewerkers doen in het voorzien van metadata moet in verhouding staan tot de ‘opbrengst’ die men denkt dat er is of zo ervaart.

Slimme medewerkers
De waarde van metadata moet medewerkers ook duidelijk worden gemaakt, waarmee we bij de slimme medewerkers komen. Voorheen was het ‘voorzien van metadata’ een taak van een DIVafdeling. In het huidige digitale tijdperk wordt het ‘voorzien van metadata’ meer en meer een taak van de eindgebruiker, de producent van het informatieobject. Voorlichting/ opleiding op het vlak van metadata is dus op zijn plaats. Het duiden van de ‘opbrengst’ van metadata kan deels door te wijzen op kortetermijnwinst, bijvoorbeeld: informatie van jezelf en collega’s is beter vindbaar en op waarde te schatten, dus tijdwinst bij het terug vinden en gebruiken van informatie! Deels moet ook het belang op langere termijn inzichtelijk worden gemaakt, bijvoorbeeld dat informatie (automatisch) op de juiste wijze vernietigd of gearchiveerd wordt. Een paar extra metadatavelden die ingevuld worden door de medewerker (en ook metadata die ‘onder water’ verzameld worden) die van nut zijn voor de medewerker en organisatie, nu en op langere termijn, wordt op deze manier een verrijking in plaats van verzuchting.

Metadata zijn van grote waarde, voor het vindbaar maken van internetcontent door Google, en ook van de informatie binnen uw organisatie!

bob@coret.org, Ir. Bob Coret is zelfstandig ICT-adviseur.

Noten
1 http://standaarden.overheid.nl/owms/terms
2 https://archief2020.nl/nieuws/toepassingsprofiel-metadatering-lokale-overheden
3 http://www.gemmaonline.nl/index.php/Informatiemodel_Zaken_(RGBZ)