Door te streven naar de hoogst mogelijke kwaliteit van data, kunnen overheden grote kosten besparen, data-silo’s voorkomen en innovatie stimuleren. Beter herbruikbare data zijn goedkoper om te onderhouden, te combineren en te gebruiken in andere applicaties.
Verschillen in datakwaliteit
Om de verschillen in kwaliteit van verschillende vormen van open data helder te maken, heeft Tim Berners Lee (de uitvinder van het world wide web) een sterren-ranking gemaakt:
Door te streven naar de hoogst mogelijke kwaliteit van data, kunnen overheden grote kosten besparen, data-silo’s voorkomen en innovatie stimuleren. Beter herbruikbare data zijn goedkoper om te onderhouden, te combineren en te gebruiken in andere applicaties.
Verschillen in datakwaliteit
Om de verschillen in kwaliteit van verschillende vormen van open data helder te maken, heeft Tim Berners Lee (de uitvinder van het world wide web) een sterren-ranking gemaakt:
- 1 ster: Maak je gepubliceerde data beschikbaar onder een open licentie, zoals CC0. Je hebt nu open data!
- 2 sterren: Zorg dat de data gestructureerd zijn, zoals in een Excelbestand, in plaats van een afbeelding van een tabel of een pdfbestand. Nu heb je machineleesbare open data.
- 3 sterren: Zorg dat de data in een open standaard zijn opgeslagen. Gebruik bijvoorbeeld CSV in plaats van Microsoft Excel. Dan hoeven hergebruikers geen speciale software aan te schaffen om iets met je data te doen.
- 4 Sterren: Gebruik links als ID’s in je data, zodat mensen ernaar kunnen wijzen. Dit doe je bij voorkeur met de RDF-standaard. Nu zijn de losse onderdelen van je data direct deelbaar, net als webpagina’s. Een hergebruiker hoeft nu niet meer alles van te voren te downloaden en kan de stukjes gebruiken die hij of zij nodig heeft.
- 5 sterren: Link naar definities en data van anderen, zodat hergebruikers meer kunnen leren over wat je data vertegenwoordigen en waar ze meer informatie kunnen vinden. Dit hoogste niveau heet ‘linked open data’.
Linked Open Data
Waarom krijgen linked open data de hoogste beoordeling? Linked data zijn ontworpen met dezelfde principes als de uitgangspunten die het web zo succesvol maken. Om een website te bezoeken, hoef je geen gespecialiseerde software te installeren; iedere webbrowser volstaat. Om een los artikel op een website te lezen, hoef je slechts een enkele link op te vragen in plaats van de gehele website te downloaden. Omdat linked data gebouwd zijn op hetzelfde platform als het web, hebben ze vergelijkbare voordelen. Linked data vereisen geen speciale software, zijn op te halen in kleine stukjes en zijn zeer eenvoudig te delen met behulp van links.
Waar websites ontworpen zijn voor mensen, zijn linked data ontworpen voor machines. Door de zeer hoge machineleesbaarheid kunnen twee applicaties die beiden de taal van linked data spreken zeer eenvoudig informatie uitwisselen.
Deze machineleesbaarheid komt grotendeels doordat velden in linked data altijd een link zijn, in plaats van een los stukje tekst. Neem als non-linked-voorbeeld een object waarin een veld getiteld als ‘datum’ staat. Is dit de publicatiedatum? Is dit de datum waarop het artikel bewerkt is? Als de datum genoteerd is als 05-03-2018, betekent dit dan 5 maart of 3 mei? Dit zijn vragen die je gewoonlijk moet beantwoorden door als mens de documentatie van de API te lezen.
Met linked data noem je een veld niet ‘datum’, maar bijvoorbeeld ‘schema.org/dateCreated’. Op deze link kun je vinden wat dateCreated vertegenwoordigt en hoe de datum is opgeslagen. Naast de veldnamen, kun je ook de waarden vervangen met links: zo wordt de waarde ‘Utrecht’ vervangen door ‘dbpedia.org/resource/Utrecht’. Nu weet je zeker dat het over de stad gaat en niet de provincie. Met links voorkom je ambiguïteit. Daarnaast maak je het direct mogelijk om meer informatie op te halen over een concept waarnaar je refereert door simpelweg de link te bezoeken.
Documentatie is bij linked data vaak in veel lagere mate nodig. De data beschrijven immers zelf wat ze vertegenwoordigen en waar er meer informatie over te vinden is. Dit is niet alleen voor mensen handig, maar ook voor machines. Hierdoor kunnen kosten worden bespaard bij het onderhouden en doorontwikkelen van systemen, wat zeker in de complexe informatiearchitecturen bij overheden veel kan schelen.
Doordat iedere ‘resource’ beschikbaar is op een link, is de deelbaarheid van de data zeer hoog. Zowel externe hergebruikers als interne organisatie kunnen zo veel eenvoudiger een stukje informatie delen en toegang krijgen tot de data die ze nodig hebben. Dat betekent overigens niet dat alle linked data open moeten zijn. De technologie leent zich namelijk ook uitstekend voor streng beveiligde interne systemen.
Daarnaast hebben linked data een ander belangrijk voordeel: data blijven bij de bron. Wanneer een applicatie externe data hergebruikt, worden de data in conventionele systemen meestal gekopieerd en geconverteerd. Deze synchronisatie kost veel om te maken en om te beheren. Ook is een dergelijk koppelvlak foutgevoelig, waardoor het mogelijk privacy- en veiligheidsrisico’s met zich meebrengt. Bij systemen die werken met linked data is een koppelvlak zeer minimaal. Linked datasystemen kunnen simpelweg naar elkaar wijzen met de gebruikte links en de gestandaardiseerde data opvragen wanneer het nodig is. Door de data bij de bron te houden, voorkom je dat er ergens in het proces van kopiëren en converteren fouten optreden.
Software bij overheden heeft vaak te maken met lock-inproblematiek. Dit betekent dat ontwikkelaars het (bedoeld of onbedoeld) moeilijk maken om gegevens uit hun systeem te halen of te hergebruiken. Hiermee wordt een afhankelijkheid van de ontwikkelaar gecreëerd en ontstaan zogenaamde datasilo’s. Door linked data te gebruiken garandeer je dat zowel het uitwisselingsformaat als het datamodel open en herbruikbaar is. Je ontkoppelt zo de applicatie van de data, waarmee je lock-in voorkomt.
Mocht je uiteindelijk toch data in een ander formaat dan linked data nodig hebben, dan is dat geen probleem. Het is zeer eenvoudig om van linked data een CSV-, XMLof JSON-bestand te maken, terwijl de andere kant op converteren lastiger is. Dit vereist immers verrijking van je data en een goed doordachte routing strategie.
De kosten: is het de moeite waard?
Het produceren van linked data is doorgaans wat lastiger en duurder dan het produceren van andere vormen van data. Dit komt doordat het ‘linken’, vooral bij het modelleren, extra denkwerk vraagt. Waar mogelijk, moet ieder veld in linked data een URL zijn, dus wanneer je een ‘persoon’ met een ‘geboortedatum’ wilt beschrijven, moet je verwijzen naar het concept ‘geboortedatum’, zoals naar ‘schema.org/birthDate’. Dit vereist dat er tijd moet worden gestopt in het uitzoeken of eventueel het maken van een zogenaamde ontologie, een model om concepten zoals ‘persoon’ en ‘geboortedatum’ mee te beschrijven. Daarnaast moet in ons voorbeeld het object ‘persoon’ zelf een geldige link hebben die blijft bestaan, wat betekent dat er in het ontwerp van de API rekening moet worden gehouden met linked data-principes.
Of deze extra kosten bij het produceren de moeite waard zijn, hangt af van hoe de data gaan worden hergebruikt. Blijven de data altijd in een gesloten systeem? Dan zijn linked data waarschijnlijk overbodig. Zullen de data door een of meerdere andere systemen worden gebruikt? Dan is er een meerwaarde. Gaan de data hergebruikt worden door derden, waarvan je niet goed kunt voorspellen welke wensen zij hebben? Dan hebben linked data een zeer grote meerwaarde.
Aan de slag met linked open data
Je zal niet de eerste zijn die informatie beschikbaar stelt als linked open data. Organisaties als Google en Wikipedia gebruiken linked data op diverse belangrijke punten in hun architectuur. Ook enkele Nederlandse overheidsorganen hebben geïnvesteerd in linked data. Zo stelt het Kadaster veel informatie van Nederlandse bouwwerken beschikbaar, hebben het Nationaal Archief en de rijksoverheid een zoekmachine ontwikkeld waardoor je wetten als linked data kunt binnenhalen. Deze initiatieven zijn helaas echter uitzonderingen; het leeuwendeel van de open data van onze overheden haalt nu nog 1 tot 3 sterren, waardoor hergebruikers worden gedwongen om gehele datasets te downloaden en handmatig te converteren.
Wat kunnen overheden doen om dit te verbeteren?
Ten eerste is een gezonde dosis aandacht voor datakwaliteit in het algemeen een redelijk begin. Om onbekendheid met linked data en de daarbij behorende standaarden tegen te gaan, zou er tijdens aanbestedingsprocessen meer aandacht aan datakwaliteit kunnen worden geschonken, waarbij 5 sterren data als sterk pluspunt of eis kan worden opgenomen. Door in de Gemeentelijke Inkoopvoorwaarden bij IT van de VNG linked data te adviseren, in plaats van XML en JSON, zou er slimmer kunnen worden ingekocht.
Daarnaast zou er bij het ontwikkelen van standaarden meer rekening moeten worden gehouden met internationale (web)standaarden. Een initiatief zoals het Gemeentelijke Model Architectuur (GEMMA) zou haar vele (nu nog op Nederland gerichte) standaarden kunnen uitdrukken in internationale linked data-ontologieën met behulp van de standaarden RDF(S), SKOS, SHACL en OWL. Het Common Ground initiatief, dat de eerder genoemde datasilo’s probeert aan te pakken, zou tevens linked data kunnen omarmen. Het ontwikkelen van linked data-standaarden door overheden zou niet alleen de datakwaliteit verbeteren en daarmee kosten verlagen, maar het zou ook de Nederlandse bedrijven die software maken met die standaarden een sterkere positie geven op de internationale markt. Daarnaast is het zeer voordelig om bij standaardisering een leider te zijn, in plaats van een volger, aangezien je zo meer controle hebt over de richting en de beslissingen omtrent de standaarden.
Nu linked open data van droom naar realiteit gaan is het hoog tijd om te investeren in deze technologie. Nederlandse overheden hebben een unieke kans om gebruik te maken van de beschikbare kennis en bestaande initiatieven om internationaal de toon te zetten voor hoge kwaliteit open overheidsdata.
joep@argu.co, Joep Meindertsma is mede-oprichter van het e-democracy platform Argu.co.