5 januari 2023

‘Maak hergebruik van Woo-informatie nu echt mogelijk’

image for ‘Maak hergebruik van Woo-informatie nu echt mogelijk’ image

Auteurs: Maarten Marx (UvA), Joep Meindertsma (Ontola), Jaap Kamps (UvA)

De Wet open overheid (Woo) verplichtte bestuursorganen om de openbaarmaking van hun informatie via het centrale Platform Open Overheid te laten verlopen. Het Adviescollege ICT toetsing adviseert nu om hiermee te stoppen, en daarvoor in de plaats een verwijsindex aan te bieden waarin burgers reeds gepubliceerde stukken kunnen vinden. Het lijkt alsof hiermee een soort startpagina bedoeld wordt die een gebruiker voor elk bestuursorgaan en elke Woo-informatiecategorie naar de pagina van dat orgaan brengt waar de vrijgegeven documenten staan van die categorie. Maarten Marx, Joep Meindertsma en Jaap Kamps geloven dat de lat hoger kan en vooral moet liggen.

Om de waardevolle, vaak met veel kosten en moeite vrijgegeven, documenten echt toegankelijk, vindbaar en bruikbaar te maken is er geen startpagina nodig maar een zoekmachine. Waarin je, net als bij Google, gewoon kunt zoeken in de inhoud van al die documenten. Gewoon vanaf één plek, in alle documenten van alle categorieën, en van alle bestuursorganen tegelijk. En die zoekmachine ordent dan keurig al die stukken op basis van relevantie voor de zoekvraag. Als je in de IJmond woont, en alles wilt weten over het milieu en Tata Steel, wil je niet naar websites van drie ministeries, de provincie Noord-Holland en tig gemeentes moeten gaan, die allemaal uitpluizen en leren hoe die werken en zo je informatie vergaren. Nee, de overheid hoort het mogelijk te maken dat dat vanuit één plek snel en eenvoudig kan.

Utopische toekomstmuziek voor Nederland van een stel wetenschappers? Nee hoor, er draaien zelfs al twee voorbeelden die aantonen dat dit kan. De site OpenBesluitvorming.nl geeft toegang tot raadsinformatie en stateninformatie van meer dan 270 gemeenten en provincies, en bevat sinds 2015 honderden gigabytes aan doorzoekbare vergaderingen, moties en besluiten. De Universiteit van Amsterdam heeft een zoekmachine voor Woo-documenten ontwikkeld, die sinds kort in de lucht is: Woogle, met duizenden Woo-dossiers van gemeentes, provincies en ministeries.

Zulk soort zoekmachines bouwen en opschalen is bekend terrein en ondertussen net zo’n bewezen technologie als SQL databases. Het probleem ligt bij het aanbod: de bestuursorganen maken hergebruik van hun informatie ontzettend moeilijk.

Hergebruik van informatie
Een veelgebruikt argument voor de Wet open overheid is het bevorderen van democratie en het verkleinen van de kloof tussen overheid en burger door transparant te zijn. Hiernaast is er echter een veel directere reden tot openheid: informatie is waardevol, en die waarde neemt alleen maar toe door het gebruik ervan. Elke overheid zou dus het hergebruik van haar informatie zoveel mogelijk moeten bevorderen. Neem een antwoord op een Woo-verzoek. De kosten hiervan zijn geschat op 150 euro per pagina. Zo’n antwoord is gemiddeld 80 pagina’s lang. Waarom zou je zulke waardevolle informatie alleen aan de verzoeker schenken en niet aan iedereen?

De EU onderkent al langer het enorme potentieel aan waarde dat in overheidsinformatie besloten ligt en heeft hier de richtlijn hergebruik van overheidsinformatie voor opgesteld. Die verplicht overheden om het hergebruik van haar informatie zo makkelijk mogelijk te maken. Sinds 17 juli 2021 is deze richtlijn ook in Nederland van kracht. Zeker met de huidige kunstmatige intelligentie technieken, waarmee computers menselijke taken kunnen leren uit enorme hoeveelheden voorbeelden, kan hergebruik van overheidsdata leiden tot onverwachte en soms verbluffende resultaten. Een prachtig voorbeeld is Google Translate dat getraind is op de duizenden pagina’s keurig simultaan vertaalde Europese wetsteksten en de verslagen uit het Europees Parlement. Niemand kon van tevoren voorspellen dat zulke stoffige teksten tot zo’n universeel toepasbaar hulpmiddel zouden leiden. Dat is de onvoorziene kracht van het mogelijk maken van hergebruik. Daarom moet je dat als overheid ook serieus nemen.

Hoe maak je hergebruik mogelijk?
Wat maakte die EU-handelingen nou zo bruikbaar als input voor het leren van Google Translate? Eigenlijk drie heel basale zaken:

  1. De data waren goed automatisch met een hoge nauwkeurigheid te verwerken;
  2. Het ophalen van de data was makkelijk;
  3. Het omzetten van tekst naar een spreadsheet met nuttige informatie kon ook automatisch met grote precisie voor zeer grote hoeveelheden data, geproduceerd over tientallen jaren.

Met zulke makkelijk herbruikbare data kunnen AI-specialisten die machine learning willen toepassen zich richten op hun eigenlijke werk, de machine iets nuttigs leren op basis van voorbeelden, in plaats van bezig te zijn met het bruikbaar maken van die voorbeelden.

Wat gaat er mis bij de Woo?
Hergebruik van dossiers en documenten openbaar gemaakt onder de Woo is enorm lastig omdat ze niet digitaal duurzaam gepubliceerd worden. Er zijn drie knelpunten:

  1. De stukken zijn niet eenvoudig op te halen. Er is geen goed verwijssysteem of -index en stukken hebben geen permanente digital object identifiers.
  2. De stukken zijn niet machine leesbaar: de tekst is vaak niet doorzoekbaar, documenten zijn aan elkaar geplakt en stukken horend bij hetzelfde dossier zijn niet eenduidig gekoppeld.
  3. Een infobox, die net als op een Wikipedia-pagina in een paar steekwoorden leesbare betekenis voor mens en machine aan een stuk of dossier geeft, ontbreekt.

Al deze drie punten spelen bij de Woo-dossiers gepubliceerd op het Platform Open Overheid (PLOOI). Bij lagere overheden gaat het vaak al een stuk beter.

Hoe kan dat beter?
Deze drie knelpunten zijn goed en voor zeer lange tijd op te lossen door middel van drie oeroude en bewezen webtechnologieën: RSS, DOI, en Wikipedia’s infobox.

RSS, dat staat voor eenvoudige gelijktijdige publicatie is de manier voor iedereen om “zelf uitgevertje te spelen”. RSS is gemaakt in de blogtijd, en heeft recent gezorgd voor de enorme vaart die podcasten genomen heeft. Iedereen kan podcasts maken, en in haar RSS-feed plaatsen, en ze dan aanmelden bij podcast apps als Spotify. Vanaf dat moment wordt elke nieuwe aflevering automatisch bekend bij die app, die dus fungeert als een verwijsindex, en iedereen kan elke aflevering via die index tot zich nemen. Deze RSS-techniek is zeer passend om elke Woo-aanbieder haar stukken te laten publiceren. Het handigst zou zijn als elke Woo aanbieder voor elk van de zeventien in de Woo genoemde informatiecategorieën een aparte RSS-feed aanmaakt.

DOI, dat staat voor digital object identifier is een systeem om elk digitaal object een unieke naam te geven. DOI maakt het fundamentele verschil tussen de URI (identifier) en URL (location), al gemaakt door Tim Berners Lee bij zijn ontwerp van het word wide web (www), helder. De DOI (of URI) is de naam die eeuwig uniek en onveranderlijk blijft, en de URL is de plek waar het object zich op dit moment bevindt. Het koppelen van naam aan adres wordt gedaan door een zogenaamde handle server, waar men eventuele “verhuizingen” van objecten naar een andere URL aan doorgeeft.

Wikipedia’s infobox, het blokje rechtsboven op vrijwel elke Wikipedia-pagina, vat de kernonderdelen van die pagina bondig samen op een manier die aansprekend is voor menselijke lezers, maar die ook automatisch door machines te lezen en, door de sterk toegepaste uniformiteit, te begrijpen is. Heel veel van het begrip dat Google lijkt te hebben van een gestelde zoekvraag komt doordat Google juist de kennis uit deze infoboxen gebruikt om zo goed mogelijk antwoord te geven. Een voorbeeld infobox met nuttige informatie over een Woo-dossier staat in figuur 1.

Hoe nu verder?
Wij delen de observatie van het Adviescollege ICT-toetsing dat de centralistische, van boven opgelegde, veel te rigide en daardoor ingewikkelde vorm van openbaarmaking via PLOOI niet werkt. In plaats daarvan stellen we een bottom-up manier voor, waarbij ieder bestuursorgaan doet wat ze kan. Niet zoals het nu gaat, ieder op haar eigen manier, maar ietsje meer gestuurd. Niet van boven, maar door de kracht van de drie genoemde webtechnologieën te benutten. Neem Spotify als voorbeeld, een platform dat in feite exact hetzelfde doet als PLOOI zou hebben moeten doen: informatie van de meest uiteenlopende aard, en vanuit de meest uiteenlopende plekken handig bij elkaar brengen.

Wij geloven sterk dat de wil en de wens er bij de bestuursorganen is om van de Woo een succes te maken. Dat is net zo’n wens als van een artiest of een podcastmaker om gehoord te worden. Iedere Woo-aanbieder wil uiteindelijk dat haar stukken gevonden en zo dus hergebruikt kunnen worden. Als er een platform, net als Spotify, bestaat dat dat mogelijk en makkelijk maakt, dan sluit elk bestuursorgaan zich daar als vanzelf bij aan. En stel je eens voor, burgers gaan playlists aanleggen over onderwerpen die hen aan het hart gaan, en die delen met medeburgers, ze kunnen automatisch updates krijgen over die onderwerpen, ze krijgen stukken aanbevolen die belangrijk voor hen zijn, ze worden actief betrokken bij hun eigen overheden. En was dat nu net niet het doel van de open overheid die we willen bereiken met de Woo?

Figuur 1: Voorbeeld van een infobox van een Woo-dossier.

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *