Tekst: Pieter Verbeek
Pieter Verbeek is freelancejournalist
Beeld: Shutterstock
De Nederlandse overheid beheert haar informatie, te veel in bestandsformaten die vooral zijn ontworpen voor printers en niet voor computers. Denk aan Word en pdf. Het lijkt onschuldig, maar leidt tot hoge kosten, lage vindbaarheid, enorme duplicatie in datacenters en een groeiende afhankelijkheid van brute kracht AI om alsnog betekenis uit documenten te peuteren. ‘Het is alsof we met een bulldozer een huis binnen willen terwijl we de sleutel hebben.’
Wat er mis kan gaan als informatie niet vindbaar, verbonden of betrouwbaar is, hebben verschillende incidenten de afgelopen jaren laten zien. Zo lag er in 2017 al een memo over de ernstige structurele problemen rondom de kinderopvangtoeslag. Die kwam pas naar boven tijdens de parlementaire enquête. Als die memo niet in een Word of pdf maar in een machine-uitleesbaar bestand had gestaan, was het binnen een kwartier gevonden, stelt technologiefilosoof en initiatiefnemer van de pilot Informatie Autonomie Martijn Aslander. ‘Word is het slechts denkbare opslagformaat voor informatie, en is primair bedoeld voor printers, niet voor computers en ook niet voor mensen,’ stelt hij. Veel hedendaagse informatieproblemen zijn daarnaar terug te leiden.
Nieuwe informatieoplossing
Eind oktober is de pilot Informatie Autonomie gestart om te werken aan deze ongemakkelijke waarheid. De pilot, die loopt tot eind maart, onderzoekt of het mogelijk is om voor slechts 1 à 2 procent van de huidige kosten een informatieoplossing te realiseren, die 70 tot 80 procent van de functionaliteit van systemen als SharePoint biedt. Maar dan met minder grote datavolumes, betere datakwaliteit, veiligere lokale opslag, betere machineleesbaarheid en hogere gebruikerstevredenheid. De pilot kijkt of Markdown, een lichtgewicht tekstformaat uit de familie van platte tekstbestanden, een volwaardig alternatief kan zijn voor dominante kantoorformaten als Word en pdf bij 80 procent van de dagelijkse informatiebehoefte van eindgebruikers. Een van de gevolgen van de keuze voor opslagformaten als Word en pdf is de explosieve groei van opslagvolumes binnen datacenters. Aslander: ‘80 Procent van de datacenters bevatten data die duplicaten zijn. Er staat meer PowerPoint op de Nederlandse datacenters dan porno. Dat zijn kopieën van kopieën van kopieën in back-ups. Dat is allemaal ballast. En om te kijken wat er in al die informatie staat, is er zware AI-capaciteit nodig. Het is alsof we met een bulldozer proberen een huis binnen te gaan terwijl we de sleutel hebben.’
*Dit is het eerste deel van een artikel uit Od 50: Einde van het document. Verder lezen? Meld je dan hier aan voor een abonnement of vraag een gratis presentexemplaar op.