Een dure les!

Het willen aanleggen van een data lake is een van ieder gezond verstand gespeende reactie van organisaties omdat ze blijkbaar hun informatiemanagement niet op orde hebben. We hebben hele goede informatiemanagementtechnologie beschikbaar om (automatisch) data op te nemen in onze beschikbare opslagsystemen, om het te kunnen classificeren, metadateren, contextualiseren, beschikbaar stellen, bewaren en (op zijn tijd) te vernietigen. Data verliest snel waarde, blijft niet actueel en het is de vraag wat de zin is om het te bewaren en te analyseren om iets te weten te komen waar je organisatorisch eigenlijk niets mee kunt.

Kwaliteit van data
Om nog maar niet te spreken over de kwaliteit van de meeste ‘ruwe’ data die een data lake in geloodst wordt. Is die data wel betrouwbaar, volledig, integer, authentiek? We weten het eigenlijk niet. Wat wel bekend is, is dat ongeveer 30% van de data die organisaties in hun systemen opnemen niet aan die criteria van kwaliteit kan voldoen. We weten niet waar die data vandaan komt, wie die data heeft gegenereerd en hoe die data is bewerkt. De context van ontstaan en verwerking is onbekend. We hebben geen zicht op de samenstelling van de data, of ze gemanipuleerd is, of we ze moeten bewaren of vernietigen, of er privacy-implicaties zijn, en ga zo maar door!

Ik weet dat de enorme vloed aan data die op organisaties afkomt informatiemanagement moeilijk maakt. Maar data dan maar ongestructureerd, in verschillende oorspronkelijke formaten en volledig gespeend van context in een stuwmeer van data storten en er maar op vertrouwen dat algoritmes, kunstmatige intelligentie en machine learning het probleem van het vinden van de juiste informatie op het juiste moment oplossen, geeft blijk van enorme naïviteit. De ervaring leert dat dat niet gebeurt.

De beperkingen van algoritmes
Algoritmes zijn uitermate subjectief. Ze kunnen veel, maar niet objectief zoeken en vinden. De antwoorden (of voorspellingen) zijn (bewust of onbewust) gepredestineerd door de ontwikkelaar van het algoritme. Zo is in de Verenigde Staten gebleken dat gebruikte algoritmes in de rechterlijke macht de bestaande discriminatie versterkten. Datagedreven rechtspraak blijkt veel subjectiever te zijn dan de traditionele rechtspraak, omdat gedrag en emotie volledig worden uitgesloten. In het stationskwartier van Eindhoven zien we bij de toepassing van ‘slimme’ technologie eenzelfde verschijnsel optreden, waarbij individuen door technologie als onderdeel van een groep worden geclassificeerd en op basis daarvan worden behandeld. Zonder de zekerheid te hebben dat dat individu daadwerkelijk tot de gekozen groep behoort! Het is ook bekend dat algoritmes zijn ontworpen om het vooraf gewenste antwoord te ‘vinden’, dat vervolgens als ‘waarheid’ wordt aangenomen.

Misplaatst vertrouwen
Een data lake is een uiting van ongebreideld vertrouwen in ‘slimme’ technologie. De technologie echter is een ‘black box’. We weten niet wat daarin gebeurt. We kennen het algoritme niet. We weten niet of alle data in het ‘lake’ wel betrokken wordt bij de analyse. We weten niet wat het doel is en we weten ook niet wie er eigenlijk verantwoordelijk voor is. Misschien willen we dat ook wel niet weten. Maar blijkbaar is dat ‘niet weten’ voldoende om een miljoeneninvestering te doen in technologie en implementatie. Net als bij de blockchain, waarbij gebleken is dat uiteindelijk van alle gestarte projecten vanaf 2015 wereldwijd meer dan 80% ‘mislukt’ is. Maar er is wel veel geleerd, zo wordt verzekerd. Dat is wel een dure les!!

Dr. G.J. van Bussel
Directeur van Van Bussel Document Services en docentonderzoeker aan de Hogeschool van Amsterdam

Geef een reactie Reactie annuleren

Vacatures

Magazine