, 1 november 2019

Kuddegedrag

image for Kuddegedrag image Opinie

Het grootste verschil tussen een traditioneel datawarehouse en een modern data lake is dat een datawarehouse gevuld is met gestructureerde data. Het data lake daarentegen bevat ruwe, ongestructureerde data die in het oorspronkelijke formaat is opgeslagen. Het behouden van deze detailinformatie kan handig zijn. Maar net als in een echt meer kun je in een data lake verdrinken. Bovendien mag je volgens de nieuwste privacywetgeving (AVG) niet zomaar allerlei vertrouwelijke persoonsinformatie opslaan.

Het grootste verschil tussen een traditioneel datawarehouse en een modern data lake is dat een datawarehouse gevuld is met gestructureerde data. Het data lake daarentegen bevat ruwe, ongestructureerde data die in het oorspronkelijke formaat is opgeslagen. Het behouden van deze detailinformatie kan handig zijn. Maar net als in een echt meer kun je in een data lake verdrinken. Bovendien mag je volgens de nieuwste privacywetgeving (AVG) niet zomaar allerlei vertrouwelijke persoonsinformatie opslaan.

Mensen zijn niet alleen kuddedieren, maar ook verstokte verzamelaars. Gestructureerde, semigestructureerde en ongestructureerde data: alles gooien ze in het data lake. Je begint met een helder meer en eindigt met een zompig moeras.

Veel mensen denken ten onrechte dat meer (data) altijd beter is. Het inrichten van een data lake is echter nooit een doel op zich. Dataopslag kost ondanks de forse prijsdalingen in de storagewereld nog steeds veel geld. Bovendien kun je een data lake heel makkelijk vullen, maar de juiste data in de juiste vorm naar boven halen, is een ander verhaal. Voor de data-analyse heb je ook dure data scientists nodig en die zijn schaars.

Kortom: er zijn misschien wel meer redenen te bedenken waarom je juist niét zou moeten investeren in een data lake. Leveranciers hoor je daar bijna nooit over. Onafhankelijke consultants wel. Misschien is een ‘gewone’ big database wel afdoende …

Blijf dus kritisch. Voor je het weet zit je opgescheept met een stuwmeer aan data waarvoor niemand in de organisatie zich verantwoordelijk voelt of enig gevoel bij heeft. Het meer ligt er rimpelloos bij. De adoptie stagneert en de investering rendeert niet. Data moet eerst door de mens gaan voordat er een vonk opgloeit. Dat is een noodzakelijke voorwaarde voordat mensen bewegen richting een verbeterdoel. Tot slot: neem elke beslissing met je hoofd, hart én ziel.


Daan van Beek
Eindbaas Passionned Group & auteur van De intelligente organisatie en Datacratisch werken