8 oktober 2014

Big data en privacy

image for Big data en privacy image

Dankzij big data kunnen we alles onderzoeken en voorspellingen doen, weten we alles van iedereen en kunnen we maatwerk leveren in commerciële en publieke dienstverlening. Aan big data danken we onze veiligheid: we kunnen beter opsporen, handhaven en controleren: uit de miljarden data die ons ter beschikking staan, kunnen we risico’s tijdig onderkennen. Maar maakt big data het beschermen van de privacy niet onmogelijk?

Dankzij big data kunnen we alles onderzoeken en voorspellingen doen, weten we alles van iedereen en kunnen we maatwerk leveren in commerciële en publieke dienstverlening. Aan big data danken we onze veiligheid: we kunnen beter opsporen, handhaven en controleren: uit de miljarden data die ons ter beschikking staan, kunnen we risico’s tijdig onderkennen. Maar maakt big data het beschermen van de privacy niet onmogelijk?

Big data en privacybescherming zijn twee hot topics waar de afgelopen maanden en jaren veel over is gezegd en geschreven. Big Data is ook de titel van het in 2013 verschenen boek van Viktor Mayer-Schönberger en Kenneth Cukier.1 Het haalde de bestsellerlijsten van de Wall Street Journal en The New York Times. De schrijvers zien big data als een revolutie die onze manier van leven, werken en denken voorgoed zal veranderen. En zij niet alleen. Wat zijn de mogelijkheden, maar ook, wat zijn de gevaren die het omgaan met big data met zich meebrengen? Het zijn vragen die menig informatieprofessional uit de slaap houden.

Data, open data, linked open data, big data en big geo data
Tim Berners-Lee, de grondlegger van het internet, heeft een ‘vijfsterrenmodel’ voorgesteld voor data. Met één ster: de informatie is beschikbaar op het internet, in welk formaat dan ook; met twee sterren: de informatie is online beschikbaar in een gestructureerd formaat, dat geschikt is voor automatisch hergebruik; met drie sterren: de informatie is online beschikbaar in een open bestandsformaat; met vier sterren: al het vorige, en bovendien wordt gebruikgemaakt van de open standaarden; met vijf sterren ten slotte: al het vorige, en bovendien wordt er naar data van anderen verwezen voor meer context van de data.

Met open data2 bedoelen wij gegevenssets die openbaar zijn; er berusten geen auteurs- of andere rechten van derden op; ze zijn bekostigd uit publieke middelen; ze worden beschikbaar gesteld voor de uitvoering van een (publieke) taak; de gegevenssets voldoen bij voorkeur aan ‘open standaarden’ en ze zijn bij voorkeur computerleesbaar.
Van linked open data is sprake wanneer open data op basis van hun betekenis (semantiek) aan elkaar gekoppeld kunnen worden.
We spreken van big data wanneer wordt gewerkt met datasets die te groot zijn om met reguliere data basemanagementsystemen onderhouden te worden. Volgens Gartner gaat het in elk geval om drie kenmerken: de hoeveelheid data, de snelheid waarmee de data binnenkomen en opgevraagd worden en de diversiteit van de data. Daarnaast speelt ook de mogelijkheid tot statistische analyse een belangrijke rol.
Van big geo data is sprake wanneer de datasets, die aan deze kenmerken voldoen, betrekking hebben op ruimtelijke locaties.

Historie
Big (geo) data is niets nieuws. Denk maar aan volkstellingen, die vonden al in de oudheid plaats. In het Evangelie volgens Lucas lezen wij in 2:1-7 dat in Judea een volkstelling plaats vond tijdens het bewind van Quirinius, rond het begin van onze jaartelling. De Bijbel rept niet van protesten wegens het schenden van de privacy. In het verleden, voor de komst van de rekenmachine en later, de computer, was de verwerking van alle gegevens een tijdrovende klus. De handmatige verwerking van de gegevens uit de volkstelling die in 1880 in de Verenigde Staten werd gehouden, waarbij slechts zes gegevens werden gevraagd, kostte acht jaar. Voor de Amerikaanse volkstelling van 1890 werd voor het eerst gebruik gemaakt van ponskaarten, een uitvinding van Herman Hollerith. 50.000 man werd ingezet om per burger 235 gegevens op te vragen. De gegevensverwerking kostte vervolgens slechts zes weken. In Nederland vond in 1971 de laatste Algemene Volkstelling plaats. Daar was veel protest tegen: uiteindelijk weigerden 35.000 mensen hun gegevens te laten registreren. Voor de geplande volkstelling van 1981 werd het aantal weigeraars op 26% geschat. Ook omdat – toen al – de gegevens al uit diverse gecombineerde bronnen beschikbaar waren, ging deze volkstelling niet door. In 1991 werd de wettelijk verplichte volkstelling afgeschaft. Sinds 2001 worden ‘virtuele volkstellingen’ gehouden, ontleend aan big data uit onder meer de GBA.

In 1839 werd marineofficier Matthew Maury afgekeurd en werd hij in het archief te werk gesteld. Daar verzamelde hij, uit scheepsjournaals en andere bronnen, 1,2 miljoen gegevens. Op basis van deze big data avant la lettre ontstond in 1855 The Physical Geography of the Sea, een standaardwerk over natuurlijke zeeroutes, over waar en wanneer de wind en de stromingen het gunstigst zijn. De efficiency van de zeilvaart en het aantal schipbreuken verminderde er aanzienlijk door. Het weergeven van locaties in gegevens kent overigens al een voorgeschiedenis die in de Griekse oudheid begint. De Vlaamse cartograaf Mercator verbeterde het systeem van de Grieken zodanig, dat omstreeks 1570 betrouwbare land- en zeekaarten gemaakt konden worden. Standaardisatie werd bereikt in 1940, in het Universal Transverse Mercator-systeem. Vandaag is elke vierkante centimeter op aarde met geo data te lokaliseren en met een IPv6-adres te adresseren. Het gaat om astronomische hoeveelheden data en IP-adressen. En over astronomie gesproken: de hoeveelheid data op dit terrein groeit in een werkelijk onvoorstelbaar tempo. Was in 2010 in het Sloan Digital Sky-programma in tien jaar tijd 140 Tb aan astronomische gegevens verzameld, in 2016 zal het volgende programma die hoeveelheid data elke vijf dagen verzamelen.

In de loop van de geschiedenis zijn al onnoemelijk veel data verzameld – en dagelijks komt daar een enorme hoeveelheid data bij. Bijvoorbeeld in de vorm van bijna een half miljard tweets per dag. In 2000 was nog maar een kwart van al die data in digitale vorm beschikbaar. In 2013 werd de omvang van wereld gegevensvoorraad geschat op 1.200 exabytes, waarvan minder dan twee procent in niet-digitale vorm.

De zegeningen van data fication
Nu we over zoveel gegevens beschikken, die met de hedendaagse computerkracht eenvoudig te verwerken en te analyseren zijn, is de Wet van de grote getallen geen vorm van kansberekening meer, maar toont zij absolute correlaties aan, immers ‘N’ – het aantal waarnemingen, de populatie – is nagenoeg oneindig groot. Nu geldt: N = alles. We hoeven geen genoegen meer te nemen met steekproeven en hun foutenmarges. Vraag niet langer naar het ‘waarom’, maar stel eenvoudig vast ‘dat’: ‘dat is goed genoeg.
Zo is er volgens Mayer en Cukier sprake van een fundamentele verandering in onze maatschappij en haar omgang met data, die zij de data fication van de samenleving noemen.

Data fication vinden we in alle onderdelen van de samenleving. Leger, politie en inlichtingendiensten maken op grote schaal gebruik van big data. Hoewel zij om begrijpelijke redenen zelden inzage geven in hun onderzoeken, staat het wel vast dat daardoor aanslagen werden verijdeld en criminelen konden worden opgespoord en opgepakt. Wetenschappers kunnen niet zonder big data. Philips en de TU Eindhoven steken miljoenen in big data-onderzoek voor medische researchdoeleinden. Google kon met big data de verspreiding van het H1N1-virus eerder en nauwkeuriger voorspellen dan de gezondheidsautoriteiten met hun traditionele statistische methoden. Belastingdiensten en uitkeringsinstanties maken met succes gebruik van big data om fraude op te sporen. Commerciële bedrijven verhandelen en gebruiken big data om consumenten gericht en op maat te informeren. Opinion leaders analyseren big data om de uitkomsten van verkiezingen en referenda te voorspellen. Sociaal-demografen putten uit big data-informatie voor onze beleidsmakers. En ook beursanalisten, verkeersleiders en meteorologen kunnen niet zonder big data. Data fication draagt bij aan een veilige, gezonde, welvarende, voorspelbare en gereguleerde samenleving.

Negatieve effecten, stigmatisering
Tot zover de zegeningen van big data. Nu de schaduwkanten. Wat gebeurt er als de waarnemingen zelf niet juist zijn; als onjuiste gegevens exponentieel met elkaar worden vermenigvuldigd of anderszins worden vermengd; of als zij in een irrelevante context worden geplaatst en er desalniettemin een absolute waarde aan wordt toegekend? Zie dan nog maar eens aan een veroordeling te ontkomen. Het overkwam, in eerste instantie, Lucia de Berk: statistici hadden berekend dat de kans dat zij níet schuldig zou zijn aan de onverklaarbare overlijdensgevallen, 1 op 342 miljoen zou zijn.
Het is duidelijk dat big data de privacy van individuele burgers ernstig in gevaar brengt. In hun eerder aangehaalde boek geven Mayer en Cukier daar vele voorbeelden van. American Online (AOL) stelde in 2006 twintig miljoen queries van 657.000 gebruikers voor onderzoek beschikbaar. De queries waren ontdaan van persoonsgegevens en IP-adressen. Toch kon binnen enkele dagen een individuele gebruiker met naam en toenaam worden geïdentificeerd. Dat gaf een flinke rel en voor de CIO van AOL betekende dat: Career Is Over. In hetzelfde jaar gaf het filmverhuurbedrijf Netflix honderd miljoen volkomen geanonimiseerde records van een half miljoen klanten vrij voor onderzoek. Het loofde een prijs van één miljoen dollar uit voor het team dat op basis daarvan consumentenvoorkeuren ten minste op tien procent nauwkeurig kon voorspellen. Dat lukte een onderzoeksteam van de Universiteit van Texas. Door de records met andere publieke gegevens te vergelijken konden individuele gebruikers en hun voorkeuren met 99% nauwkeurigheid worden geïdentificeerd. Wat je ook probeert, als je maar genoeg relatiegegevens hebt, is volledige anonimisering onmogelijk. En relatiegegevens zijn er, sinds internet en social media, in overvloed.

Ernstiger is het dat gebruik van big data kan leiden tot stigmatisering van hele wijken, bevolkings- en beroepsgroepen. Ook hiervan geven Mayer en Cukier vele voorbeelden.
In de meeste Amerikaanse staten gebruiken parole boards big data om te beslissen of iemand voorwaardelijk wordt vrijgelaten. Steeds meer Amerikaanse steden doen aan predictive policing: met big data wordt bepaald welke straten, groepen en individuen extra in de gaten gehouden worden.
In Nederland gebeurt dit ongetwijfeld ook, en zelfs op grote schaal. Ons land is zelfs wereldkampioen aftappen van telefoongesprekken. Zolang er goed toezicht op wordt gehouden en de data niet oneigenlijk worden gebruikt, is er nog weinig mis mee. Benauwender wordt het, wanneer de data worden gebruikt om preventief ingrijpen bij een neiging tot afwijkend of crimineel gedrag te legitimeren. Nog één stapje verder en mensen worden al gestraft voor iets dat zij nog niet gedaan hebben.

Op zoek naar een nieuwe balans
Na lezing van de eerste acht hoofdstukken van Mayers en Cukiers spraakmakende boek ziet de toekomst er voor de privacyzoekende burger slecht uit. Intussen zijn en worden in Europa en in Nederland al stappen gezet om de positie van de burger tegenover de dreigende datadictatuur te versterken. In het WRR rapport iOverheid3 wordt gepleit voor een (ombuds)instantie waar de burger die ‘verkeerd in het systeem zit’, terecht kan met een beroep op zijn – wettelijk nog te borgen – inzage- en correctierecht. De regelgeving rond de Wet bescherming persoonsgegevens wordt in deze kabinetsperiode, onder Brusselse druk, belangrijk aangescherpt. Het College bescherming persoonsgegevens publiceerde in februari 2013 aangescherpte ‘Richtsnoeren’. Het Europese Hof bepaalde onlangs dat iedereen het recht heeft om vergeten te worden op internet. Het Europese Parlement legde dit recht vast in de aangescherpte Data Protectie Verordening 2012/0011 (COD), die er onder meer in voorziet dat hoge boetes kunnen worden opgelegd, wanneer de privacy van burgers wordt geschonden. Google heeft al vast een dienst gelanceerd om de uitoefening van het ‘recht om vergeten te worden’ mogelijk te maken. Google neemt de dreiging van hoge boetes – tot een flink percentage van de jaaromzet – kennelijk serieus. Maar of haar dienst effectief zal zijn, staat nog te bezien. Big data verspreidt zich in onze verknoopte en vernetwerkte samenleving in alle denkbare richtingen: is het überhaupt nog mogelijk om te achterhalen waar iemands privacygevoelige gegevens terechtgekomen zouden kunnen zijn? Nog niet duidelijk is in hoeverre overheden en semi-overheden last zullen krijgen met burgers die privacygevoelige gegevens verwijderd willen krijgen. Als overheidsinstanties steeds zorgvuldig en binnen het wettelijke kader hebben gehandeld en precies hebben bijgehouden aan wie en op welke wettelijke grondslag gegevens zij aan anderen hebben verstrekt, dan hebben zij weinig méér te vrezen dan een flinke administratieve rompslomp.

Hoofdstuk 9 en 10 gaan over control en aanbevelingen voor stappen in de richting van een nieuwe balans tussen big data en privacybescherming. Mayer en Cukier voorzien een verschuiving van privacy by consent naar privacy through accountability, een verschuiving naar wettelijke regimes die de verantwoordelijkheid voor bescherming van de privacy beleggen bij de ge- en hergebruikers van gegevens. Zij zouden die gegevens niet hoeven te vernietigen na het eerste gebruik, maar zouden die mogen blijven gebruiken om er optimaal voordeel uit te halen – steeds onder de verantwoordelijkheid de privacy van de individuele burger niet te schenden. Resultaten van queries op grote dataverzamelingen zouden zodanig opgeblazen en diffuus gemaakt moeten worden dat het wel heel kostbaar en dus oninteressant wordt om ze te herleiden tot individuele objecten en subjecten. Op big data-algoritmes gebaseerde voorspellingen en beslissingen moeten volgens Mayer en Cukier worden omgeven met wettelijke eisen ten aanzien van transparantie, navolgbaarheid en falsificeerbaarheid.

Ten slotte waarschuwen zij tegen monopolisering en bepleiten zij een level playing field voor beheerders, ge- en hergebruikers van gegevens.

Professionaliteit en zorgvuldigheid
Gaat het inderdaad deze kant op en zal dit genoeg zijn voor vertrouwen in een gezonde verhouding tussen exploratie en exploitatie van big data enerzijds en bescherming van de individuele privacy en voorkoming van stigmatisering anderzijds? De tijd moet het leren. Hoe dan ook: informatieprofessionals moeten erop toezien dat beheerders, ge- en hergebruikers zorgvuldig met (ook documentaire) informatie omgaan en wettelijke voorschriften worden nageleefd. Garbage in, garbage out is op big data nog veel meer van toepassing dan op ‘gewone’ gegevens.
Edward Snowden heeft ons wakker geschud. We leven in een online wereld en we laten overal – soms heel slordig – onze sporen na. Die worden gevolgd: Big Brothers are watching us. We kunnen het hen lastig maken door berichten te versleutelen en door alert te zijn op datalekken. Als ook dat niet voldoende is, kunnen we kwetsbare gegevens voortaan beter offline bewaren op stand alone-computers of op papier. Keert de typemachine weer terug in de bestuurskamer?

kees.duijvelaar@gmail.com, Kees Duijvelaar redactielid Od.


1 Big Data, a revolution that will transform how we live, work and think; Londen, 2013. Door Viktor Mayer-Schönberger, professor of Internet governance and regulation aan het Internet Institute van de universiteit van Oxford, en Kenneth Cukier, data editor voor The Economist.
2 Zie ook het artikel van Eric Kokke, Od (2014) 5, pag. 12 e.v.
3 iOverheid, rapport nr. 86 van de Wetenschappelijke Raad voor het Regeringsbeleid, 2011.