14 juli 2017

The Deep Archive

image for The Deep Archive image

“De wereld van archiveren wordt nu beheerst door ‘selectie’, ‘depots’ en ‘documenten’. Ieder van deze begrippen moet op de schop (..).”

De informatieprofessional houdt zich dagelijks bezig met het ontsluiten van informatie en het selecteren, waarderen, bewaren en vernietigen van informatie.

“De wereld van archiveren wordt nu beheerst door ‘selectie’, ‘depots’ en ‘documenten’. Ieder van deze begrippen moet op de schop (..).”

De informatieprofessional houdt zich dagelijks bezig met het ontsluiten van informatie en het selecteren, waarderen, bewaren en vernietigen van informatie. Maar waarom gooien we bepaalde informatie weg, terwijl deze informatie niet alleen later belangrijk blijkt te zijn, maar ook in onze huidige tijd belangrijk kan zijn en ons leven gemakkelijker kan maken?

In 2016 organiseerde Waag Society samen met de Universiteit Utrecht en Archief2020 twee bootcamps
Centraal stond de nieuwe verhouding van de archiefsector ten aanzien van de digitalisering van de samenleving. In 2017 schreef Demeyer als eindresultaat van deze bootcamps een essay. In dit essay staan vragen centraal als ‘Hoe draagt de archieffunctie bij aan bedrijfsvoering, democratische verantwoording en cultuurhistorie in het digitale tijdperk?’, ‘Welke andere archiefspelers hebben het veld betreden?’ en ‘In welke mate hebben zij relevante context en informatie die nodig is om het verleden goed te begrijpen?’.

De wereld van archiveren op de schop
“Selectie is niet per definitie nodig nu de opslagmogelijkheden onbeperkt lijken te zijn. Een afgebakend depot heeft zijn beperkingen als je voor goede informatie de data nodig hebt van diverse organisaties, overheidsinstanties, particuliere en private partijen”, zo geeft Demeyer aan. “En daar waar tot dusver volstaan kon worden met documenten zullen de toekomstige gebruikers van ‘het’ archief behoefte hebben aan de oorspronkelijke data en algoritmes waar de publicaties op gebaseerd zijn.” Het feit dat wij als informatie professionals nu al keuzes maken over selectie, heeft grote gevolgen voor wat toekomstige generaties kunnen weten over hoe de overheid nu functioneert. Volgens de auteur zou selectie moeten worden overgelaten aan toekomstige gebruikers. Met haar toekomstige gereedschappen kan deze gebruiker “onze huidige maatschappelijke orde optimaal bevragen (..)”.
In plaats van het vernietigen van data, zoals voorgeschreven binnen de huidige archiefwetgeving, moeten data worden bewaard. Dit biedt uitdagingen voor de informatiemanager, maar ook kansen om toekomstige generaties te faciliteren in het doen van onderzoek naar het verleden.

Twee scenario’s
Met twee scenario’s geeft Demeyer inzicht in wat we kunnen verwachten als data altijd bewaard worden. Het uitgangspunt van beiden scenario’s is dat er een transparant, verantwoord en open datamanagement wordt toegepast, waarbij oog is voor toegankelijkheid en bruikbaarheid van data voor huidige en toekomstige belanghebbenden/ gebruikers. De scenario’s handelen over twee verschillende situaties.
In het eerste scenario doet Liza een promotieonderzoek in 2030 naar het verloop en de uiteindelijke marginalisatie van hart- en vaatziekten in de laatste 50 jaar. Via het Deep Archive doet Liza onderzoek. Gegevens vanaf 2020 geven een uitgebreid beeld over sport- en fitnessactiviteiten, van ziekte en dieet, rookgedrag en werkomstandigheden die miljoenen mensen hebben gedeeld via bijvoorbeeld sportapps, maar ook via social media.
In het volgende scenario wil Joost in 2022 zijn data-abonnement verlengen. Hieraan ten grondslag ligt de algemene uitgebreide data- en archiveringswet. Deze is haastig opgesteld als reactie op de opkomst, acceptatie en succes van het Deep Archive. “De wet biedt een juridisch kader voor het verzamelen en gebruiken van data tussen overheden, bedrijven, kennisinstellingen en burgers.” Joost deelt zijn gegevens voor algemeen wetenschappelijk onderzoek: “Zijn medische gegevens en data van z’n telefoon en activiteittrackers” worden hiervoor beschikbaar gesteld. En hij deelt dit om geld te besparen “door tijd en afstand van zijn hardloopactiviteiten te delen met de leverancier van de dienst.”

De digitale identiteit/databeschikking bepaalt in beide scenario’s de mate van toegankelijkheid van informatie: Liza is als onderzoeker verbonden met de universiteit. Dit gegeven is opgenomen in haar digitale identiteit: zij krijgt toegang tot alle medische gegevens (behalve gegevens die terug te leiden zijn naar individuen). Joost deelt zijn medische gegevens via zijn digitale identiteit voor algemeen wetenschappelijk onderzoek.

Voorwaarden voor het Deep Archive
Data moeten toegankelijk worden gemaakt via wat de auteur ‘The Deep Archive’ noemt. Dit is niet iets dat men kan vastpakken of een eenheid, maar eerder een bundeling van Kunstmatige Intelligentie en Algoritmes, verbonden met bronnen waar informatie is opgeslagen. Deze manier van dataopslag en -deling kan veel voordelen geven voor toekomstige individuen en onderzoekers. Er zijn echter wel voorwaarden aan verbonden volgens Demeyer.

Opslag
“De plek van opslag van data” wordt minder relevant, zolang deze maar veilig en bereikbaar is. Voorbeelden zijn, wat Demeyer omschrijft als: “redundant, distributed storage- systems”, zoals Bittorrent, waarbij data niet op een plek bewaard worden, maar via het delen beschikbaar worden gesteld voor andere gebruikers. Toegankelijkheid van data wordt bepaald door een combinatie van verschillende data tijdens het doen van onderzoek. Zo kan Liza als promovenda toegang krijgen tot medische gegevens voor haar onderzoek, maar krijgt zij daarbij bijvoorbeeld niet de namen te zien van de personen die de gegevens hebben geleverd.

Databeschikking
Vanaf de geboorte krijgt iedereen een databeschikking. Deze zal in eerste instantie door de ouders worden beheerd tot het moment van volwassenheid. In deze beschikking is vastgelegd wie er bij de persoonlijke en verzamelde gegevens kan en onder welke voorwaarden. Belangrijker nog is dat dit een digitale representatie van jezelf is. Deze representatie gaat de interactie aan, tijdens uitwisseling van data, met de representaties van personen, bedrijven en de overheid.

Rechten
De toegang tot data hangt af van de rechten die de gebruiker heeft via de digitale identiteit of databeschikking. “Deze verkrijg je, voor bepaalde tijd, door op het juiste moment de juiste serie eigenschappen aan te kunnen tonen”. Zo geef Demeyer aan dat Joost bij de arts komt als eigenaar van zijn medische identiteit. Liza’s eigenschap als onderzoeker bij de universiteit is voldoende om relevante, medische gegevens op te vragen.

Instellingen
Wetgevende, maatschappelijke en culturele krachten bepalen bij aanvang de standaardinstellingen van de databeschikking. Op wettelijk niveau bepalend zijn bijvoorbeeld het BSN-nummer, geboortedatum en data in verhouding met wetgeving. Cultureel gezien bepaalt de culturele en religieuze identiteit (gekozen door de ouders) de instelling van de beschikking. Uiteraard binnen de wettelijke grenzen. Als laatste kan ieder kiezen voor persoonlijke instellingen binnen de wettelijke kaders.

Een nadere beschouwing op het essay
Het essay van Demeyer kent een aantal begrippen: digitale identiteit en privacy, en eigendom en toegang. Ook zijn er nog veel organisatorische, maatschappelijke, technische en economische gevolgen door deze nieuwe manier van denken over dataopslag, -deling, en -gebruik.

Digitale identiteit (data beschikking) en privacy
Ieder persoon krijgt bij geboorte een eigen digitale identiteit. Via deze digitale representatie zijn mensen zelf in staat aan te geven welke gegevens gedeeld worden met andere individuen, bedrijven en de overheid. Deze beschikking van data bepaalt tevens wie er toegang heeft tot jouw gegevens. Dat is een wezenlijk andere manier van denken dan aangeven dat persoonlijke gegevens bij voorbaat onderdeel van de privacy zijn. Dit vraagt niet alleen een goede inkadering binnen (nieuwe) wetgeving, maar vraagt ook om een gesprek tussen record- en informatiemanagers met ICT en beleid (juristen, burgerzaken e.d.).

Eigendom en toegang
De invalshoek veranderd. Informatie is niet zozeer eigendom van een persoon of bijvoorbeeld overheidsinstantie. Eigendom verschuift naar toegankelijkheid. We zien dat dit vraagstuk nu al speelt bij de initiatiefwet Wet open overheid, waarin de overheid wordt opgeroepen actief informatie openbaar te maken. Huidige wetgeving omtrent privacy gaat uit van eigenaarschap van informatie. Als we dit omkeren en via een digitale identiteit kunnen bepalen wie toegang heeft tot welke informatie, dan is een groot deel van de privacyvraagstukken opgelost. Uit de scenario’s blijkt dat Liza helemaal geen behoefte heeft aan de persoonsnamen en NAW-gegevens van haar doelgroep. Zij is slechts geïnteresseerd in de medische gegevens die de doelgroep vrijwillig heeft gedeeld voor algemeen wetenschappelijk onderzoek (net zoals Joost heeft aangegeven). De gegevens die Liza tot haar beschikking heeft zijn daarmee ook niet te traceren naar individuen. De privacy, zoals we die nu interpreteren, is daarmee gewaarborgd.

Organisatorische veranderingen
Wat betekent dit voor de huidige record- en informatiespecialisten? Beheer van informatie vindt niet langer plaats door recordmanagers (tijdens de fase van creatie en gebruik) of door archivarissen (na de fase van overbrenging naar een e-depot). Overheidsinformatie kan op dezelfde plaats worden beheerd als op het moment van creatie. Het is namelijk niet langer belangrijk om fysiek data over te plaatsen (dit punt is overigens nu al actueel met vraagstukken over eigenaarschap en beheerpartij).
Daaruit volgt dat archivarissen en recordmanagers zich veel meer moeten gaan specialiseren in het beheer van data en het kunnen adviseren van archiefvormers hoe zij data het best beschikbaar open kunnen stellen.

Technische en sociaal/ politieke veranderingen
Technisch lijkt dataopslag en het linken van data op een schaal als Demeyer aangeeft een kwestie van tijd. De echte vraagstukken liggen op maatschappelijk gebied.
Vernietiging van data moet worden gestopt, daarvoor moet de huidige archiefwetgeving op de schop. Dit vraagt een herbezinning op het doel van de huidige wetgeving: waarom wordt bepaalde informatie eeuwig bewaard en andere informatie na een jaar vernietigd? Digitale identiteit en toegankelijkheid van informatie moet binnen wettelijke kaders worden gevat.
Vervolgens moeten er nieuwe discussies worden gevoerd omtrent privacy. Privacygevoeligheid staat tegenwoordig hoog op de agenda. Denk alleen al aan het recht op vergeten te worden bij Google, het WikiLeaks-dossiers, en, dichter bij huis, het ‘bonnetje van Teeven’.
Volgens Kevin Kelly, auteur over onder andere ontwikkelingen op het gebied van digitalisering, verschuift eigenaarschap ook richting toegankelijkheid van data. Wil je in 2030 door bedrijven, overheden en anderen als individu worden behandeld, dan moet je transparant zijn en veel gegevens delen. Je kunt als individu en als instantie informatie privé houden, maar je wordt dan generiek behandeld.2

Economische veranderingen
Het delen van informatie door individuen, bedrijven en de overheid heeft grote gevolgen voor onze huidige economie. Kevin Kelly noemt dit ‘sharing economy’. Zo zijn mensen bereid informatie en data te delen (mediabestanden, locaties, recentheid). Door middel van meewerken in communities worden deze gegevens weer gelabeld, en voorzien van trefwoorden. Zo kunnen anderen deze data vinden en gebruiken voor eigen datacreatie. Een volgende stap is samenwerken om samen te komen tot een product, waarbij individueel gewin bij aanvang nog niet groot is. Kelly geeft als voorbeeld: “Half of all web pages in the world today are hosted on more than 35 million servers running free Apache software, which is open source, community created.” Als laatste stap noemt Kelly collectivisme: het belang van de groep als hoogste goed. Samen informatie delen en creëren waarbij men niet beloond wordt met geld, maar beloond wordt door het leggen van verbinding tussen mensen en het toegankelijk maken van informatie. “They [individuen, red.] are ‘paid’ in the value of the communication and relations that emerge from 1.4 billion connected verifiable individuals.”3

Conclusie
Het essay van Tom Demeyer kan veel los maken binnen ons vakgebied, maar heeft ook grote gevolgen op maatschappelijk, politiek, organisatorisch en economisch gebied.
Het essay prikkelt en stimuleert tot nadenken hoe we informatie in de toekomst willen creëren, delen en opslaan/ bewaren. The Deep Archive is wat mij betreft een startpunt van vragen en discussie over hoe wij als informatieprofessionals dit willen, kunnen en moeten vormgeven samen met overheid, bedrijfsleven, en burger (zie het kader ‘Discussieer mee op BREED’).

Bart.Hekkert@nationaalarchief.nl, Bart Hekkert is redactielid van Od


Noten:

1 Tom Demeyer, The Deep Archive. Hoe huidige en toekomstige technologie het internet van data mogelijk maken, Waag Society, 2017.

2 Kevin Kelly, The Inevitable. Understanding the 12 technological forces that will shape our future, New York: Viking, 2016, p. 264. Zie ook Kelly’s presentatie naar aanleiding van dit boek op http://longnow.org/seminars/02016/jul/14/next-30-digital-years/.

3 Kevin Kelly, The Inevitable, pp. 137-144.

Discussieer mee op BREED
De redactie van Od nodigt onze lezers uit om via het BREED-netwerk mee te discussiëren over het essay naar aanleiding van een aantal vragen. Ga hiervoor naar breednetwerk.nlen volg de topic ‘Od-discussie naar aanleiding van The Deep Archive’:

  1. Het essay van Demeyer legt veel nadruk op de voordelen voor toekomstige gebruikers van archieven. Welke voordelen heeft de benadering van de auteur voor de informatieprofessional? 
  2. Hoe zal toekomstige wetgeving op het gebied van data-bewaring en data-deling er volgens u uit kunnen zien? 
  3. Welke uitdagingen liggen er op het gebied van ‘privacy van gegevens’? 

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *