26 oktober 2018

Machine learning

image for Machine learning image

Je kent het vast wel: je krijgt een e-mail binnen van een collega, laat deze in je Outlook staan en weken later wordt je gevraagd om je e-mails te archiveren. Welke e-mails komen in aanmerking voor langdurige bewaring? Sommige e-mails zijn duidelijk verbonden aan je werkzaamheden, andere berichten gaan over hoe je vakantie was. Is het niet veel handiger om automatisch al je werkgerelateerde (en dus mogelijk te bewaren) e-mails te scheiden van de overige e-mails? Toekomstmuziek? Niet helemaal.

Je kent het vast wel: je krijgt een e-mail binnen van een collega, laat deze in je Outlook staan en weken later wordt je gevraagd om je e-mails te archiveren. Welke e-mails komen in aanmerking voor langdurige bewaring? Sommige e-mails zijn duidelijk verbonden aan je werkzaamheden, andere berichten gaan over hoe je vakantie was. Is het niet veel handiger om automatisch al je werkgerelateerde (en dus mogelijk te bewaren) e-mails te scheiden van de overige e-mails? Toekomstmuziek? Niet helemaal.

Aanleiding
Door de digitalisering van de maatschappij zijn de manieren waarop we werken en met elkaar communiceren in de afgelopen jaren fundamenteel veranderd. Binnen de overheid zijn we nog niet goed ingespeeld op de effecten die deze digitalisering met zich meebrengt. Van Essen geeft een aantal voorbeelden. We verwerken gegevens en informatie nog steeds volgens analoge principes en methoden. Het vak informatiebeheer is in het leven geroepen om informatie te structuren en classificeren via dossiervorming. Door de ontwikkeling van de computer, het internet, cloud computing en BYOD (Bring Your Own Device) bevindt informatie zich niet langer op één plek en niet meer in één systeem. Dit leidt tot fragmentarische opslag en beheer van informatie. Informatie is niet meer uniek en wordt in allerlei processen (her)gebruikt. Het waarderen van informatie is daardoor lastiger geworden. Wat niet helpt is dat het waarderen van informatie in de meeste gevallen achteraf en handmatig gebeurt.

Het doel van de proof of concept (PoC) is meervoudig. Zo moet het patroon worden doorbroken van:

  • fragmentarische informatieopslag,
  • handmatig waarderen van informatie, en
  • het kwijtraken van overzicht en beheer van informatie.

Door middel van de eDiscovery-methodiek kunnen grote hoeveelheden data binnen de rijksoverheid worden doorzocht.1 Via de zogenoemde predictive coding kan deze data automatisch worden beoordeeld op vooraf ingestelde waarde.
Om deze methodiek te toetsen, focust de PoC zich op het automatisch classificeren van inkomende en uitgaande e-mail berichten. Een eerste stap in het schonen van grote hoeveelheden data.

Herken een e-mail
Tijdens het project is geprobeerd om zakelijk en privaat e-mailverkeer te herkennen en te categoriseren/labelen. Van Essen noemt dit ‘functionele e-mailberichten’: e-mail die (rijks)medewerkers uit hoofde van zijn of haar functie ontvangen of verzenden, en ‘ruis’: e-mail die niet behoort tot de taak van de medewerker. Als uitgangspunt voor deze definitie is de ‘Toolkit: Aanvulling op e-mailgedragslijn’ van de Baseline Informatiehuishouding Rijksoverheid gebruikt. Een functioneel e-mailbericht kan formeel zijn (bijvoorbeeld ontvangen vanuit een dienstpostbus) of informeel (werkgerelateerde communicatie tussen collega’s). Dit soort e-mails komt overigens niet per definitie in aanmerking voor langdurige bewaring, maar moeten wel een periode bewaard blijven ter verantwoording. Ruis bestaat niet alleen uit e-mails die voor privégebruik zijn verstuurd, maar ook uit informele communicatie tussen collega’s (‘hoe was je vakantie?’), dubbele informatie (cc-berichten), nieuwsbrieven, e-mails over uitstapjes en traktaties enzovoorts.

Stappenplan: Waarderen met behulp van machine learning
Figuur 1: Stappenplan – Waarderen met behulp van machine learning

Om e-mailverkeer zo vroeg mogelijk (het liefst op het moment van creatie) een waardering (classificatie) mee te geven, is een prototype ontwikkeld om te kijken of machine learning kan worden ingezet. Er is nu gekozen voor een scheiding functioneel/ruis, maar in theorie zou het ook ingezet kunnen worden bij andere categorieën.

Hoe is nu het prototype tot stand gekomen?
Er is gebruik gemaakt van zogenoemd supervised machine learning. Dit betekent dat een systeem getraind wordt met informatie die al een toegewezen klasse heeft (in dit geval functioneel of ruis). Er is volgens Van Essen geen ‘plug & play’ beschikbaar: het feit dat eerst 3500 e-mails handmatig moesten worden gecategoriseerd bewijst haar punt. Met behulp van deze voorbeelden gaat het systeem eigenschappen herkennen van beide klassen. Het leert zichzelf dus een onderscheid te maken tussen functionele en ruismails. Nu kunnen er ongeclassificeerde/ongelabelde emails van mede werkers aan het systeem ‘gevoed’ worden. Het systeem maakt een voorspelling op basis van wat het reeds geleerd heeft. De medewerkers krijgen vervolgens de voorspelling te zien en geven aan of het systeem de e-mail correct geclassificeerd heeft. Dit geven ze terug aan het systeem. Deze gegevens worden weer gebruikt als nieuwe trainings data. Dit is een iteratief proces. In de tweede fase van de PoC gaat het team met een groep medewerkers aan de slag om het systeem op deze manier verder te trainen.

Een trainingsset van 3500 e-mails is voor machine- learningbegrippen een kleine gegevensset. Wegens praktische en juridische overwegingen is ervoor gekozen het prototype maar met een kleine gegevensset te trainen:

  1. Het handmatig labelen van e-mails kost veel tijd. Er is veel inzet van medewerkers nodig, maar hun tijd is spaarzaam. Het controleren van de voorspelling kost veel minder tijd.
  2. Het prototype is ontwikkeld in een (goed beveiligde) externe lab-omgeving. Voor de eerste trainingsset is een gegevensbewerkingsovereenkomst gesloten met de betrokken partijen en de eigenaars van de e-mails. Hierin staat beschreven welke maatregelen en juridische afspraken er gemaakt moeten worden om de privacygevoelige gegevens te beschermen. Dit is te veel om voor alle medewerkers te doen. Meer e-mails betekent meer privacygevoelige gegevens en meer afspraken en overeenkomsten nodig.

Om verder rekening te houden met privacy issues en informatiebeveiliging, is ook gezorgd voor:

  1. het vastleggen van een gebruikersovereenkomst met maatregelen en juridische afspraken tussen het NA en ICTU;
  2. een overzicht van de eerder genoemde maatregelen die getroffen zijn (opgesteld door middel van het uitvoeren van een quickscan risicoanalyse en een Privacy Impact Assessment);
  3. een afgestemde procedure tussen het Nationaal Archief en de ICTU voor omgang met datalekken; en
  4. een informatieblad voor medewerkers van het Nationaal Archief over de genomen maatregelen en hun rechten.

De resultaten
In de aanloop naar en met het ontwikkelen van het prototype heeft het Nationaal Archief al veel geleerd. Het goed doorlopen van alle stappen met betrekking tot de privacy issues leverde een blauwdruk op voor het uitvoeren van experimenten en gegevensbewerking. Door zelf aan de slag te gaan met machine learning deed het Nationaal Archief kennis op over deze nieuwe technologie.

Van Essen: “Nadat het prototype is opgeleverd, zijn we aan de slag gegaan om deze te installeren op de Nationaal Archief- omgeving. Het idee is dat je op deze manier erachter komt wat er nodig is binnen je organisatie om aan te slag te gaan met de nieuwe technologie. Zowel qua infrastructuur, als organisatorisch en procesmatig. De installatie is onlangs gelukt, maar het was een weg van vallen en opstaan. De belangrijkste lessen van de PoC zijn:

  • Experimenteren is net zo belangrijk als het leveren van een eindproduct! Het prototype is ontwikkeld in een experiment, in ons geval in drie maanden. Een prototype wordt ontwikkeld om een gezamenlijk beeld (wat is er mogelijk?) te creëren. Door met een prototype te werken onderzoek je de (on)mogelijkheden van een bepaalde toepassing.
  • Je moet een duidelijk beeld hebben van de eisen die je stelt en de (technische) voorwaarden. Waar worden bijvoorbeeld de daadwerkelijke gegevens opgeslagen en hoe krijg je toegang tot deze gegevens?”

Hoe nu verder?
De PoC gaf dus veel gelegenheid tot experimenteren en heeft een aantal waardevolle resultaten opgeleverd. Hoe gaat het nu verder? “Na de succesvolle implementatie van het prototype kunnen we aan de slag om met een groep medewerkers het machine-learning-model verder te trainen”, aldus Van Essen. “Met het trainen hopen we dat het systeem de e-mails beter gaat beoordelen. Door toename van de trainingsdata kunnen we meer zeggen over de nauwkeurigheid van de verschillende algoritmen.”

“Omdat de medewerker het systeem zelf traint en direct resultaat ziet, hopen we dat dit het vertrouwen in het zelflerende systeem vergroot. Middels visualisaties krijgt de medewerker te zien waarop de verschillende algoritmen hun beslissingen hebben gebaseerd (waarom aan een bepaalde klasse toegewezen). We hopen dat dit bijdraagt aan de transparantie van de algoritmen en het vertrouwen in automatische classificatie door zelflerende systemen.”

In juni en juli werd er getraind. Hierna werd ook de tweede fase van het experiment afgerond. “In het vierde kwartaal van 2018 presenteren we het eindrapport met de resultaten. De nadruk in dit rapport zal liggen op de lessons learned, de (on)mogelijkheden van zelflerende systemen en de aanbevelingen. Daarnaast organiseren we in het najaar een bijeenkomst waarin we de resultaten willen bespreken”, aldus Van Essen.

“We kunnen nu al zeggen dat het experiment/de PoC succesvol is en dat we ons verder willen verdiepen op het inzetten van zelflerende systemen voor informatie management. We zijn dan ook al druk aan het nadenken hoe we verder willen. Hoe gaan we het uitbreiden en hoe zoeken we de samenwerking op met andere organisaties.”

Bart.Hekkert@nationaalarchief.nl, Bart Hekkert is redactielid van Od


Noot

1 Het Discovery-proces is een onderzoek, voorafgaande aan een rechtszaak, waar elke partij bewijsmateriaal van de andere partij kan verkrijgen. Het kan gaan om ondervraging, een verzoek tot het leveren van bepaalde informatie en/of documenten. Dit gebeurt door het indienen van een (informatie)verzoek. eDiscovery (of Electronic Discovery) kun je omschrijven als een proces wat je helpt bij het doorzoeken van grote hoeveelheden elektronische gegevens en/of informatie voor een specifiek doeleinde, vaak een juridisch onderzoek of rechtszaak.