, 24 maart 2021

Machine learning: zoekt en gij zult vinden

image for Machine learning: zoekt en gij zult vinden image Praktijk

Tekst Dennie Kamp

Waterschap Vechtstromen is begonnen met een pilot om machine learning te gebruiken om documenten te nterpreteren en classificeren. Dat heeft een eerste testversie van een applicatie opgeleverd waarmee informatiebeheer nu aan de slag gaat.

Dagelijks verspelen de medewerkers van waterschap Vechtstromen veel tijd met het zoeken naar de juiste informatie. Dit komt enerzijds door de diversiteit aan opslagmogelijkheden die we als organisatie bieden (en de onduidelijke richtlijnen en vrijheid binnen deze mogelijkheden). Het gaat om de vraag: waar moet ik zoeken? Anderzijds is informatie slecht vindbaar doordat we informatie niet goed registreren en/of opslaan. Hierdoor is die informatie moeilijker of niet vindbaar voor anderen (of soms zelfs jezelf). Dit beperkt vervolgens de mogelijkheden hoe je kunt/moet zoeken om informatie terug te vinden.

Een groot gedeelte van onze informatie moeten we als overheidsorganisatie verplicht archiveren, soms zelfs tot in de lengte van dagen. Dit doen we in ons archiveringssysteem. En net als bijna alles tegenwoordig is dit een selfservicesysteem: je archiveert je eigen documenten, want jij weet het beste waar het over gaat. Ook hier ontstaat een tweede probleem. Het systeem is gebruiksonvriendelijk, veel te tijdrovend en mensen hebben er te weinig belang bij om al hun documenten te archiveren. Met als gevolg dat archivering niet plaatsvindt, of op een manier waardoor documenten niet of slecht terug te vinden zijn.

Oplossing
Met de vraag waar je je gegevens opslaat, bemoeien we ons niet (tenzij iemand met een goede vraag bij ons komt). Hier lopen initiatieven voor, zoals momenteel de implementatie van Microsoft Teams. Dat is anders bij het tweede probleem. Daaraan kunnen we een bijdrage leveren door een gebruiksvriendelijke schil om ons archiefsysteem heen te bouwen met behulp van OutSystems, gebruikmakend van machine learning voor het interpreteren en classificeren van documenten.

Resultaten
Samen met onze afdeling informatiebeheer zijn we daarom een pilot gestart die zich in eerste instantie richt op projectdocumentatie. Op dat terrein ligt er namelijk een hoop achterstallig archiefwerk en dat maakt de scope wat beperkter. Als we goede resultaten kunnen boeken, biedt dat mogelijkheden voor andere gebieden. Verder hebben we besloten om de koppeling met ons archiefsysteem niet mee te nemen. Hiervoor zijn bestaande en bewezen koppelmogelijkheden. Voor ons valt hier dus niets te bewijzen en onderzoeken. Samen met Wil Mettes en Anne-Jan Wijnstok van onze afdeling informatiebeheer hebben we in kaart gebracht wat de problemen precies waren en welke oplossingsrichting we op wilden gaan. Uiteindelijk kwamen we uit op de afbeelding hierboven als oplossing.

Hierna hebben wij ons als innovatielab verdiept in de NLP (Natural Language Processing) en de bestaande mogelijkheden daarbij. Hoe leer je een computermodel grote hoeveelheden taal te verwerken en te analyseren? Veel partijen zoals Microsoft, Google en AWS bieden hiervoor al modellen aan. Geen enkele partij echter voor de Nederlandse taal. Toevallig kwamen we in de tussentijd in contact met ilionx. Zij waren bezig met het ontwikkelen van een model toegespitst op de Nederlandse taal. Vanaf dat moment zijn we samen met hen opgetrokken en hebben we hun model verder getraind met onze organisatiespecifieke documenten.

Terwijl Ilionx bezig ging met het verder ontwikkelen van het machine learning-model, zijn wij zelf verder gegaan aan het bouwen van een applicatie die eenvoudig en snel is te gebruiken en op de juiste momenten het machine learning-model van ilionx aanroept.

Resultaten
We hebben momenteel een eerste testversie opgeleverd aan onze collega’s van informatiebeheer. Zij zijn de applicatie uitgebreid aan het testen en aan de hand daarvan gaan we bepalen hoe we verder gaan. Momenteel kunnen we nog geen definitieve conclusies trekken. Wel kunnen we inmiddels zeggen dat er wat betreft classificatie nog ruimte is voor verbetering, maar dat ook goed te verklaren is waarom. Het model is namelijk getraind met (te) weinig gegevens. Zo hadden 6 van de 26 projectmappen die we aangeleverd hebben gekregen geen enkel document, 5 van de 26 te weinig documenten (minder dan 25) en leken enkele projectmappen vervuild met verkeerde documenten. Dit heeft als gevolg dat het model deze mappen niet of niet goed kan voorspellen. We hebben de applicatie echter zo ingericht dat de controles over de documenten, die nu in de testfase dus ook plaats gaan vinden, als feedback teruggestuurd worden naar het model. Zo blijft het model bijleren en zullen de voorspellingen steeds beter worden. Van de mappen waar wel genoeg documenten in stonden wordt nu ongeveer 81 procent goed voorspeld.

Met deze wetenschap kan er nu uitgebreid worden getest en vervolgens zullen we samen met onze collega’s bepalen hoe en of we dit verder doorontwikkelen voor de organisatie. Wat ons en onze partner ilionx betreft zijn er in ieder geval nog mogelijkheden genoeg om te verkennen!