1 november 2019

Op zoek naar de ‘single source of truth’

image for Op zoek naar de ‘single source of truth’ image

Hoe gegevens uit systemen – variërend van de cloud tot de menselijke hersenen – worden opgeslagen en opgehaald is fascinerend. De evolutie van het informatiebeheer tijdens de exponentiële groei van de hoeveelheid gegevens, weerspiegelt onze voortdurende zoektocht naar kennis.

Hoe gegevens uit systemen – variërend van de cloud tot de menselijke hersenen – worden opgeslagen en opgehaald is fascinerend. De evolutie van het informatiebeheer tijdens de exponentiële groei van de hoeveelheid gegevens, weerspiegelt onze voortdurende zoektocht naar kennis.

Categorisering is subjectief
We gaan er vaak van uit dat we allemaal op dezelfde manier denken, en dat we een bepaalde set informatie allemaal op dezelfde manier zouden opdelen in vergelijkbare groepen. Dat is echter zelden het geval. Voor een deel is dat het gevolg van het feit dat we gegevens allemaal op een andere manier verwerken, maar het is ook een gevolg van de gegevens zelf. Gegevens hebben vaak meerdere facetten en verschillende mensen zullen aan die facetten verschillende prioriteiten geven.

Denk bijvoorbeeld aan een ouderwets informatiesysteem op basis van papier. Elke beheerder kon zelf kiezen op basis van welke facetten gegevens werden opgeslagen: de ene deelde documenten in op auteur en de ander op het project waarop een document betrekking had. Waarschijnlijk zou elk van die beheerders op basis van zijn of haar primaire bedrijfstaak een eigenschap kiezen. Zo zou een projectbeheerder bijvoorbeeld voor het project hebben gekozen. Het zijn allebei logische keuzes, maar ze hebben slechts nut voor de beheerder die ze gekozen heeft.

In de papieren wereld werkte afdelingsspecifieke opslag omdat het bedrijf meerdere kopieën van hetzelfde document aanhield, zodat elk bedrijfsonderdeel effectief kon werken – en daarmee de fotokopieerindustrie gaande hield.

Single source of truth
In de digitale wereld zijn documenten weliswaar anders, maar de uitdaging om gegevens zodanig te organiseren dat ze terug zijn te vinden, blijft hetzelfde. En naast de sterk verbeterde kwaliteit van content, is er nog een essentieel verschil met betrekking tot informatiebeheer: de behoefte aan een ‘single source of truth’, oftewel één gezaghebbende informatiebron. Als die gezaghebbende bron ontbreekt, leidt dat tot verdubbeling van inspanning, inconsistente bedrijfsbeslissingen en soms zelfs een stagnerende informatievoorziening, waardoor een bedrijf, organisatie of publiek figuur zoals een minister financiële schade of reputatieschade kan lijden doordat gegevens niet gevonden kunnen worden.

Naar aanleiding van die behoefte aan één gezaghebbende informatiebron en het voorkomen van een stagnerende informatievoorziening wordt voor het informatiebeheer meestal of een bedrijfsbreed plan voor informatieopslag geïmplementeerd of een bedrijfsbrede zoekfunctie met taxonomische categorisatie. Het probleem met de categorisatie van gegevens volgens een bepaald plan of een bepaalde taxonomie is dat dit sterk lijkt op het papieren informatiesysteem: een veel te algemene oplossing die voortdurend leidt tot discussies over wiens bedrijfsproces bepalend is voor de opslag- en categorisatiestructuur. Omdat die structuren meestal worden opgezet door de afdeling informatiebeheer, wordt vaak prioriteit gegeven aan de gegevensaspecten die aansluiten op de behoeften van die afdeling, zodat er structuren ontstaan die het gegevensbeheer ondersteunen, maar niet passen bij de bestaande bedrijfsprocessen.

Maar een zoekfunctie zou toch een oplossing voor zulke problemen moeten zijn? Nagaan of een document al bestaat, ongeacht hoe het is gecategoriseerd of in welke map het is opgeslagen, lijkt een ideale taak voor een bedrijfsbrede zoekfunctie. Maar als gebruikers daar niet gelukkig mee zijn of deze niet gebruiken, hoe komt dat dan?

Bedrijfsbrede zoekmachines niet optimaal
Als die vraag wordt gesteld, slaken de meeste zakelijke gebruikers eerst een diepe zucht, waarna ze zullen uitweiden over een teleurstellend proces, waarbij zoektermen worden ingetypt en er vervolgens allemaal resultaten verschijnen die niet relevant zijn. Daarna volgt het bladeren door de resultaten om het item te vinden of het invoeren van nog meer zoektermen om de zoekmachine duidelijk te maken waarnaar men op zoek is. Voor gebruikers lijkt het vaak net alsof zij één taal spreken en de zoekmachine een andere.

Bedrijfsbrede zoekmachines werken al tientallen jaren zo, en gebruikers hebben zich er bijna bij neergelegd. Dat staat in groot contrast met de ervaring met zoekmachines die gebruikers buiten hun werk om hebben en die een stuk intuïtiever zijn. In de werkomgeving blijft zoeken een arbeidsintensief proces, waarbij een eenvoudige en te verwachten respons als ‘Bedoelde je…?’ iets uit een andere wereld lijkt.

Als de zoekfunctie een gezaghebbende informatiebron moet zijn, moet deze met zijn tijd meegaan. Hij moet dezelfde taal spreken als de gebruiker en een stuk interactiever worden. Maar als dat zo eenvoudig is, waarom is dat dan niet allang realiteit? De huidige zoektechnologie maakt gebruik van trefwoorden. Zoeken op trefwoorden bestaat al sinds het einde van de jaren 80. Daarbij worden alle woorden uit het document lineair en los van elkaar beschouwd en wordt naar elke term afzonderlijk gezocht. Er is geen oog voor grammaticale constructies zoals zinnen of alinea’s en de context van de tekst wordt volkomen genegeerd. Er worden lange lijsten met losse woorden geïndexeerd en doorzoekbaar gemaakt. Als je zoekt op basis van trefwoorden is de enige vraag die je stelt: ‘Staan deze woorden ergens in dit document?’ Dat verklaart weliswaar irrelevante zoekresultaten, maar het wordt er niet minder frustrerend door.

Waarom werkt Google dan wel?
Veel mensen vragen zich af waarom de zoekfunctie niet meer op Google kan lijken. Google is in feite ook een zoekmachine op basis van trefwoorden, maar dankzij de gigantische aantallen gebruikers die op de resultaten klikken beschikt Google over een zeer waardevolle set aanvullende informatie. In de loop van de tijd heeft Google verbanden kunnen leggen tussen de zoektermen en de documenten waarop gebruikers klikken. Bij alleen maar zoeken op trefwoorden worden die verbanden juist verwijderd. Bij een bedrijfszoekfunctie is zoiets niet mogelijk, omdat de periode waarin het systeem ‘leert’ omgekeerd evenredig is met het aantal gebruikers. Tenzij een bedrijf miljoenen gebruikers heeft, zal het veel tijd kosten om even accuraat te worden als Google.

Een nieuwe generatie zoekmachines probeert voor die problemen een oplossing te bieden. Methodes voor machinaal leren en kunstmatige intelligentie worden steeds vaker toegepast om het soort informatie op te bouwen waarover Google beschikt. Het onderzoek hiernaar is interessant, maar tot nu toe is er weinig vooruitgang geboekt. Eén van de problemen met dit soort technologie is herhaalbaarheid.

Wie een bedrijfszoekmachine gebruikt om naleving te onderzoeken of een bedrijfsproces aan te drijven, heeft resultaten nodig die consistent en herhaalbaar zijn, maar een kenmerk van machinaal leren en kunstmatige intelligentie is nu juist dat het inzicht in gegevens voortdurend toeneemt en verandert. Eén mogelijke benadering is om inzicht in de content te verkrijgen op dezelfde manier als waarop mensen dat doen: door de documenten te lezen en die kennis om te zetten in een doorzoekbaar geheugenmodel. In de neurowetenschappen wordt de studie van de manier waarop we kennis opslaan en ophalen ‘metacognitie’ genoemd. Als we de principes daarvan toepassen op het zoekprobleem, komen we uit op een andere benadering, waarbij een betere relatie tussen mensen en gegevens ontstaat.

Contextueel zoeken
Laten we daarom nog eens kijken naar het begin van het proces. Als we van een document kopjes, zinnen en alinea’s kunnen begrijpen, begrijpen we de fysieke structuur van het document. Vervolgens kunnen we daarop context toepassen. Als we leren lezen, leren we over context. Een context kan van de ene op de andere zin of alinea gelijk blijven, maar het komt zelden voor dat op een heel document een en dezelfde context van toepassing is. Context is een logische laag bovenop de fysieke structuur van een document.

Weten of een woord dezelfde context heeft als een ander woord, heeft veel meer metacognitieve waarde dan alleen weten dat beide woorden in hetzelfde document staan. Als wij informatie lezen, houden we daar instinctief rekening mee, maar tot nu toe is het nauwelijks toegepast bij automatische gegevensverwerking. Woorden binnen een context zoeken in plaats van losse woorden binnen een document leidt tot een hoger detailniveau en relevantie dan wanneer we zoeken op trefwoorden. Contextueel zoeken is de eerste stap van onze metacognitieve reis. Nu kunnen we gebruikers passende interactiviteit bieden. Het is nu mogelijk om contextueel relevante alternatieven en opties automatisch te genereren en vragen te stellen als: ‘U zocht naar “mobiele telefoon” – bedoelde u in de context van beleid?’ Een gebruiker van contextueel zoeken zal het gevoel hebben dat de zoekmachine dezelfde taal spreekt, dankzij relevante interacties en resultaten die vergelijkbaar zijn met wat men van buiten het werk gewend is.

Met deze moderne zoekmethodes komt de gezaghebbende informatiebron die aan alle wetten en regels voldoet eindelijk binnen handbereik, in plaats van dat de zoekfunctie hiervoor een belemmering vormt. Wat mij betreft een mooie stip aan de horizon.


Graham Morisson
Oprichter en algemeen directeur van Coade3, een start-up die zich richt op het aanbieden van toepassingen voor contextueel zoeken