, 6 maart 2018

Taxonomy Bootcamp London – basisprincipes

image for Taxonomy Bootcamp London – basisprincipes image Verslag

Systemen waarin terminologie en betekenisrelaties tussen begrippen worden vastgelegd hebben binnen de informatiedienstverlening een lange historie. Het inhoudelijk toegankelijk maken van documenten werd beschouwd als de kern van het vakgebied.

Systemen waarin terminologie en betekenisrelaties tussen begrippen worden vastgelegd hebben binnen de informatiedienstverlening een lange historie. Het inhoudelijk toegankelijk maken van documenten werd beschouwd als de kern van het vakgebied.

Revival
Nu bij de informatieverwerking en -ontsluiting steeds meer slimme, geautomatiseerde technieken kunnen worden ingezet (vaak overkoepelend aangeduid als ‘taaltechnologie’) zijn het juist deze systemen die – in een nieuw jasje gestoken – een revival beleven. Ze vormen namelijk de ontbrekende schakel tussen mens en machine en kunnen daarom bij de geautomatiseerde en intelligente verwerking van informatie een belangrijke functie vervullen.

Aan de hand van een aantal overkoepelende thema’s zal ik in deze en ook in de volgende editie van dit tijdschrift een persoonlijke impressie geven van de inhoud van de conferentie Taxonomy Bootcamp London. Daarbij gaat het natuurlijk om de semantische systemen zelf, maar ook om de slimme technologieën die steeds vaker worden ingezet voor analyse en ontsluiting van ongestructureerde informatie. Ook de kwaliteit van de onderliggende data is bij geautomatiseerde analyse en ontsluiting een essentieel aspect, en kwam tijdens de conferentie dan ook uitvoerig aan de orde.

Thema’s
Semantische systemen
Terminologie
Taxonomie, thesaurus, ontologie… de naamgeving is mede afhankelijk van de context waarin de term wordt gebruikt. Het woord ‘taxonomie’ vinden we vooral in de digitale wereld van IT en websitebouw. Dat is waarschijnlijk de reden dat de term dynamischer en meer eigentijds klinkt dan het woord ‘thesaurus’, dat zoals bekend zijn oorsprong vindt in de bibliotheekwereld.
Een taxonomie is niets anders dan een systematische ordening op grond van bepaalde criteria. Heather Hedden, bekend van haar boek The accidental taxonomist (2016), liet zien dat een thesaurus een meer geavanceerd instrument is dan een taxonomie. De hiërarchische relaties tussen de begrippen in een thesaurus zijn strakker gedefinieerd en bovendien biedt een thesaurus, anders dan een taxonomie, ruimte aan niet-hiërarchische relaties tussen begrippen (overkoepelend ‘associatieve relaties’ genoemd). Een taxonomie wordt meestal gebruikt voor minder omvangrijke, meer specifieke en meer concrete onderwerpen (bijvoorbeeld bedrijfsprocessen) dan een thesaurus. In feite is een thesaurus een specifieke vorm van een taxonomie, aldus Hedden.

Soorten taxonomieën
Hoe een taxonomie is opgebouwd, is sterk afhankelijk van het doel waarvoor deze is ontwikkeld. Er zijn dan ook verschillende soorten taxonomieën te onderscheiden. Een taxonomie die is ontwikkeld voor navigatie op een website heeft een ander doel dan een taxonomie die het aanbod van een webshop toegankelijk maakt. Daarom zien deze taxonomieën er anders uit en volgen ze verschillende principes. Formuleer dus altijd een duidelijk doel wanneer je een taxonomie ontwikkelt, zo luidt de boodschap.

Omdat binnen een organisatie sprake kan zijn van verschillende doelstellingen en functies zijn de sprekers het erover eens dat in de praktijk een combinatie van verschillende instrumenten het meest effectief is. Bijvoorbeeld een thesaurus voor classificatie van documenten, aangevuld met taxonomieën voor verschillende soorten data rond specifieke onderwerpen en bedrijfsprocessen. Daarnaast zijn er meestal nog andere gecontroleerde vocabulaires (platte lijsten) voor entiteiten als organisaties, projecten, etc. nodig.

Representatie en organisatie
Waren traditionele thesauri vooral bedoeld voor verwerking door mensen, de huidige semantische systemen dienen ook voor computersystemen leesbaar en verwerkbaar te zijn. Dat stelt eisen aan de representatie van de semantische systemen van vandaag. De standaard voor representatie van kennissystemen is RDF-SKOS (Simple Knowledge Organisation Systems). ‘Taxonomist’ Veronique Malaisé gaf een uitvoerige en inzichtelijke toelichting op het SKOSkeuze- en modelleringsproces bij Elsevier. Maar eerst moest de inhoud van het systeem duidelijk worden weergegeven. Joyce van Aalten liet zien hoe mindmapping daarbij goede diensten kan bewijzen.

Slimme technologie
Artificiële intelligentie en machine learning
Slimme technologieën zoals Artificiële Intelligentie (AI) en machine learning (ML) waren hot topics tijdens de conferentie. In zijn keynote ging Joseph Busch in op de relatie tussen beide en hij concludeerde daarbij dat AI en ML elkaar aanvullen. Machine learning zoekt naar patronen en samenhangen en leert op basis van ervaring die te identificeren. Dit proces is nogal tijdrovend en stelt hoge eisen aan het te verwerken materiaal. Het resultaat is bovendien niets minder dan een black box. Relatief nieuwe technieken uit de AI, zoals cognitive computing, neurale netwerken en vooral de meest recente ontwikkeling deep learning, zijn in dit verband veelbelovend. Dat geldt zeker wanneer deze technieken worden ingezet in combinatie met semantische systemen.

Andreas Blumauer, CEO van de Semantic Web Company, maakte in zijn presentatie inzichtelijk hoe taaltechnologie, semantische systemen en data in elkaar grijpen. Hij liet daarbij een gelaagd model zien van inhoud, metadata en semantiek. In de laatstgenoemde semantische laag is het kennismodel actief en hier bevinden zich dan ook de taxonomieën die classificatie van de inhoud ondersteunen. Voor een goed begrip van de data en voor het verhogen van de kwaliteit van zoekacties worden algoritmes uit de machine learning gecombineerd met regels van het kennismodel.

Impliciete kennis
Slimme semantische analyse maakt het inmiddels zelfs mogelijk om impliciete kennis uit teksten te extraheren. Hiertoe worden leerprincipes gecombineerd met taal- en kennismodellen. Andreas Blumauer gaf een indrukwekkend voorbeeld van het vinden van dit soort zogenaamde schaduwconcepten (shadow concepts). Daarbij gaat het om concepten die niet als zodanig in de tekst worden genoemd, maar wel een belangrijk onderwerp daarvan vormen. Dit benadert de manier waarop mensen achtergrondkennis gebruiken…

Mensen en machines
Steeds weer wordt duidelijk dat het juist de combinatie van mensen en machines is, die meerwaarde oplevert. In de openingskeynote stelde Madi Salomon dat intelligente, semantische systemen het mogelijk maken ‘menselijkheid’ in te bouwen in computersystemen. Mensen dragen bij door hun kennis expliciet te maken en deze in semantische systemen, zoals taxonomieën en thesauri, vast te leggen. Vervolgens dragen ze bij door die systemen en de resultaten die ze genereren te monitoren, het resultaat te beoordelen en parameters bij te stellen.
Technisch gesproken zijn de mogelijkheden van slimme technologie eindeloos. Naarmate machines steeds meer geavanceerde taken uit kunnen voeren, lopen we echter ook steeds vaker aan tegen de beperkingen van de techniek, die te maken hebben met het ontbreken van kennis en begrip. Systemen worden pas werkelijk effectief en pas echt bruikbaar als we een manier vinden om semantiek, betekenis en (basis)kennis in te bouwen.
Een human machine partnership, ook wel ‘hybride mens/machine-oplossing’ genoemd, zoals boven beschreven, is te zien als best of both worlds. Mensen worden slimmer, betoogde Tim Reamy, omdat routinematige en standaardtaken effectief en snel geautomatiseerd zijn uit te voeren. Daarmee komt er meer tijd voor andere, specifiek menselijke taken die daardoor rijker, gevarieerder en belangrijker worden.

Data, datakwaliteit, standaarden en modellen
Datakwaliteit
Anders dan mensen, die in staat zijn om geheel autonoom inconsistenties te signaleren en te corrigeren, zoeken machines slechts naar patronen. Intelligente systemen kunnen processen dan ook alleen op een adequate manier ondersteunen, wanneer de kwaliteit van de onderliggende data goed is. Wanneer de data onjuist en inconsistent zijn, zal de automatische verwerking daarvan niet het beoogde resultaat opleveren. Datakwaliteit is een eerste vereiste als het gaat om het succesvol toepassen van machine learning en taaltechnologie. Voordat het mogelijk is intelligente software op een productieve manier in te zetten, is het daarom noodzakelijk de kwaliteit van de data te vergroten door inconsistenties te corrigeren, informatiemodellen te beschrijven en toe te passen en gecontroleerde metadata vast te leggen. Machine learning is geen toverformule, betoogde Ahren Lehnert van Synaptica in zijn lezing getiteld ‘The Saviour Machine’. Juist met geautomatiseerde hulpmiddelen blijft het principe ‘garbage in is garbage out’ onverminderd van kracht.

Linked data
Bij de informatieverwerking gaat niet meer om het document als container van informatie. Het zijn steeds meer de data die centraal staan. Die data worden pas krachtig en bruikbaar door betekenisvolle verbindingen met andere data – linked data. Zo ontstaat als het ware een web van data en betekenis, het semantisch web. In een semantisch web worden relaties tussen informatieobjecten gedefinieerd die voorheen onzichtbaar waren. En juist daarbij spelen semantische systemen een belangrijke rol. Linked data en de toegankelijkheid van data (open data) waren dan ook belangrijke onderwerpen tijdens de conferentie. Praktische voorbeelden van wat het principe van linked en open data op kan leveren, waren onder meer afkomstig uit de muziekindustrie, van de Britse overheid (Gov.uk) en uit de uitgeverswereld (Elsevier).

Datamodellen en standaarden
Modellen en standaarden vormen in een op data gebaseerde wereld een kapstok die data en betekenis verankert. Daarom vormde dit onderliggende framework ook een belangrijk conferentiethema. Wanneer data en kennis uit verschillende bronnen met elkaar worden verbonden, is het essentieel dat de databronnen dezelfde taal spreken. De betekenis van begrippen, maar ook de notatie van de data, moet eenduidig zijn. Dat betekent dat voor de beschrijving van de data gemeenschappelijke standaarden en modellen dienen te worden gebruikt. Er zijn diverse algemene en domeinspecifiekestandaarden beschikbaar. We zien hoe deze hun werk doen bij de integratie van data uit verschillende bronnen in een interdisciplinaire/gedistribueerde omgeving (life sciences, universiteit van Oslo, UK data center).

Het vervolg
In dit eerste deel van mijn impressie ging het vooral om de basisprincipes en de technologische aspecten van semantische systemen. Maar hoe kunnen we die systemen in de praktijk toepassen? Ook dat aspect kwam uitvoerig aan de orde tijdens de TBCL2017. In het tweede deel ga ik in op de manier waarop mensen – en machines – gebruik maken van semantische systemen bij structureren, zoeken, ontdekken en verwerken van informatie.

N.aders@tweedekamer.nl, Nelleke Aders is specialist informatiesystemen bij de Dienst Informatie en Archief (DIA) van de Tweede Kamer der Staten Generaal.