, 21 januari 2019

Algoritmes alleen werken niet

image for Algoritmes alleen werken niet image Verslag

 

 

Het werd al eerder geconstateerd: systemen voor het organiseren en toegankelijk maken van kennis, kernachtig aangeduid met de term Knowledge Organization Systems (KOS) – geen goed Nederlandstalig equivalent beschikbaar – zitten in de lift. Dit soort systemen hebben hun wortels in de aloude classificatiesystemen uit de bibliotheekwereld. Nu worden ze gezien als noodzakelijke aanvulling voor IT-gebaseerde oplossingen om de toegankelijkheid van het steeds sneller uitbreidende informatieaanbod te verbeteren. Het principe is dat ‘KOS-sen’ het mogelijk maken menselijke intelligentie en ‘common sense’ in IT-systemen in te bouwen.

De bootcamp bestond uit workshops over taxonomiebouw, kennisrepresentatie en text analytics, gevolgd door keynotes, plenaire sessies en een keuze uit zo’n veertig presentaties verdeeld over twee tracks – het was een vol programma. In dit verslag heb ik dan ook geen volledigheid nagestreefd, maar, als ‘echte’ taxonomist, de informatie ondergebracht onder een aantal mij aansprekende thema’s.

Waarheid, betrouwbaarheid en context
De openingskeynote gaat over aandachtspunten voor een ‘goede informatieomgeving’. Waarheid en betrouwbaarheid van informatie neemt daarbij een prominente plaats in. Aan de hand van het Russische propagandamodel ‘Firehose of Falsehood’ illustreert Paul Rissen, productontwikkelaar bij Springer Nature, hoe factoren als snelheid, hoeveelheid, herhaling en bandbreedte van informatie in staat zijn verwarring en twijfel te zaaien. Fact checking is geen wapen tegen bewuste manipulatie. Wat wel werkt is de informatieomgeving zo rijk mogelijk inrichten en ruimte bieden voor verschillende standpunten. Context aanbrengen is essentieel: ‘context is king’. Alertheid op onjuiste informatie is geboden, maar verwacht daarbij geen wonderen van de technologie, waarschuwt de spreker.

De menselijke factor
De laatste jaren leek de oplossing voor de overvloed aan informatie van de technologie te komen. De resultaten van artificiële intelligentie (AI) en machine learning blijken echter in de praktijk tegen te vallen. Applicaties die zijn gebaseerd op een ingenieus ontwerp en in een demo indrukwekkende resultaten laten zien, doen in werkelijkheid lang niet altijd wat ze beloven. Steeds weer blijft de betrouwbaarheid en daarmee de bruikbaarheid achter bij wensen en verwachtingen van gebruikers.

Ook het automatisch creëren van taxonomieën uit grote hoeveelheden tekst is lastig. Het probleem is vooral om vanuit een corpus teksten tot een aantal ‘basiscategorieën’ te komen. Een algemeen geldig, universeel categorisatieschema bestaat niet, zoals de titel ‘Women, fire and dangerous things’ (George Lakoff, 1990) laat zien. Categorieën die wij als vanzelfsprekend aanbrengen, zeggen iets over ons brein. Machines werken anders. Algoritmes alleen zijn dus niet voldoende. Of kunstmatige intelligentie kan helpen bij het samenstellen en/of automatisch vullen van taxonomieën valt te bezien. Het is eerder andersom – juist taxonomieën en ontologieën kunnen AIsystemen van de toekomst uitrusten met de semantiek en de logica die nodig zijn om werkelijk slimme toepassingen tot stand te brengen. Dat betekent dat er steeds meer behoefte zal zijn aan systemen die in staat zijn menselijke kennis in machine-verwerkbare vorm vast te leggen. Mensen (taxonomisten, contentspecialisten, gebruikers) zullen bij ontwerp en onderhoud van kennissystemen harder nodig zijn dan ooit.

Taxonomieën, ontologieën en het web van data
Systemen die de betekenis en betekenisrelaties van objecten vastleggen, KOS-sen dus, zijn er in vele soorten. Alex Jackson (Semantic Web Company) laat basisprincipes, overeenkomsten en verschillen zien tussen taxonomieën, thesauri en ontologieën. Waar eerstgenoemde systemen begrippen, labels en standaardrelaties beschrijven gaat een ontologie een stap verder en definieert ook klassen van begrippen, attributen (eigenschappen) en specifieke relaties. Zo wordt stapsgewijs een veelzijdig kennismodel opgebouwd.

Taxonomy manager Tom Alexander (Cancer Research UK) laat zien hoe een goede taxonomie het mogelijk maakte de website van de organisatie om te vormen tot een taxonomie gestuurde ‘Digital Asset Hub’ met 10.000 bronnen. Deze ‘KOS-sen’ hebben zich ontwikkeld in de context van het (semantisch) web – het web van data. De technische aspecten daarvan bleven hier nu grotendeels buiten beschouwing. De nadruk lag op de praktische mogelijkheden die ontstaan door het modelleren, structureren en aan elkaar verbinden van data.

Het ambacht: de taxonomist
Veel sprekers noemen zichzelf ‘taxonomist’. Het is een bont gezelschap, met grote verschillen tussen organisaties, tussen taxonomieën en tussen rol en functie van de taxonomist zelf. Die kan binnen een organisatie een ‘eenpitter’ zijn, maar ook als spin in het web onderdeel vormen van een (web)team met zoek- en contentspecialisten en een bijdrage leveren aan de informatiearchitectuur. De vraag dringt zich op wat dan eigenlijk de essentie is van het werk van een taxonomist en welke technieken daarbij kunnen helpen. Volgens Dave Clarke, CEO van Synaptica, gaat het om drie activiteiten: organiseren, categoriseren en ontdekken. Hulpmiddelen bij het organiseren zijn systemen die bouw en onderhoud van taxonomieën ondersteunen. Bij het categoriseren staan technieken uit tekst-analytics en automatische classificatie de taxonomist ten dienste. En waar het gaat om het ontdekken van informatie moeten we denken aan semantisch zoeken en visualisatietechnieken.

Businesscase voor taxonomieën
Kennissystemen vormen een semantische laag over de informatie die is opgeslagen in databases, in filesystemen en op het web. Door gebruik te maken van de logica die wordt vastgelegd in ontologieën en taxonomieën is het mogelijk applicaties voor zoeken en ontdekken van informatie slimmer te maken. Bij het zoeken vanuit de taxonomie kunnen opties worden aangeboden om het resultaat van een zoekactie te beperken of juist uit te breiden. Dat kan bij het formuleren van de query (synoniemen meenemen bijvoorbeeld) maar ook bij de presentatie van het resultaat.

Een taxonomie kan ‘onder water’ zijn werk doen, of zichtbaar voor de gebruiker dienen als navigatietool. Wanneer je kiest voor een zichtbare taxonomie zijn vorm, mate van granulariteit en startpunt belangrijke overwegingen. Verder is van belang dat taxonomieën verbindingen tussen systemen eenvoudiger maken door gebruik van (open) standaarden, standaard datamodellen en uitwisselingsformaten. Zo wordt hergebruik van vocabulaires mogelijk.

Gebruikers
Het wordt wel eens vergeten, maar een taxonomie wordt gemaakt om gebruikt te worden. Neem gebruikers dan ook serieus, zo luidt de boodschap van Anton Doroszenko van de omvangrijke Life Sciences Thesaurus. Hij kiest expliciet voor contact met gebruikersgroepen via kanalen als sociale media en nieuwsbrieven. Laat zien waar je mee bezig bent, rapporteer de voortgang en doe aan verwachtingsmanagement, is zijn boodschap. Tom Alexander laat zien dat gebruikers de wereld vaak anders waarnemen dan de taxonomist verwacht. Daarom moet een taxonomie niet alleen goed in elkaar zitten, maar vooral aansluiten bij de werkelijkheid van de gebruiker. Dat geldt ook voor de ordening van de begrippen waar wij zo gek op zijn. Verrassend genoeg hebben gebruikers vaak voorkeur voor mínder ordening en hiërarchie. Gebruikers feedback vragen en de ‘usability’ testen zijn essentiële activiteiten voor taxonomisten.

Namen en woorden
De concepten in een taxonomie worden aangeduid door een of meer labels. Het kiezen van de namen daarvoor (de termen dus) is een van de kernactiviteiten van de taxonomist. Bob Kasenchak, taxonomist bij Access Innovations, wijst op het machtsaspect bij wat hij ‘appellomancy’ (magie van namen) noemt. Taxonomisten hebben een sleutelrol in het naamgevingsproces en elke taxonomist herinnert zich wel discussies over ‘goede’ en ‘foute’ woorden. Naast de praktische kant die boven werd beschreven heeft naamgeving beslist ook een ethisch aspect, want een naam geeft bestaansrecht.

Tools en hulpmiddelen
De hulpmiddelen om een taxonomie vorm te geven en te onderhouden reiken van eenvoudige spreadsheets tot geavanceerde semantische tools. Joyce van Aalten (Invenier) laat zien dat de keuze afhankelijk is van de situatie. Voor een losstaande, kleine taxonomie kan Excel een prima keuze zijn. Zo tovert informatiearchitect Jonathan Engel met Excelfuncties in combinatie met Wordtemplates en classificatieregels een eenvoudige taxonomie tevoorschijn.

Dit werkt echter alleen voor taxonomieën van beperkte omvang. Aan de andere kant van het spectrum toont Dave Clarke (Synaptica) welke geavanceerde semantische software kan worden ingezet om taxonomist en gebruiker te ondersteunen.

Brede toepassing
Ontologieën en taxonomieën leggen kennis vast door dingen (‘entiteiten’) op een betekenisvolle manier aan elkaar te verbinden. Wij gebruiken dit soort semantische hulpmiddelen vooral in de context van informatieverrijking. Het toepassingsgebied voor dit soort gestructureerde representaties is echter veel breder, namelijk overal waar de behoefte bestaat data op een gestructureerde manier, in samenhang dus, zichtbaar en bruikbaar te maken. Ahren Lehnert en Jim Sweeney (Synaptica) beschrijven hoe het KOS- model werkt voor product- en projectmanagement en laten dit zien aan de hand van een gedetailleerde mapping van een ontologie die een Agile-project beschrijft, inclusief alle projectonderdelen en -fases. Groot voordeel van deze werkwijze is dat de projectactiviteiten eenvoudig kunnen worden gelinkt aan andere schema’s, zoals ‘documentatie’ en ‘klanten’, zodat al deze informatie in samenhang kan worden getoond. Een kennismodel (een ontologie) maakt het mogelijk dezelfde informatie te gebruiken voor het beantwoorden van heel diverse vragen. Ben Miller van uitgeverij Wiley laat zien hoe de informatie die Wiley vastlegt en modelleert kan worden gebruikt voor het vinden van heel diverse informatie: een passende reviewer voor een publicatie, het meest geschikte tijdschrift voor een specifiek artikel of een antwoord op een medische vraag. Zo wordt duidelijk dat de meerwaarde van de informatieontsluiting steeds minder in de verrijking van content ligt, maar in toenemende mate gelegen is in de ingebouwde intelligentie, het kennismodel. Investeer dus in het bouwen van een brede en zo volledig mogelijke ontologie, zo luidt de boodschap.

Delen en hergebruik
Standaarden zoals SKOS maken delen en hergebruik van data en instrumenten mogelijk. Daarbij dient de vraag zich aan waar inhoudelijk geschikte, kwalitatief goede instrumenten te vinden zijn. Met de FAIR-principes voor data (Findable, Accessible, Interoperable, Reusable) als beoordelingskader inventariseerde Gerard Coen (DANS) ‘KOS-sen’, waarvan hij attributen vastlegde zoals titel, onderwerp, versiegeschiedenis, laatste update en verantwoordelijke organisatie. Andreas Ledl (Universiteit Basel) deed hetzelfde als initiatiefnemer van BARTOC, een omvangrijke database van verschillende soorten ‘KOS-sen’ (classificatieschema’s, ontologieën, thesauri, woordenboeken etc.) uit diverse domeinen. Ook hier worden de FAIR principes gehanteerd.

BARTOC-gebruikers kunnen door een semantische vocabulairebrowser (Skosmos) de 1300 vocabulaires, 300.000.000 concepten en 10.000.000 termen benaderen om metadata van de vocabulaires te vinden of om de instrumenten te raadplegen en/of te downloaden.

Conclusie
Belangrijk uitgangspunt van de conferentie is dat KOS-sen zoals taxonomieën, thesauri en ontologieën de schakel kunnen vormen tussen IT en menselijke intelligentie. Dat betekent dat de meerwaarde van informatieverrijking steeds meer ligt in de ontwikkeling van een goed kennismodel. We hebben daarvan diverse voorbeelden gezien die ons inspireren om zelf hiermee aan de slag te gaan. Verder zagen we dat het toepassingsgebied van kennissystemen veel breder is dan alleen de informatieverrijking. De veelzijdigheid van KOS maakt dat het model overal is toe te passen waar informatie in gestructureerde vorm dient te worden vastgelegd om bruikbaar te worden.

Van groot belang is dat het steeds meer duidelijk wordt dat algoritmes alleen niet werken. Het ontwikkelen en onderhouden van dit soort intelligente systemen zal altijd in belangrijke mate mensenwerk blijven. Ditzelfde geldt voor het beoordelen van resultaten en van de kwaliteit en de betekenis van data.

Praktisch gezien werd duidelijk dat semantische technologie en standaarden voor kennissystemen in de afgelopen jaren volwassen zijn geworden. De talloze praktijkvoorbeelden laten zien dat RDF/SKOS als standaard voor representatie en beheer van taxonomieën en thesauri breed wordt geadopteerd.


Nelleke Aders
Specialist informatiesystemen bij de Dienst Informatie en Archief van de Tweede Kamer