Taxonomy Bootcamp London - toepassingen - Vakblad Od I Overheidsdocumentatie

In het eerste deel over de conferentie Taxonomy Bootcamp London (TBCL) kwamen behalve de semantische systemen zelf, de slimme technologieën voor analyse en ontsluiting van ongestructureerde informatie aan de orde. Geautomatiseerde analyse stelt eisen aan de kwaliteit van de data – ook een belangrijk aandachtsgebied van TBCL2017.
In dit tweede deel gaat het om de praktijk en is de vraag aan de orde op welke manier semantische systemen zoals thesauri en taxonomieën worden toegepast en wat dat oplevert. Juist daarvan waren tijdens de conferentie vele voorbeelden te zien.

Toepassingen bij informatiemanagement
Tijdens de conferentie was een breed scala aan praktische toepassingen van semantische systemen te zien. Voorbeelden uit onder meer overheid (Gov.uk, City of London), uitgeverij (Elsevier, Thomson Reuters, Oxford University Press), wetenschap (Oslo University, Stockholm research Institute), media (BBC) en bedrijfsleven (World Bank Group, Kantar TNS) lieten zien hoe semantische systemen het werkproces kunnen ondersteunen door een betere samenwerking tussen organisaties of organisatieonderdelen mogelijk te maken, door begripsverwarring op te heffen en bedrijfsprocessen te stroomlijnen.

Een opvallend praktisch voorbeeld was een taxonomie die werd ontwikkeld om helpdeskmedewerkers te ondersteunen. In plaats van de gebruikelijke handboeken kregen zij toegang tot een op hun taken gebaseerde taxonomie (hier toepasselijk een ‘tasksonomy’ genoemd). Zo kregen zij tijdens het proces direct antwoord op specifieke, praktische vragen. Een omslag van documenten naar informatie die alleen mogelijk is wanneer documenten in stukjes worden gehakt die aan elkaar worden verbonden door een kennissysteem (lees een taxonomie) dat ‘onder water’ actief is.

Een ander voorbeeld was de ontwikkeling van een taxonomie voor het productenassortiment van een leverancier. Startpunt was de vraag wat een ‘product’ is, en – in het verlengde daarvan – of er ook zaken leverbaar kunnen zijn die niet als product zijn te kwalificeren. Dit soort vragen levert een bijna filosofische discussie op. Uiteindelijk moet dit leiden tot een compleet overzicht waarin alle activiteiten en onderdelen van de onderneming zijn gerepresenteerd. Daarmee is de basis gelegd voor het informatiemodel van het bedrijf. Dit voorbeeld illustreert de essentiële rol van een informatiemodel waarvan de grondslagen zijn beschreven en dat op zodanige wijze is vastgelegd dat het systeem deze kennis bij de verwerking van informatie kan gebruiken. Zo’n uitputtend semantisch model, of conceptueel schema, van een organisatie of domein wordt een ontologie genoemd en vormt een stevige basis voor een of meer taxonomieën.

Rol bij zoeken, vinden en ontdekken van informatie
Recall, precisie en discovery
Ook in de wereld van data en semantisch web zijn de aloude begrippen recall (alles vinden) en precisie (het juiste vinden) nog relevant. Daarbij gaat het meestal om een trade off: verhogen van het een leidt tot vermindering van het ander. Semantische systemen hebben positieve effecten op de kwaliteit van het zoekresultaat omdat het instrumenten zijn waarmee de recall en de precisie van het zoekresultaat zijn te beïnvloeden.
In een wereld waarin een overvloed aan informatie bestaat, gaat het meer om het ontdekken van (de juiste) informatie, dan om het vinden van alle relevante documenten als resultaat van een zoekvraag. Zoeken en vinden van informatie verandert op deze manier steeds meer in een ontdekkingsproces: information exploration and discovery. Semantische systemen kunnen dit proces ondersteunen omdat ze zijn gebaseerd op betekenissen. Wanneer het gaat om het ontdekken van informatie zijn recall en precisie niet voldoende. Dan gaat het ook over het aanbieden van serendipiteit.

Grafen en kenniskaarten
Kennis die is opgeslagen in een kennissysteem wordt door het systeem opgeslagen in de vorm van een graaf, een structuur die is gebaseerd op entiteiten en relaties daartussen (‘graph database’). Als afgeleide hiervan kan ook aan gebruikers een kenniskaart (‘knowledge graph’ die een beeld geeft van de belangrijkste entiteiten en hun samenhang) worden gepresenteerd. Een bekend voorbeeld is de kenniskaart die Google bij sommige zoekresultaten aanbiedt. Wanneer organisaties gebruik maken van deze systemen kunnen kenniskaarten helpen informatie te integreren, te begrijpen en te verbinden. Zo vindt er een naadloze integratie van data en informatie plaats. Kenniskaarten vormen een stimulerende omgeving voor ‘knowledge discovery’ bij informatie intensieve organisaties. Tijdens de conferentie zagen we een aantal voorbeelden daarvan, onder meer van de kennisrepresentatie bij het Europese researchnetwerk CESSDA.

Van taxonomie naar sleepnet
De informatiearchitect en zoekspecialist Engel lanceerde tijdens zijn lezing het begrip ‘extended taxonomy’. In dit type taxonomie worden rond een begrip allerlei types termen vastgelegd, zoals synoniemen, equivalenten, gerelateerde termen. Die kennen we allemaal wel, maar nieuw in dit rijtje zijn de zogenaamde ‘contexttermen’. Dit zijn termen die relatief vaak in de context van een bepaald begrip worden gebruikt maar geen betekenisrelatie daarmee hebben. Alle termen die op deze manier rond een bepaald begrip worden verzameld, vormen een zgn. ‘semantisch net’ dat kan worden gebruikt om relevante informatie over het begrip te identificeren en te laten zien. Afhankelijk van de behoefte – grotere vangst (alles vinden) of grotere precisie (alleen relevante dingen vinden) – kan de grootte van de mazen van het semantisch net worden bepaald en beïnvloed door toevoegen/uitsluiten van woorden.

Wegwijzers
Structureren van informatie is essentieel voor de toegankelijkheid van informatie. Semantische systemen kunnen daarbij een belangrijke rol spelen. Aan de hand van een originele visualisatie van management van metadata in SharePoint liet Joyce van Aalten zien hoe dit werkt. Het toekennen van (zo veel mogelijk) metadata aan teksten en aan andere informatie verbetert de vindbaarheid en de vooral de browsbaarheid van de collectie. Het gaat daarbij om inhoudelijke metadata (onderwerp) maar ook om entiteiten (named entities), zoals personen, plaatsen en organisaties. De extractie van named entities uit teksten is relatief eenvoudig te automatiseren en kan veel opleveren om informatie te structureren en gebruikers op die manier te helpen hun weg te vinden.

‘Pakketjes’
Van documenten naar data? Ian Piper (Tellura) liet zien hoe content kan worden verdeeld in kleinere eenheden die hij ‘contentobjecten’ noemt. Deze contentobjecten zijn op verschillende manieren te groeperen in ‘containers’. Dit maakt hergebruik van de onderdelen van de content voor verschillende doelgroepen en publicatiekanalen mogelijk. Semantische classificatietechnieken en duurzame identificatie van content objecten liggen aan de basis van dit proces.

Verrassend actueel
Thesauri en kennissystemen zijn al lang niet meer de traditionele systemen die we kennen uit het verleden, toen ze een sleutelrol speelden bij de (veelal handmatig uitgevoerde) inhoudelijke ontsluiting van documenten. In de nieuwe, op data gebaseerde wereld zijn semantiek en samenhang sleutel woorden geworden. Dat betekent dat de kernpositie die semantische systemen vanouds hadden, weer is bestendigd maar nu op een nieuwe manier.

Een thesaurus werd vaak een gemeenschappelijke taal genoemd. Een taal waarmee informatiegebruikers op een gecontroleerde manier toegang kregen tot de door hen gezochte informatie, dankzij het feit dat aanbieder en gebruiker van de informatie dezelfde gecontroleeerde terminologie gebruiken.

De semantische systemen zoals we die nu kennen kunnen nog altijd worden gezien als een gemeenschappelijke taal, maar nu een taal die de brug vormt tussen machines en mensen. Betekenissen formaliseren en relaties op een exacte en gestandaardiseerde wijze beschrijven en vastleggen is in een wereld van informatieovervloed, fragmentatie en behoefte aan context en betekenis onontbeerlijk. Dat te realiseren is een kwestie van mensen en machines samen. Taxonomy Bootcamp Londen 2018 gaf een veelzijdig beeld van wat dat betekent.

N.aders@tweedekamer.nl, Nelleke Aders is specialist informatiesystemen bij de Dienst Informatie en Archief (DIA) van de Tweede Kamer der Staten-Generaal

Taxonomy Bootcamp London – toepassingen

Geef een reactie Reactie annuleren

Vacatures

Magazine