, 7 november 2017

Meerwaarde taaltechnologie

image for Meerwaarde taaltechnologie image Achtergrond

De hoeveelheid ongestructureerde digitale informatie neemt hand over hand toe. Daarbij gaat het niet alleen om teksten, maar ook om beeld- en geluidmateriaal. Zoektechnologie is vanouds de sleutel om al die informatie toegankelijk en bruikbaar te maken. Van belang is daarbij dat ongestructureerde informatie betekenis krijgt en daarmee beter vindbaar wordt wanneer zoveel mogelijk kenmerken van die informatie (metadata) worden vastgelegd (= verrijking). Lange tijd waren alleen mensen tot dit laatste in staat.

De hoeveelheid ongestructureerde digitale informatie neemt hand over hand toe. Daarbij gaat het niet alleen om teksten, maar ook om beeld- en geluidmateriaal. Zoektechnologie is vanouds de sleutel om al die informatie toegankelijk en bruikbaar te maken. Van belang is daarbij dat ongestructureerde informatie betekenis krijgt en daarmee beter vindbaar wordt wanneer zoveel mogelijk kenmerken van die informatie (metadata) worden vastgelegd (= verrijking). Lange tijd waren alleen mensen tot dit laatste in staat. Tegenwoordig bestaan er steeds meer geavanceerde technieken die het proces van informatieverrijking kunnen ondersteunen, aan te duiden met de term ‘taaltechnologie’.1 Taaltechnologie borduurt voort op de mogelijkheden die zoektechnologie biedt. Zoektechnologie en taaltechnologie grijpen in feite in elkaar en versterken elkaar.

De afgelopen tijd hebben we bij de Dienst Informatievoorziening van de Tweede Kamer onderzoek gedaan naar de mogelijkheden die taaltechnologie kan bieden voor de verrijking van de parlementaire en contextinformatie. Onze ervaringen hebben aangetoond dat er ook in de context van parlement en politiek veel is te verwachten van de inzet van deze slimme technieken voor het verwerken en toegankelijk maken van informatie. In deze bijdrage wordt betoogd dat niet het automatiseren van complexe processen, maar juist het nemen van kleine stappen de sleutel is voor het realiseren van vernieuwingen die de informatievoorziening voor gebruikers verbeteren. Daarbij gaat het om vernieuwingen die zonder de inzet van deze technologische hulpmiddelen niet mogelijk zouden zijn.

Taaltechnologie in engere zin: automatische informatieverrijking
Een belangrijk aspect van het toegankelijk maken van informatie is het bepalen en gecontroleerd beschrijven van het onderwerp. Vaak is dit een taak voor inhoudsdeskundigen (specialisten). In principe is het mogelijk om voor de onderwerps bepaling slimme technologieën in te zetten. Het onderwerp kan dan worden vastgesteld op basis van tekstkenmerken, zoals frequentie van woorden in de tekst of in de titel. Voor de koppeling van een gecontroleerde beschrijving van het onderwerp aan een tekst wordt vervolgens machine learning ingezet. Dit is wat we hier ‘taaltechnologie in engere zin’ zullen noemen, of ook ‘automatische informatieverrijking’.

Gecontroleerd beschrijven van het onderwerp van een tekst is voor specialisten betrekkelijk eenvoudig, al is het dan een relatief tijdrovend proces. Voor machines daarentegen is het matchen van onderwerpsbeschrijvingen en documenten een uiterst gecompliceerde opdracht. Deze discrepantie maakt dat onderwerpsgerichte informatieverrijking een bijzonder veeleisende toepassing is om te automatiseren. In de eerste plaats dienen proces en gewenst resultaat nauwkeurig te worden beschreven. Vervolgens is training van de software noodzakelijk, wat specifieke eisen stelt aan aard en omvang van het trainingsmateriaal. Omdat het bepalen van het onderwerp een proces is dat gebruikers met een zekere vanzelfsprekendheid uitvoeren, zijn hun verwachtingen hooggespannen. Bij automatisering van een complex proces als dit zal er echter altijd sprake zijn van een zekere foutmarge…

Figuur: Taaltechnologie, zoektechnologie en menselijk proces
Figuur: Taaltechnologie, zoektechnologie en menselijk proces

Taaltechnologie in brede zin: vernieuwende taaltechnologische tools en technieken 

Naast wat we boven ‘taaltechnologie in engere zin’ hebben genoemd, zijn er andere mogelijkheden om technologie in te zetten voor het structureren en daarmee toegankelijk maken van ongestructureerde informatie. Dit zijn methoden die geen kopie willen zijn van een menselijk proces, maar in plaats daarvan gebruik maken van de krachtigste eigenschap van de technologie: rekenkracht, die kan worden benut voor het verwerken van grote hoeveelheden informatie en voor het consequent en snel toepassen van regels. Juist door in te zetten op deze kwaliteiten levert een combinatie van taal- en zoektechnologie, ondersteund door menselijke intelligentie, direct bruikbare resultaten op. Enkele principes:

  1. Regels
    Uit ongestructureerde informatie kunnen we, door handmatig of machinaal vaststellen en expliciteren van regels, kenmerken destilleren. Deze kenmerken kunnen vervolgens als basis dienen voor automatisch uit te voeren acties. Een eenvoudig voorbeeld: als ergens in de tekst ‘www’ staat, dan gaat het waarschijnlijk om een webadres. We kunnen nu een actie definiëren: telkens wanneer www wordt gevonden, doe het volgende: ga naar http://www.etc. Een belangrijke vraag is dan natuurlijk wel in hoeverre die informatieregels betrouwbaar zijn en tot het gewenste resultaat leiden. Kan de combinatie van letters en tekens in de tekst (hier www) nog in een andere context voorkomen? Wat staat er achter ‘www’ en is dat zinvol, correct, volledig en bereikbaar? Om dit te kunnen beoordelen blijft menselijke input noodzakelijk. Op basis van testresultaten kunnen regels eventueel worden aangepast en verfijnd. 
  2. Entiteiten
    Het is ook mogelijk om automatisch bepaalde dingen (‘entiteiten’) in ongestructureerde teksten te herkennen. Dat kan door gebruik te maken van lijsten met zogenaamde ‘named entities’, zoals bijvoorbeeld geografische, bedrijfsof persoonsnamen, en deze dan aan het systeem aan te bieden. Om een (tot nu toe onbekende) persoonsnaam in een tekst te herkennen, kan dan weer gebruik worden gemaakt van regels, zoals ‘hoofdletter, punt, [hoofdletter, punt] [lidwoord] woord startend met hoofdletter’ = persoonsnaam (??). 
  3. Kennis
    Computersystemen zijn sterk in het vastleggen en verwerken van informatie, maar bezitten geen kennis. Ze kunnen wel gebruik maken van bestaande kennis die in machine leesbare vorm is vastgelegd. Daarbij gaat het om kennis over synoniemen, woordvarianten (zoals meervoudsvormen) en over semantische relaties tussen begrippen en entiteiten. Dit soort kennis wordt vastgelegd in woord- en begrippensystemen, zoals thesauri, taxonomieën, ontologieën en woordenboeken. Dit soort systemen kunnen intern – op maat – worden ontwikkeld en beheerd, maar het is ook mogelijk gebruik te maken van instrumenten die extern beschikbaar zijn. Een voorwaarde is dan wel dat de begrippensystemen in een universeel, gestandaardiseerd en machineleesbaar formaat zijn opgeslagen. 
  4. Links
    Ook door gebruik te maken van bestaande associaties met informatie uit andere bronnen is het mogelijk ongestructureerde informatie te verrijken. Dan gaat het bijvoorbeeld om het linken van concepten en entiteiten uit ongestructureerde teksten met beschrijvingen en informatie uit een externe bron (bijvoorbeeld wanneer het gaat om informatie rond personen of om vakterminologie). 
Voorbeeld 1: gebruik maken van regels en entiteiten
Bij de selectie van materiaal uit kranten en tijdschriften zijn we vooral geïnteresseerd in artikelen waarin politici en Kamerleden aan het woord komen. Selectie hiervan gebeurt tot nu toe handmatig. We hebben gezien dat het heel goed mogelijk is om voor deze taak slimme technieken in te zetten. Daartoe verzamelden we karakteristieke termen die in een tekst, een interview of citaat voorkomen. Een bron daarvoor kan eerder ontsloten interviewmateriaal zijn. Op zo’n lijst komen dan woorden als ‘beweert’, ‘zegt’, ‘beaamt’, etc. Verder hebben we een lijst nodig van namen van Kamerleden/politici.
Wanneer we nu de zoektechnologie met deze twee lijsten voeden, worden documenten gevonden waarin termen uit beide lijsten voorkomen. De kans is groot dat het gaat om interviews met/uitspraken van Kamerleden. Of dat werkelijk zo is, gaan we natuurlijk testen. Vragen daarbij zijn ten eerste of álle interviews worden gevonden (recall), en ten tweede of alle gevonden resultaten ook werkelijk interviews zijn (precision). Naar aanleiding van de testbevindingen kunnen we de criteria eventueel aanpassen en vervolgens opnieuw testen. Deze cyclus herhaalt zich, totdat we tevreden zijn en een bruikbaar hulpmiddel hebben ontwikkeld. Taaltechnologische hulpmiddelen zijn hier de inzet van regels (1) en herkennen van entiteiten (2).
Voorbeeld 2: gebruik maken van kennis
Bij de Tweede Kamer wordt de parlementsthesaurus vanouds ingezet als bron voor metadata (gecontroleerde onderwerpsbeschrijving). Dat wordt ook wel de klassieke thesaurusfunctie genoemd. We streven er nu naar de kennis die in de thesaurus is vastgelegd ook in de zoekfase te benutten. Daartoe hebben we steeds meer synoniemen in de thesaurus opgenomen en een koppeling met de zoekapplicatie tot stand gebracht. Bij het doorzoeken van ongestructureerde teksten ‘weet’ de zoekapplicatie dat een fiets hetzelfde is als een rijwiel, dat een e-bike een fiets is, en dat deze objecten horen tot de categorie van de vervoermiddelen. Het taaltechnologische principe dat hier wordt toegepast is het gebruik maken van kennis (3). 

Succesvolle voorbeelden
De inzet van boven beschreven principes heeft de afgelopen tijd voor de informatievoorziening van de Tweede Kamer enkele succesvolle resultaten opgeleverd.
Zo werden er dynamische persoonlijke pagina’s voor Kamerleden gerealiseerd, die een overzicht bieden van de belangrijkste aandachtsgebieden (in de vorm van een word cloud), activiteiten, samenwerkingsverbanden en andere relevante informatie uit verschillende (interne) bronnen. Dit wordt mogelijk gemaakt door een combinatie van taaltechnologie, zoektechnologie en diverse visualisatietechnieken.
Een ander voorbeeld is de presentatie van verrijkte zoekresultaten op het intranet, waarbij context en samenhang rond parlementaire documenten zichtbaar wordt gemaakt. Om dit mogelijk te maken wordt slim gebruik gemaakt van de metadata die zijn vastgelegd in verschillende systemen, of die door de inzet van taaltechnologie worden gegenereerd uit de volledige teksten.
Verder kunnen voor specifieke zoekwensen applicaties worden gerealiseerd die het mogelijk maken om informatie zeer verfijnd op specifieke kenmerken te doorzoeken. Ook hier gebruiken we een combinatie van zoektechnologie, taaltechnologie (regels) en metadata.

Duidelijk is dat in de bovenbeschreven gevallen een combinatie van taaltechnologie, zoektechnologie en het structureren van data het mogelijk maakt de kwaliteit van het zoeken en vinden van parlementaire informatie te verbeteren.

Menselijke input
In dit verband is het van belang te benadrukken dat naast taal- en zoektechnologie menselijke input bij informatieontsluiting cruciaal zal blijven. Wanneer extractie van (meta)data en structurering van informatie steeds beter en efficiënter door taaltechnologische oplossingen kunnen worden overgenomen, verplaatst de ruimte voor menselijke inbreng zich naar voren (voorbewerking, regels, kennis inbouwen, evaluatie van model) en naar achteren (presentatie, analyse achteraf, evaluatie van resultaat). Informatieontsluiting wordt zo steeds meer een samenspel tussen taaltechnologie, zoektechnologie en menselijke input.

Conclusie
Taaltechnologische technieken zullen in de toekomst een steeds belangrijker bijdrage kunnen leveren aan de toegankelijkheid van informatie in de parlementaire context. Daarbij gaat het echter niet om een kopie van de manier waarop mensen informatie verwerken. In plaats daarvan worden op basis van de krachtige eigenschappen van de technologie, gecombineerd met specifiek menselijke inbreng, nieuwe mogelijkheden voor het structureren en ontsluiten van informatie gecreëerd.
Om de kwaliteit van de informatievoorziening nu en in de toekomst zeker te stellen is het dan ook van belang juist nu te blijven investeren in taaltechnologie. Kleine stappen moeten het daarbij mogelijk maken om groot resultaat te realiseren en ongestructureerde informatie op nieuwe manieren toegankelijk en bruikbaar te maken voor de doelgroepen.

N.aders@tweedekamer.nl, Nelleke Aders is specialist Ontsluitingstechnieken bij de Dienst Informatievoorziening van de Tweede Kamer der Staten-Generaal.


Noot

  • Wij hanteren hier een brede definitie van de term ‘taaltechnologie’, waarin expliciet behalve tekst (taal) ook andere vormen van informatie worden genoemd, het gaat om ‘…informatie-entiteiten van diverse aard (geschreven tekst, video, audio of multimedia)…’.