1 oktober 2010

Zoeken kan iedereen

image for Zoeken kan iedereen image

Gevraagd naar mijn visie op ‘zoeken en vinden’ wil ik op voorhand aantekenen dat ik geworteld ben in het bibliotheekvak, met enkele zijwortels in de archivering en nieuwsresearch bij grote Nederlandse dagbladen. Dat kleurt mijn kijk op archieven en het gebruik ervan.
Ik zal me hier focussen op een drietal gedachten om de discussie over zoekstrategieën een handje te helpen, aan de roundtable komt ongetwijfeld veel meer langs.

Gevraagd naar mijn visie op ‘zoeken en vinden’ wil ik op voorhand aantekenen dat ik geworteld ben in het bibliotheekvak, met enkele zijwortels in de archivering en nieuwsresearch bij grote Nederlandse dagbladen. Dat kleurt mijn kijk op archieven en het gebruik ervan.
Ik zal me hier focussen op een drietal gedachten om de discussie over zoekstrategieën een handje te helpen, aan de roundtable komt ongetwijfeld veel meer langs.

Drie gedachten
Ten eerste: (veel) zoekmachines zijn nog steeds domme applicaties die geen flauw benul hebben van taal en geen enkele intelligente steun bieden aan de zoekende mens.1
Ten tweede: waar in de (kennis)economie afstand, grenzen en tijdzones geen enkele rol van betekenis meer hebben, is de taalbarrière de grootste hindernis en impliciet een bedreiging voor verdere ontwikkeling van kennisdeling en -vermeerdering.2
En dan drie: we bewaren veel te veel, veel meer dan we ooit nog kunnen gebruiken, zonder ons af te vragen waarom en zonder de geschiedenis de kans te geven om alle flauwekul te doen vergeten.3 Bovenstaande moet wel wat contextuele schouders krijgen om het te schragen. Slim zoeken en vooral heel slim vinden is een passie geworden. Het gaat om taal, een van de mooiste dingen die we hebben. Beter nog, om communicatie in natuurlijke taal en de problemen die het gebruik ervan oplevert in opslag- en retrieval-processen en informatieverwerking en -verwerving, vooral in een internationale en multilinguale omgeving (zoals bij kranten en universiteiten uiteraard het geval is).
De kiem voor die passie ligt in de jaren 80. Bij de implementatie van full text-databanken voor een grote dagbladengroep bleek al snel dat je niet kon zoeken op ‘Doe Maar’, omdat het twee stopwoorden waren. En dat bedrijfsnamen als ‘Vie d’Or’ en ‘AND Publishers’ een hoop zoekellende met zich brachten omdat hun samengestelde naam conflicteerde met Booleaanse operatoren.
Ik kon dat de zelfzoekende eindgebruiker maar moeilijk uitleggen, die was zo onervaren – ik praat over 1989, de tijd van de eerste generatie zelfzoekende gebruikers. Ik wilde slimmer kunnen zoeken en vinden, zonder de beperkingen van puur full text zoeken. In elk (kranten)artikel is eigenlijk maar tien procent van de woorden bepalend voor de inhoud en dus als zoekwoord relevant, de rest is het ‘cement’ om er een leesbare tekst van te maken.
Ga zelf maar na, welke woorden zijn in de vorige alinea nou echt ‘betekenisvol’, dus inhoudelijk relevant? En toch wordt er iets (en hopelijk iets begrijpelijks) beweerd over de valkuilen van full text retrieval in grote bestanden natuurlijke taal.

Onvolkomen zoekmachines
Als ‘krantenarchivaris’ wilde ik wel full text zoeken, maar ik moest zelf voortdurend alert zijn (‘anesthesie or narcose or verdoving’) en dat zonder spellchecker. En ik wilde snel, complete en betrouwbare antwoorden leveren. Zodoende kwamen we terecht in arbeidsintensieve werkprocessen als het toekennen van metadata, aanbrengen van ontsluitingskenmerken met codes en trefwoorden, kortom, een vracht aan precoördinatief werk. Omdat er geen adequate slimme postcoördinatieve zoeksystemen waren, ook al riep ik nog zo hard dat die er moesten komen. Ik wilde ‘verrijking van het zoekproces’ in plaats van ‘verrijking in het bouwproces’. Nu, twintig jaar later is dat menselijke werk weggesaneerd, wordt de complete krant in een databanktrog gedumpt en is het vinden van wat nuttige achtergrondinformatie vooral afhankelijk van het geduld van de zoekende redacteur. Ik durf te beweren dat dat in de krant terug te zien is.

Diezelfde twintig jaar is er wel onderzoek gedaan naar slimmere retrieval-systemen, waarbij taaltechnologie en computerlinguïstiek een oplossing zouden moeten brengen voor die bijzondere onhebbelijkheden van de natuurlijke taal. Maar ik blijf erbij dat de hedendaagse zoekmachines nog steeds erg onvolkomen zijn, zolang ze niet gebruik maken van taaltechnologische handvaten als semantische netwerken en zolang ze niet goed kunnen omgaan met synoniemen, homoniemen, samengestelde begrippen, eigennamen en dergelijke.
Nog afgezien van het interpreteren van de emotionele lading van een tekst: iemand waarschuwt, voorspelt, is blij of boos, geeft een oordeel. En een journalist wil daar wel op kunnen zoeken: “Geef me drie artikelen waarin Wilders zich boos uitlaat over iedereen die het bestaan van ‘dé Nederlandse cultuur in twijfel trekt.” Welke zoekmachine doet aan judgement retrieval?

Van een heel andere orde is de wens om ook multilingual te kunnen zoeken, welk systeem helpt me daarbij? Als iemand iets wil weten over ‘massavernietigingswapens’ en de Engelse taal goed beheerst, dan is dat ene verhaal over weapons of mass destruction misschien wel het beste antwoord. De goeroe van Google (zie noot 1) had geen antwoord of oplossing, maar voorspelt een toekomst waarin er in de interface de optie geboden wordt om de zoekvraag te herhalen in een andere taal. Zal mij benieuwen, ik wil eigenlijk in een ‘one stop zoekactie’ in zes talen tegelijk gezocht hebben naar ‘het beste antwoord’. In Europa hebben we sowieso wel 25 belangrijke talen, moet ik dan 25 keer herhalen? Tien jaar geleden was meer dan 80% op internet Engelstalig, dat is inmiddels gezakt naar ruim 40%. Internet is multilingual, dus Google en anderen, kom op met die crosss language search engine!

Een schuur
Tot slot nog even iets over de volumes. In 1990 kostte een databank met 4 Gb opslag, uit te breiden tot 8 Gb, zo’n slordige 2 miljoen gulden. Nergens is de inflatie zo hoog geweest, een SD card van 4 Gb doet nog geen tientje meer. Gelijktijdig zijn de opslagvolumes uit de klauw gelopen. Het is net als met een schuur, hoe groter die is, hoe meer troep we bewaren. De enorme dagelijkse toename van digitale communicatie en content is treffend in beeld gebracht op http://www.onlineeducation.net/internet/social-media-count_full.jpg.
Dat plaatje doet wel wat want mensen zijn net hamsters in hun zucht om alles te bewaren. Archieven, musea en bibliotheken zijn volgestopt met de weerslag van communicatie, omdat iemand ooit bedacht heeft: “Dat moeten we bewaren.” Die erfenis van het verleden wordt met de dag groter, de informatiecloud expandeert met een snelheid die doet denken aan het uitdijende heelal na de Big Bang. In Od van maart 2010 op pagina 17 lees ik dat de nieuwe DocDirekt-archiefdienst honderden kilometers archiefachterstand vanaf 1976 gaat oplossen. Oeps! En dat gaan we digitaliseren, metadateren, netjes bewaren met drie keer in back-up? Van mij mag het, maar wat gaan we ermee doen, wie gaat daar ooit de weg in vinden? En komt er wel een beetje slim zoeksysteem mee? Want dat is nog zo’n nadeel van natuurlijke taal. Taal leeft, taal verandert.
In die oude archieven zit heel veel oude taal. Zomaar een voorbeeld: de Eerste Wereldoorlog heette tot 1940 de Grote Oorlog. Onze precoördinatieve archieven zitten vol met dit soort verouderde begrippen en in onbruik geraakte taal, daar zou het postcoördinatieve zoeksysteem heel slim op ingericht moeten worden met relevance feedback, taaltechnologie en linguïstiek. Anders blijft het zelfs voor de alerte zoeker een geluk om iets te vinden en is het lot vooral ‘zoeken tot je een ons weegt’. 

W.M.M.Roestenburg@tudelft.nl

Will Roestenburg is afdelingshoofd Document & Data Services bij TU Delft Library.


1 PS 1: Vandaag (30 juni) zat ik bij het congres van LIBER in Aarhus naar een Google-goeroe te luisteren, conclusie: ik blijf bij mijn standpunt!
2 PS 2: Zie PS 1.
3 PS 3: Het is nog erger dan ik tot gisteren dacht, gevolg is dat we straks alleen nog maar kunnen zoeken.