1 maart 2011

Het anonimiseren van teksten

image for Het anonimiseren van teksten image

Wanneer er slechts weinig persoonsgegevens in de tekst voorkomen is het mogelijk ze handmatig te verwijderen. Dit gebeurt nu nog vaak met behulp van de zwarte viltstift of door het elektronisch ‘gummen’ met de muis op het scherm. Een ander hulpmiddel is de zoek/vervang-optie, waarbij de redacteur de privacygevoelige informatie vervangt door een andere naam of ander woord. Bij grotere hoeveelheden tekst is handmatige bewerking vrijwel niet meer mogelijk en is ondersteuning van het proces door middel van automatisering noodzakelijk.

Wanneer er slechts weinig persoonsgegevens in de tekst voorkomen is het mogelijk ze handmatig te verwijderen. Dit gebeurt nu nog vaak met behulp van de zwarte viltstift of door het elektronisch ‘gummen’ met de muis op het scherm. Een ander hulpmiddel is de zoek/vervang-optie, waarbij de redacteur de privacygevoelige informatie vervangt door een andere naam of ander woord. Bij grotere hoeveelheden tekst is handmatige bewerking vrijwel niet meer mogelijk en is ondersteuning van het proces door middel van automatisering noodzakelijk.

Hoe werkt het?
Met behulp van geavanceerde basismodules die ontwikkeld zijn met technologieën uit de informatica, wiskunde en taaltechnologie is het mogelijk volautomatisch bepaalde gegevens zoals namen, straatnamen, geografische locaties, tijdstippen en data te herkennen. De kunst is nu te bepalen of een dergelijk gegeven ook daadwerkelijk privacygevoelig is. Hiertoe moeten bestaande handmatig geanonimiseerde teksten worden vergeleken met het niet geanonimiseerde origineel. Deze vergelijking wordt deels handmatig, maar ook deels door middel van te ontwikkelen hulpmiddelen uitgevoerd. Op basis van deze analyse en de bestaande richtlijnen voor het anonimiseren wordt een algoritme ontwikkeld dat bepaalt in welke gevallen een gegeven wel of niet moet worden geanonimiseerd.

De volgende stap is het vervangen van de informatie door de juiste geanonimiseerde vervangingsterm. Ook hiervoor wordt een uitgebreide analyse (weer deels handmatig, deels door te ontwikkelen hulpmiddelen) uitgevoerd. Op basis van deze analyse moet duidelijk worden hoe bepaalde entiteiten worden geïntroduceerd (verdachte, slachtoffer, naam patiënt, etc.) en in welke context ze moeten worden vervangen door welke vervangingsterm. Om dit te bewerkstelligen wordt per domein handmatig een algoritme ontwikkeld, waarin handmatig de specifieke kennis van het betreffende domein (juridisch, medisch) wordt ondergebracht die bepaalt hoe termen moeten worden vervangen. Daarnaast is het mogelijk dit algoritme zo te implementeren dat deze automatisch leert uit voorbeelden. Een dergelijke hybride oplossing heeft de volgende voordelen:

  • De software kan handmatig worden bijgestuurd door een wijziging aan te brengen in het algoritme.
  • De software kan in een relatief korte tijd worden aangepast aan een andere soortgelijke toepassing – bij rechtbanken kan de anonimiseermodule die voor de sector Straf is ontwikkeld met kleine aanpassingen worden ingezet in bijv. de sector Civiel. Dit omdat alleen de basale functionaliteit handmatig moet worden geïmplementeerd. De rest zal de software zelf leren.

Techniek
Anonimiseringstechnieken worden gerekend tot de Privacy Enhancing Technologies (PET): technieken die worden toegepast om privacybescherming te waarborgen.1 Bij grote veelheden vrije, ongestructureerde tekst is er veel inspanning nodig om de persoonsgegevens binnen een tekst te herkennen. Taaltechnologie kan dit proces vergemakkelijken.

De anonimiseersoftwaremodule is een viewer die de documenten toont en daarin de privacygevoelige passages markeert. Vervolgens beoordeelt de gebruiker of ze geanonimiseerd moeten worden. De software wordt op maat gemaakt aan de hand van informatie met betrekking tot de juridische regels en richtlijnen die op de gegevens van toepassing zijn. Naar aanleiding van deze regels wordt bepaald welke mate van interventie door de gebruiker nodig is bij het anonimiseringsproces. Veiligheidshalve worden in eerste instantie meer passages getoond dan volgens deze regels geanonimiseerd zouden moeten worden. De gebruiker beslist over de juistheid met een enkele muisklik. Na intensief gebruik van het prototype is deze zodanig getraind dat het aantal ‘overbodige’ suggesties zeer sterk afneemt. Op termijn kan de module zelfs geheel automatisch anonimiseren.

De anonimiseringssoftware bestaat uit een groot aantal onderliggende technologieën die door Carp Technologies zijn ontwikkeld. Er is sprake van een gelaagd, hiërarchisch model. Een technologie bestaat uit een samenstel van technieken, een (software) product uit een samenstel technologieën. De belangrijkste technieken zijn:

  • Tekststructuuranalyse.
  • Sentence Boundary Detection voor het opdelen in zinnen.
  • Named Entity Recognition voor het vinden van namen.
  • Pattern Recognition voor het analyseren van de context.
  • Fuzzy matching voor het omgaan met spellingsvarianten in namen.
  • Classificatie voor de roltoekenning.
  • Parsing voor het ontleden van de zinsstructuren.

Deze technieken vormen de basis van de ontwikkelde technologieën die op een zodanige wijze gecombineerd worden, dat er toepassingen (software) kunnen worden gecreëerd waarmee onder andere kan worden samengevat, gerubriceerd en geanonimiseerd. Bovenop deze software wordt een speciale gebruikersinterface ontwikkeld op basis van de wensen van de eindgebruiker. De combinatie van softwareprogramma en gebruikersinterface maakt het tot een gebruiksklaar product.
De stand-alone versie van de anonimiseersoftware is geïmplementeerd in Java en draait op een Java Virtual Machine (JVM). De JVM wordt meegeleverd met de applicatie en door de installer samen met de applicatie geïnstalleerd.
Jurisource®Anonimiseren2 leest en schrijft tekstbestanden en kan Microsoft Wordbestanden inlezen. Als derde kan de anonimiseersoftware .nlf-bestanden lezen en schrijven. Dit formaat wordt gebruikt om geanonimiseerde documenten op te slaan waar nog verder aan gewerkt kan worden.

Voorbeeld uit de praktijk
In opdracht van de Raad van de Rechtspraak is door Think Legal en Carp Technologies een anonimiseringssysteem ontwikkeld dat nu ruim anderhalf jaar bij de Rechtbank van Utrecht in productie draait. Hiermee worden besparingen in tijd van meer dan 50% behaald bij een hogere kwaliteit. De reden voor de opdracht was mede om te onderzoeken op welke manier de publicatie van uitspraken (vonnissen) kan worden vergroot.
Een ander domein waar de anonimiseertoepassing kan worden gebruikt is de medische wereld, bijv. voor het anonimiseren van en de analyse van medische dossiers.

 

ton@thinklegal.nl

Ton van der Stap is directeur van Think Legal BV (www.thinklegal.nl)


1 Privacy-Enhancing Technologies (PET) is a system of ict measures protecting informational privacy by eliminating or minimizing personal data thereby preventing unnecessary or unwanted processing of personal data, without the loss of the functionality of the information system (van Blarkom, Borking & Olk, 2003).

2 Jurisource® is de geregistreerde naam van de softwareproducten van Think Legal BV. Deze producten worden in samenwerking met Carp Technologies ontwikkeld.