22 februari 2012

De kracht van OCR

image for De kracht van OCR image

Wat is OCR?
Optical Character Recognition (OCR) of in het Nederlands optische tekenherkenning is een transformatie, waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens in de afbeelding worden herkend en apart worden opgeslagen door een computer(programma). Oftewel, de tekst uit een afbeelding wordt omgezet in een bewerkbare tekst. Bewerkbaar voor hergebruik, voor het vullen van metadata of voor het doorzoekbaar en vindbaar maken van documenten.

Wat is OCR?
Optical Character Recognition (OCR) of in het Nederlands optische tekenherkenning is een transformatie, waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens in de afbeelding worden herkend en apart worden opgeslagen door een computer(programma). Oftewel, de tekst uit een afbeelding wordt omgezet in een bewerkbare tekst. Bewerkbaar voor hergebruik, voor het vullen van metadata of voor het doorzoekbaar en vindbaar maken van documenten.

Voordelen OCR
Door inzet van deze techniek kan veel arbeid die gemoeid gaat met het indexeren van documenten bespaard worden. OCR kan, mits goed toegepast, deze arbeid reduceren, waardoor de besparingen aanzienlijk zijn. Bijkomend voordeel is dat de software relatief betaalbaar is.

Nadelen OCR
Nadeel is dat het op gang brengen (voorbereiding en inregelen), houden en gereedkomen van volwassen en betrouwbare toepassingen eisen stelt aan het doorzettingsvermogen en de vaardigheden van mensen in organisaties om deze techniek te gebruiken en samen te werken op basis van woordsystemen/taxonomieën en dergelijke.
Full tekst-zoeken is succesvol als voor begrippen in dezelfde context ook steeds dezelfde termen door iedereen (binnen en buiten de organisatie) worden gebruikt. Full tekst-zoeken levert betrouwbare resultaten vanaf het moment dat OCR-doorzoekbare teksten zijn opgenomen. Dit in tegenstelling tot pdf-images die niet OCR-doorzoekbaar zijn.

Voorbeelden OCR-techniek
Herkenbare voorbeelden van OCR-techniek zijn:

  • kentekenherkenning (foto’s voor verbaliseren snelheidsovertredingen);
  • factuurherkenning (indexeren metadata op basis van vaste gegevens: automatisch boekhouden);
  • Cito-toets (markers);
  • digitaliseringprojecten, bijvoorbeeld bij de Koninklijke Bibliotheek, e-books en stamkaarten van bevolkingsregisters.

Gebruik van OCR
Bij veel organisaties wordt OCR al gebruikt. Voorkomende vormen zijn:

  • OCR – Optical Character Recognition: het ‘lezen’ van geprinte karakters;
  • ICR – Intelligent Character Recognition: maakt het mogelijk om handgeschreven karakters met succes digitaal te herkennen;
  • OMR – Optical Mark Reading: voor de automatische herkenning van aangekruiste hokjes (multiple choice);
  • barcodeherkenning: het automatisch lezen van zowel een- als tweedimensionale barcodes;
  • patroonherkenning: herkenning van logo’s, documentstructuren en formaten.

OCR in postprocessen
OCR in postprocessen komt in vijf werkwijzen voor, te weten:
a Factuurscanning met OCR
Op basis van een aantal vaste kenmerken, zoals bestelnummer, bankrekeningnummer e.d., worden gegevens via OCR ingelezen als metadata in een DMS en doorgegeven aan het financiële systeem. Soms met inbegrip van bedragen in- en exclusief btw, factuurregels en bestelbonnen (bijlagen).

Nodig voor factuurscanning met OCR
Het inregelen van facturen voor scan-herkenning kost de nodige tijd en investering van een ‘inregelaar’ (drie dagen), scanoperator (twee weken in een periode van meestal drie maanden) en opdrachtgever; bovendien kost het inregelen de nodige procestijd. Daarnaast is een investering vereist in intelligente scansoftware en formulierherkenning die ingesteld moet worden (kost ca. 25.000 euro, t.b.v. Kofax, ABBYY-licentie, tellertikken, capture op DMS, koppeling financieel systeem en consultancy).
Het percentage herkenning moet na drie maanden boven de 90% liggen. Soms zijn er trajecten met een langere aanlooptijd die een lagere herkenning opleveren: scanoperators hebben (te) vaak niet het niveau en doorzettingsvermogen om dit vlot tot een goed einde te brengen. Vaak zijn het ook mensen die het invoerwerk zelf kennen en het invoeren is dan voor hen een bekende optie die wordt verkozen boven het optimaliseren van de OCR-techniek en -werkwijze (werkvoorbereiding: zoals te kleine letters, kleurgebruik e.d.). Minder modellen, minder kosten, meer efficiency.
Door de inzet van webformulieren is het de vraag of het nog loont in deze methode veel energie te steken. Bij massale formulierstromen, zoals we die kennen bij de sociale diensten (inkomstenbriefjes), UWV en vroegere SVB-AKW-formulieren, zou dat lonen en wellicht is de methode ook bekend en werd die in het verleden gebruikt.

b Formulierherkenning als input
Hierbij wordt het door eenvormige formuliermaskers voor een aantal variabelen mogelijk gemaakt om een veelvoud van formulieren vlot gereed te maken voor invoer door scanning en inzet van OCR. Bij het vervaardigen van deze formulieren dient rekening gehouden te worden met de inrichting van de formuliermaskers, markers (invulvelden) en gelijkvormigheid, zodat de input wordt gestandaardiseerd en eenvoudig in te lezen is. Gegevens moeten op vaste plaatsen worden ingevoerd. Bij formulieren wordt handgeschreven informatie succesvol herkend met OCR. Adressen, telefoonnummers en postcodes bestaan bijvoorbeeld uit een vast formaat: die zijn handgeschreven en met OCR herkenbaar te maken (adressen bijvoorbeeld aan de hand van een referentielijst voor optimale correctie).
c Postscanning uitgaand
Deze vorm lijkt heel erg op een formulier. Hierbij zijn de briefsjablonen eenvormig ingericht en staan de gegevens op vaste plaatsen. Outputmanagement en OCR kunnen hierbij een tussenstap zijn voor de indexering/vulling van metadata. Deze wijze van verwerken kan gehandhaafd worden zolang brieven nog los worden gemaakt, nat getekend en digitaal gearchiveerd. Nu hebben secretariaten daar veel werk aan, terwijl de NAW- en nogal wat andere gegevens ook geautomatiseerd in het proces kunnen worden opgenomen in een brief (zie ook sjablonen/visual basic hieronder). Deze worden vaak in de welbekende brievenboeken nogmaals ingevoerd. Door dit met OCR te mechaniseren kan een efficiencyslag gemaakt worden. Het formuliermasker instellen lijkt veel op de variant factuurscanning. Het verschil is dat de organisatie de output helemaal zelf maakt, waardoor een score tot een nauwkeurigheid van 99% mogelijk is.
d Postscanning inkomend (extern bij een marktpartij)
Deze variant wordt in de markt door verschillende partijen aangeboden. Hierbij zijn er grofweg drie methoden:

  • NAW-herkenning geadresseerde grof: de organisatie ontvangt hierbij de post gescand via de ftp-server of rechtstreeks in een applicatie die ‘openstaat’ voor de scanstraat (100% betrouwbaar);
  • NAW-herkenning geadresseerde, bruikbaar voor routeren – bijvoorbeeld naar afdelingen/secretariaten – en ook bruikbaar voor het scheiden van de uitvoeringspost van secundaire processen, mits de adressering verschilt door het gebruik van afdeling, secties, namen van medewerkers of het slim inzetten van verschillende postbusnummers; dit wordt al bij verschillende vestigingen toegepast (90% betrouwbaar);
  • als hierboven, aangevuld met onderwerpherkenning en full tekst-OCR op basis van woordsysteem, taxonomie, classificatieschema/DSP, waarbij het systeem een voorstel doet voor onderwerpsontsluiting en de daarbij behorende routering (60 tot 80% betrouwbaar).

e Full tekst-search
Achteraf doorzoekbaar maken van bijvoorbeeld brievenboeken van secretariaten op de I-schijf, outlook (bijlagen) en downloadable files op intranet. Ook in te zetten bij enterprise search; achteraf is afscherming te regelen voor privacy, vertrouwelijkheden en embargo (oplopende moeilijkheidsgraad). Al enkele private ondernemingen werken op deze wijze en ook ICT- (techniek gedreven) collega’s zien deze ontwikkeling steeds meer als begaanbare weg voor de nabije toekomst. Zylab DMS heeft hier, voor zover nagegaan kan worden, de meest geïntegreerde toepassingen voor (in ontwikkeling). Voorbeelden van bedrijven die hiermee werken zijn de AIVD, Intelligence Defensie e.d.

De plek van OCR in de techniek
Bij uitbesteding is er veel ervaringskennis en vlot ingeregelde technologie beschikbaar. Nadeel is dat OCR dan buiten bereik blijft van de interne processen en informatievoorziening, tenzij je deze functionaliteit direct mee ‘inkoopt’.
Bij centraal scannen in eigen beheer is de positionering van OCR in de techniek een van de belangrijkste afwegingen.
Hierin valt een keuze te maken uit het positioneren:
a op de scanner(s)

  • voordeel daarvan is dat de software vaak nog geavanceerder en moderner kan worden ingeregeld;
  • nadeel is dat OCR installeren op veel scanners een behoorlijke investering vergt (€ 4.500 per scanner); wellicht is de hoge investering ook de reden dat OCR op het huidige MF-park bij veel organisaties nog niet beschikbaar is;

b in het DMS-onderdeel Capture

  • voordeel van positionering in het DMS is dat het in één keer in te regelen is voor alle bestanden (inkomende, interne en uitgaande post);
  • nadeel kan zijn dat in het DMS niet alle bestanden zitten: hoge relevantie, lage vangst; met een DMS/RMA aanstaande voor alle ondersteunende diensten op basis van een portaal met als basis o.a. een I-schijf, wordt dit nadeel beperkt;

c aanvullend op ‘zelflerende systeem’-tabellen, waar door OCR aan gerefereerd en op geïndexeerd kan worden;
d aanvullend werken met OCR-technologie, bijvoorbeeld Kofax of IRIS;
e aanvullend werken met spraakherkenningtechnologie, bijvoorbeeld Dragon.

Achteraf indexeren met de inzet van OCR op uitgaande brieven of web-content kan vervallen, indien implementatie van het DMS/RMA in een ‘big-bang’- scenario gerealiseerd gaat worden en voorzien is van data-tekst integratie.

Het is een belangrijke afweging om met de huisleveranciers (multifunctionals en databases, bijvoorbeeld: ORACLE) op basis van requirements, offertes en PoC’s aan de slag te gaan versus het uitbesteden aan daarvoor gespecialiseerde bedrijven. Wanneer deze twee trajecten dicht bij elkaar gehouden worden door te werken met een intern expertteam, geeft dit belangrijke meerwaarde.

Voorbij OCR
OCR is een techniek die afbeeldingen transformeert naar tekst. Tekst- en gegevensintegratie van digitale informatie in bijvoorbeeld websites, e-mail, social media en DMS/RMA-office- integratie beperken de urgentie tot inzet van OCR. Digitale informatie is, indien bereikbaar en toegankelijk opgeslagen, doorzoekbaar en herbruikbaar. Voorbeelden die OCR voorbij zijn betreffen:
a Channelmanagement webintake en servicebus
Postverwerking slinkt. Steeds vaker zal post die nu nog ontvangen of verzonden wordt, in de nabije toekomst aangeboden worden via internet (webintake en servicebus). De formulieren worden webformulieren en daarmee wordt de gegevensinvoer verzorgd door onze klanten of door gegevensleveranciers. Output wordt beschikbaar gesteld met de servicebus, waarop een view mogelijk is door de klanten en er zo nodig door hen geprint kan worden. De notificatie van het webbericht zal naar keuze via mail of sms gaan plaatsvinden.
b Channel e-mail (vrijblijvend of meer dwingend)
In- en outputmanagement schuift in snel tempo van brief naar e-mail. E-mail is het medium om afspraken vast te leggen. Hiermee vervangt het in veel gevallen de brief met natte handtekening. Relaties in de ondersteunende processen kunnen nog gemakkelijker dan in het primair proces via email post zenden en er kunnen aan hen ook e-mails verstuurd worden. In de Wet elektronisch berichtenverkeer uit 2004 is dat ook geregeld.
In de praktijk worden steeds vaker brieven naar een behandelende sectie gezonden die eerder ook al per e-mail waren gezonden. Zo gaan soms formele brieven met een natte handtekening ter bevestiging van e-mailverkeer naar relaties.
In een office-koppeling zien we dat e-mailregistratie maximaal beperkt blijft tot de e-mailvelden van, aan en onderwerp. Bijlagen kunnen naar keuze worden bijgevoegd of liever, zoals de archiefvoorschriften dit voorschrijven, apart worden opgenomen. Lastig voor de leesbaarheid van een e-mail is, dat Capture-toepassingen e-mail in een DMS vanwege de archief-vereisten ook de ‘plaatjes’ als aparte bijlagen behandelen.
Dat e-mail niet vaker ook bij de ondersteunende processen als formeel medium ter bevestiging van afspraken wordt ingezet, is omdat de brief als juridisch krachtiger en duidelijker wordt gezien door medewerkers. Bovendien is de betrokkenheid van het management bij brieven (nat ondertekenen) helderder.
Ook voor de bedrijfsvoering lijkt het kanaal e-mail ‘voorbij’ gestreefd te worden door het preferente kanaal ‘intranet’ voor stafdiensten. Steeds meer zien we dat organisaties het gebruik van

  • intranet stimuleren;
  • de balie als ongewenst kanaal zien, en ook post, e-mail en telefoon liever niet gebruikt zien;
  • steeds meer producten, diensten en bedrijfsvoering via intranet gaan; dus het kanaalgebruik bedrijfsvoering wordt gestandaardiseerd, oftewel: klant verleiden naar intranet, producten via intranet aanbieden, toepasbaarheid inzet intranet bepalen voor R&D van bedrijfsvoering (HRM, ICT en facilitaire helpdesks).

c Sjablonen
Sjablonen voor brieven, memo’s e.d. (documaker, visual basic), document workflow en digitaal ondertekenen kunnen door eindgebruikers van een DMS worden gebruikt (mits ingericht en beschikbaar). Hierbij worden metadata uit de database samengevoegd met office-documenten in specifieke velden. Door gebruik bij eindgebruikers in een DMS te stimuleren of deze systemen te koppelen wordt metadateren en indexeren als onderdeel van het schrijven van een brief gedaan. Collega’s en secretariaten kunnen hier een scan of versies op aan laten sluiten. Bij verdergaande kantoorautomatisering zal ook de getekende scan vervallen, omdat managers in het systeem valideren en scannen achteraf tot het verleden behoort.

Analyse
De ontwikkeling van OCR in kantoren is bijvoorbeeld bij verzekeraars, Belastingdienst, Defensie/IAVD, UWV en de ‘slimmere’ gemeenten verder ontwikkeld dan elders. Huisleveranciers van DMS/RMA-oplossingen en ook van MF-scanners kunnen voorbeelden noemen van succesvolle toepassingen. Door outsourcing van inkomende en uitgaande post kan zowel de arbeidsbesparing als de technische investering vlot geïmplementeerd worden. Bij outsourcing moet de kracht van OCR wel in het ‘huis DMS/RMA’ beschikbaar komen en bij voorkeur op elkaar aangesloten zijn en blijven.
De opties waarbij OCR vlot ingezet kan worden, zijn:

  • de voorkant van het proces bij de inkomende post; meestal nog vaak in combinatie met barcodes en ‘voorbladen’;
  • de automatische vulling van metadata (ICR); deze toepassing wordt veel gezien bij facturatie en uitgaande post en bij import van e-mail, waarbij de belangrijkste gegevens (afzender/geadresseerde en onderwerp) worden gevuld;
  • OCR voor herindexering (zoeken/vinden of indexeren achteraf); dit wordt nog met weinig succes toegepast; DMS leveranciers leveren deze optie wel, maar deze betrouwbaar inregelen laat nog vaak te wensen over; aandacht van de opdrachtgever en multidisciplinair ‘kijken’ is hiervan vaker dan de techniek de oorzaak;

Minder voorkomende opties zijn:

  • OCR-herkenning voor handgeschreven informatie, zoals toegepast in formulieren op vaste plekken bij voorspelbare betekenis en ‘format’ (adres, postcode e.d.);
  • OCR in combinatie met OMR (Optical Mark Recognition), toegepast bij enquêteformulieren (webenquêtes komen hiervoor in de plaats);
  • Audio- en audiovisueel materiaalherkenning; deze optie blijkt nog maar beperkt mogelijk.

OCR loont bij hoge volumes en vergt inzet van techniek, voorbereiding (DSP/woordsysteem), samenwerkende disciplines en doorzettingsvermogen.

Aanbeveling
Om OCR effectief in te kunnen zetten wordt aanbevolen een innovatieteam OCR in te zetten, waarin de business (uitvoering en ondersteuning), ICT en FB (MF-inzet) deelnemen. Bij de inrichting van een innovatieteam moeten de volgende zaken tenminste geregeld zijn:

  1. Tijdspad: hoelang, frequentie in tijd – piek in aanloop, na realisatie periodiek.
    Kostenverlaging DIV ‘In process’
    In de provincie Gelderland is na een berekening vastgesteld, dat de kosten voor DIV ‘in-process’ verlaagd kunnen worden van 11,32 euro richting 5,45 euro per poststuk (scannen, selecteren, registreren, digitaal intern verzenden en verzamelen).
    DIV wil zich meer concentreren op advies, beleid, audit en functioneel beheer. Die ruimte ontstaat als het tijdrovende DIV ‘in-process’ wordt uitbesteed, met uitzondering van de meer complexe post, waarbij het juist indexeren meer kennis behoeft en meer specialistisch is.
  2. Meetbare resultaten/producten. Welke worden in tijd opgeleverd?
  3. Innovatieteam OCR. Welke afgevaardigden van organisatieonderdelen nemen zitting in het team?
  4. Positie van het innovatieteam OCR. Welke positie neemt het team in ten opzichte van de lijn- en stafafdelingen en in hoeverre dient het advies vanuit het innovatieteam te worden opgevolgd? Dan wel: wie geeft uiteindelijk bij een uiteenlopende visie de doorslag?
  5. Baten. Concretiseer de baten (kwantificeerbaar en kwalitatief) ten opzichte van handmatig registreren, uiteraard afgezet tegen de investering die hiermee gemoeid gaat.
  6. Voor- en nadelen. Breng de voor en nadelen (risico’s) voor de organisatie helder voor het voetlicht en maak duidelijk dat een innovatieteam de nadelen (risico’s) kan minimaliseren en de voordelen kan vergroten.

Conclusie
Binnen organisaties wordt OCR vooral toegepast waar ‘massa’ een rol speelt. Hoge volumes en hoge vormen van eenvormigheid worden in de nabij toekomst met (web)formulieren opgelost (klant doet gegevensverwerking). Door OCR-toepassingen is het technisch mogelijk ook bij lagere volumes en minder eenvormige poststromen te routeren en te indexeren (automatisch metadata toekennen). De inzet van servicebus en webtechnologie verloopt trager dan verwacht.
Informatie-intensieve organisaties met enige omvang en volumes zijn gebaat bij een eigen OCR-strategie en inzet. Post- en andere contentvormen moeten full tekst-doorzoekbaar in één DMS/RMA worden opgenomen. In veel organisaties wordt daar ook al op ingezet. Indien gekozen wordt voor post uitbesteden, dan is samenwerking en een naadloze aansluiting een vereiste.
Het is belangrijk te starten met (het optimaliseren van) OCR-gebruik, omdat het loont om volledig geautomatiseerd te indexeren en ook niet geïndexeerd digitaal materiaal van informatiedragers doorzoekbaar en vindbaar te maken en te houden. De opbouw van woordsystemen, taxonomie, DSP en thesauri alsmede de informatiebeveiliging rondom processen is hierbij noodzakelijk.
De benodigde techniek en systemen maakt het mogelijk om achterstallig onderhoud op digitale opslag van bijvoorbeeld de I-schijf, outlook en webcontent te doen voor wat betreft vernietigen en bewaren.

hanscordfunke@becis.nl, Hans Cordfunke is Directeur BECIS bv.
aplat@hermes-am.nl, André Plat is redactielid Od.

Meer lezen?