6 juni 2017

Scannen voor vervanging

image for Scannen voor vervanging image

Overheden scannen conform lokaal opgestelde besluiten en interne richtlijnen met als doel de papieren documenten te vervangen of op termijn te vervangen. In het kader van het programma Archief2020 is een Handreiking Vervanging Archiefbescheiden opgesteld, waarmee overheden het vervangingsproces kunnen inrichten. In deze handreiking wordt meerdere malen naar de Richtlijnen Preservation Imaging Metamorfoze verwezen.

Overheden scannen conform lokaal opgestelde besluiten en interne richtlijnen met als doel de papieren documenten te vervangen of op termijn te vervangen. In het kader van het programma Archief2020 is een Handreiking Vervanging Archiefbescheiden opgesteld, waarmee overheden het vervangingsproces kunnen inrichten. In deze handreiking wordt meerdere malen naar de Richtlijnen Preservation Imaging Metamorfoze verwezen. Bij het proces van vervanging kwamen ten aanzien van de scan- en beeldkwaliteit de volgende vragen naar voren: ‘Hoe wordt er in het land gescand’, ‘Wat is de opgeleverde beeldkwaliteit en is deze beeldkwaliteit voldoende voor vervanging?’, ‘Hoe constant is de beeldkwaliteit en heeft men daar zicht op?’ en ‘Hoe controleert men de beeldkwaliteit?’.

Uitvoeringonderzoek
Voor de uitvoering van dit onderzoek heb ik meerdere instellingen bezocht. Ik heb het werkproces van digitalisering beoordeeld en de gebruikte scanners getest. Ook heb ik verschillende doorvoerscanners getest met leveranciers.1

Voor het beoordelen van de scanprestatie van een scanner moeten er zogenaamde ‘technische targets’ worden gescand. De opnamen van deze technische targets worden vervolgens, met speciaal daarvoor ontwikkelde software, geanalyseerd en daarna objectief beoordeeld. Hierbij spelen onder meer belichting en contrast (tonale prestatie), aantal pixels per inch (ppi) en scherpte een rol.
De scans van de technische targets moeten worden aangeleverd in een valide, liefst ongecomprimeerd, bestandsformaat zoals TIFF of JPEG2000. Voor het zuiver beoordelen van de technische prestatie van een scanner mogen op deze scans geen nabewerkingen, zoals verscherping of contrastaanpassingen, zijn toegepast. Deze eerste generatie en onbewerkte scans worden aangeduid met de naam ‘masterbestanden’.

Conclusie
De uitkomst van mijn onderzoek is dat scannen voor vervanging door overheden nu nog een brug te ver is.

Deze conclusie baseer ik op de volgende punten:

  1. Er wordt gebruik gemaakt van een onjuist werkproces.
  2. Er wordt gebruik gemaakt van apparatuur die ongeschikt is voor digitalisering conform richtlijnen voor informatiebehoud.
  3. Er is onvoldoende kennis aanwezig om te scannen voor vervanging.

Werkproces
De Metamorfoze-richtlijnen, zijn geschreven voor het betrouwbaar uitvoeren van digitaliseringsprojecten. De kern, het hart van de Metamorfoze-richtlijnen, is de objectief meetbare borging van informatiebehoud in het masterbestand. Na technische beoordeling en goedkeuring van de masterbestanden kunnen afgeleiden gemaakt worden voor gebruik. Dit kunnen pdf-bestanden of JPEG-bestanden zijn. De masterbestanden worden vervolgens opgeslagen voor lange termijn.

De technische beoordeling van masterbestanden met technische targets is een essentieel onderdeel in het werkproces van digitalisering conform richtlijnen, zoals de Metamorfoze- richtlijnen. Deze wordt, om de beeldkwaliteit en stabiliteit te monitoren en te garanderen, dagelijks, eenmalig per systeem (camera of scanner) voor aanvang van de productie uitgevoerd door bedrijven en instellingen die conform de Metamorfoze-richtlijnen digitaliseren. Daarnaast worden de geproduceerde en bij de Koninklijke Bibliotheek (KB) aangeleverde masterbestanden voor het conserveringsprogramma Metamorfoze nog eens, middels een steekproef, technisch beoordeeld.

Kwaliteit en stabiliteit zijn twee verschillende grootheden. Digitaliseringsprojecten kunnen een lange looptijd hebben. Denk hierbij aan meerdere jaren. Hierbij moeten systemen dagelijks, in sommige gevallen zestien uur per dag, bestanden met dezelfde beeldkwaliteit kunnen opleveren. Dit is natuurlijk belastend voor de systemen en het ene systeem is daar beter voor ontworpen en uitgerust dan het andere systeem. Systemen die conform de Metamorfoze-richtlijnen moeten kunnen presteren, worden dus geselecteerd op het duurzaam kunnen behalen van een duidelijk omschreven beeldkwaliteit.

Direct een pdf-bestand
In de gemeentelijke instellingen die ik bezocht wordt direct naar een pdf-bestand gescand. Dit gebeurt zonder het eerstegeneratiebestand, het masterbestand, eerst technisch te beoordelen. Ook worden scanners niet technisch beoordeeld met technische testkaarten. Dit betekent dat men geen objectief meetbaar inzicht heeft in de technische prestatie van de scanner of van de scanners. En dat men geen objectief meetbaar inzicht heeft in de stabiliteit van de scanner of scanners. En dit betekent ook dat men geen inzicht heeft in het niveau van informatiebehoud dat men elke dag bereikt, of niet bereikt, bij het creëren van de pdf’s voor vervanging.

Het werkproces bij de gemeentelijke instellingen is veelal strak ingericht. Het verkrijgen van een onbewerkt eerstegeneratiebestand, zonder tussenkomst van een applicatiebeheerder of specialist, bleek tijdens mijn bezoeken vaak een moeilijke opgave. Soms lukte dit ook maar ten dele.

Het door de doorvoerscanners gefabriceerde eerstegeneratiebestand is al gecomprimeerd. De TIFF-bestanden die ik vervolgens kreeg waren ook gecomprimeerd. Meerdere malen was dit een zogenaamde ‘old style’-JPEG-compressie. Deze bestanden kon ik niet in Photoshop openen. Ook kreeg ik herhaaldelijk 1 bit-bestanden in plaats van 8 bitbestanden. Herhaaldelijk kreeg ik ook bestanden die door de DMS-software al waren bewerkt. Zoals automatisch rechtzetten. Hierbij wordt een scan een paar graden geroteerd. Dit roteren heeft een negatief effect op de scherpte. Dan is de scherpteprestatie van scanner niet meer te achterhalen.

Apparatuur
Primair van belang, bij het beschrijven en het beoordelen van een gewenst niveau van informatiebehoud, is de tonale prestatie van de scanner. Om de tonale prestatie objectief te kunnen beoordelen moet het masterbestand beschikken over een ingesloten kleurruimte (zie Handreiking Vervanging Archiefbescheiden, Metamorfoze-richtlijnen.2

Slechts enkele merken doorvoerscanners, o.a. InoTec en WideTek, leveren bestanden met ingesloten kleurruimte. De doorvoerscanners en multifunctionals die ik tijdens mijn onderzoek heb getest en beoordeeld, kunnen geen van alle bestanden leveren met een ingesloten kleurruimte. Hierdoor is het verlies aan beeldinformatie niet te berekenen en dus niet inzichtelijk te maken. Door dit gemis kan er geen risicoanalyse, of een beargumenteerde beslissing gemaakt worden over een gewenst niveau van informatiebehoud.

Dit maakt deze groep scanners ongeschikt voor digitalisering conform richtlijnen voor informatiebehoud.

Voor het scannen van bitonaal drukwerk zal het ontbreken van een risicoanalyse geen probleem opleveren. Het ontbreken van een risicoanalyse is kwalijk bij het scannen van originelen met zwakke tekstuele informatie (handtekeningen, potloodaantekeningen, stempels, verkleurde drukletters). Omdat bij het scannen van deze groep originelen gemakkelijk informatieverlies optreedt.

De geteste scanners heb ik ook allemaal beoordeeld op scherpteprestatie. De scherpteprestatie was zeer wisselend. Een scanner alleen beoordelen op de scherpteprestatie is zeer discutabel. Wat heeft men immers aan een scherp beeld, wanneer men geen inzicht heeft in de tonale prestatie en onbekend is in hoeverre visuele informatie behouden blijft? Voor een goede OCR-prestatie is natuurlijk de scherpte van belang. Maar wanneer een deels verkleurde letter in het origineel, tijdens het scannen, is weggevallen door de slechte tonale prestatie van de scanner, is een goede scherpteprestatie zinloos.

Naast het behalen van een bepaalde prestatie is ook, zoals al eerder vermeld, de stabiliteit van een scanner essentieel bij het borgen van kwaliteit. Zodra een scanner een bepaalde mate van stabiliteit bezit, kan men een digitaliseringsproject gaan schalen, indelen en plannen.
Bij het borgen van kwaliteit is het daarom van belang om zoveel mogelijk variabelen uit te sluiten. Bij de multifunctionals die ik getest heb zijn de scaninstellingen eenvoudig per scan in te stellen en te veranderen. Dit alleen al maakt deze scanners ongeschikt voor het gestandaardiseerd en gestructureerd uitvoeren van digitaliseringsprojecten.

Naast alle technische details zijn doorvoerscanners en multi functionals fysiek belastend voor de originelen. Dit aspect heb ik niet meegenomen in mijn onderzoek.

Kennisniveau
Digitalisering voor conservering en voor vervanging is een vak. Voor het betrouwbaar en gestructureerd inrichten en uitvoeren van digitaliseringsprojecten is kennis nodig van het gehele digitaliseringsproject. Dit geldt voor alle betrokkenen, dus zowel voor de leveranciers als voor de managers en uitvoerders. Kennis immers, van onder andere bestandsformaten, metadata, beeldkwaliteit, technische testkaarten, scanners & camera’s en, niet te vergeten, de te behouden visuele informatie in de originelen, maakt het mogelijk om digitaliseringsprojecten gestandaardiseerd en gestructureerd in te richten.

Illustratief voor het ontbreken van kennis zijn de volgende uitspraken en opvattingen die ik tijdens mijn bezoeken tegenkwam:

We scannen dagelijks veilig naar TIFF-A” werd me geruststellend medegedeeld tijdens een van mijn werkbezoeken. Met TIFF-A werd natuurlijk PDF-A bedoeld. En een work- #ow waarbij direct naar PDF-A wordt gescand zonder het masterbestand technisch te beoordelen is, vanuit het oogpunt van informatiebehoud, alles behalve veilig. Zonder technische controle weet men immers niet wat men doet. Ook zegt een bestandsformaat, in dit geval pdf, niets over de beeldkwaliteit. En is een scan van een technische testkaart in een pdf- bestand niet meer technisch te analyseren en te beoordelen. Bovendien wordt het eerstegeneratiebestand nog eens gecomprimeerd bij het wegschrijven naar het tweedegeneratiebestand, de pdf.

Ja, maar ik zie het toch in de pdf als er informatie ontbreekt?” is een veel gehoorde opmerking. Er wordt immers een visuele controle op het scanwerk uitgevoerd. Maar er zijn veel beeldcriteria die men met het oog niet kan beoordelen. Het gaat hier om essentiële beeldcriteria die een belangrijke rol spelen bij informatiebehoud en opslag, zoals de belichting en het contrast (tonale prestatie) en het aantal ppi en de scherpte. Bovendien kan men niet vertrouwen op wat men ziet. Er zijn namelijk heel veel verschillende soorten beeldschermen en beeldscherminstellingen. Ook is kleurbeleving subjectief, humeur afhankelijk, en verandert in de loop van de dag en met de leeftijd.
Visuele controle is goed voor de controle op volledigheid en artefacten. Artefacten zijn ongewenste, storende en onvoorspelbare elementen in het digitale beeld, die niet in het origineel waarneembaar zijn. Zoals, mogelijk bij doorvoerscanners en veroorzaakt door stof, gekleurde strepen in de scan-richting. Of het verspringen of afbuigen van tekst of lijntjes in tekeningen of rasterpatronen, veroorzaakt door ongelijkmatige doorvoer van het origineel. Maar visuele controle is ontoereikend als het gaat om essentiële beeldcriteria en het verkrijgen van objectief inzicht in de mate van informatiebehoud. Daarnaast is het grote voordeel van objectief meetbare kwaliteitscriteria dat ze uitwisselbaar en communiceerbaar zijn.

Voorbeelden informatieverlies door slechte tonale prestaties.
Voorbeelden informatieverlies door slechte tonale prestaties. In de eerste twee afbeeldingen zijn de datums: 8, 15, 22 en 29 februari verloren gegaan.

In verschillende handboeken voor vervanging staat nog steeds de digitale Quality Index vermeld als betrouwbare formule voor het meten en beoordelen van de scherpte. Dit is echter een oude en niet in praktijk toepasbare formule, gebaseerd op veronderstellingen. Er bestaan sinds lange tijd ISO-standaarden voor het meten van de scherpte van een digitaal beeld.3

Ook hoor ik regelmatig dat beeldkwaliteit en bewaartermijn van elkaar afhankelijk zouden zijn. In de betekenis van: hoe langer de bewaartermijn, des te beter zou de beeldkwaliteit moeten zijn. En omgekeerd zou ook gelden: hoe korter de bewaartermijn, des te minder van belang zou een goede beeldkwaliteit zijn. Maar beeldkwaliteit en het belang van informatiebehoud zijn natuurlijk niet afhankelijk van de bewaartermijn. Want informatieverlies dat is opgetreden tijdens het scannen, is immers onomkeerbaar. En is altijd nadelig voor het gebruik. Verloren informatie kan, zodra de originelen vernietigd zijn, nooit meer gelezen, gezien, gebruikt of teruggehaald worden. Het Programma Metamorfoze is een conserveringsprogramma. In dit programma worden de originelen duurzaam opgeslagen. En indien nodig kunnen de originelen nog geraadpleegd worden. Bij vervanging worden de originelen vernietigd. En kunnen dus niet meer ingezien worden. Indien deze originelen gescand zijn zonder objectieve borging van informatiebehoud weet men dus niet wat men aan informatie behouden heeft. En dat is ook nooit meer te achterhalen.

Meer informatie:

hans@preservationimaging.com, Hans van Dormolen is onafhankelijk adviseur digitalisering.

* De auteur bedankt iedereen die heeft meegeholpen aan het onderzoek. In het bijzonder André Plat, Robbert Jan Hageman, Anco Jansen en Roland Bisscheroux voor hun motiverende en opbouwende kritiek. Ook bedankt hij Johan van der Knijff voor zijn hulp bij het analyseren van problemen met bestandsformaten.

Noten 
1 Bij instellingen getest: Kodak i3200, Kodak i3400, Fujitsu %-6670. Multifunctionals: RICOH MP C2003, Canon image Runner Advance C7270i, Konica Minolta Bizhub C364e. Met leveranciers getest: Kodak i14250, Canon DR G1100, Panasonic KV5976H.
2 Een kleurruimte is een de%nitie van wit, helderheidskanaal en kleurbereik. We onderscheiden twee typen kleurruimtes: Device dependent en device independent. Device dependent zijn o.a. eciRGBv2 en Adobe RGB (1998). Deze twee kleurruimtes verschillen onderling in grootte (kleurbereik), de%nitie van wit (D50 of D65) en helderheidsas (L* of gamma 2.2). Device independent zijn o.a. XYZ en CieLab. In Cielab worden kleur-, tint- en tonale-verschillen uitgerekend. Om berekeningen in Cielab uit te kunnen voeren moet de device dependent kleurruimte (het vertrekpunt) gede%nieerd zijn.
3 ISO 12233, First Edition 2000-09-01, Photography-Electronic stillpicture cameras- Resolution measurements, reference Number ISO 12233:2000E. ISO 16067-1, First Edition 20003-11-15, Photography- Spatial Resolution Measurements of Electronic Scanners for Photographic Images-Part 1: Scanners for Re#ective media. Reference number ISO 16067—1:2003(E).