3 november 2011

Multimediaal datamanagement en virtualisatie

image for Multimediaal datamanagement en virtualisatie image

Het gebruik van digitale multimedia neemt sterk toe. Neem de websites waar producten worden verkocht en multimediaal worden aangeprezen of de zorgsector met complexe scanapparatuur die alleen nog digitale beelden produceert of de msn’ende student die de chats verrijkt met beeld en geluid. Daar waar de administratieve regie nog vaak uit lijkt te gaan van papier, wordt steeds meer digitaal geboren en digitaal verwerkt, digitaal en multimediaal.

Het gebruik van digitale multimedia neemt sterk toe. Neem de websites waar producten worden verkocht en multimediaal worden aangeprezen of de zorgsector met complexe scanapparatuur die alleen nog digitale beelden produceert of de msn’ende student die de chats verrijkt met beeld en geluid. Daar waar de administratieve regie nog vaak uit lijkt te gaan van papier, wordt steeds meer digitaal geboren en digitaal verwerkt, digitaal en multimediaal.

Od oktober 2011, blz. 16
Figuur 1. Beschikbaarheid van data

Beschikbaarheid van multimediale data
In de digitale wereld van multimediadata is er geen sprake meer van documenten, zoals we die in de papieren wereld kennen. Documenten in de digitale wereld zijn elektronische relaties tussen data-‘objecten’: tekstmateriaal, foto’s, video’s of databasesresulaten. Sprekende voorbeelden hiervan zijn de website-pagina’s die we allemaal kennen.
De beschikbaarheid van deze digitale data bestaat uit twee dimensies en verschilt per type organisatie. Eén dimensie is de tijd waarbinnen data beschikbaar en bruikbaar moet zijn. Kritische data zijn net als lucht waar men geen seconde zonder kan. Zo heeft één seconde uitval bij de effectenbeurs enorme (financiële) gevolgen. De tweede dimensie is de bewaartermijn. Voor bibliotheken en musea kan deze tot meer dan vijftig jaar of zelfs eeuwig oplopen. De zorgsector vormt een kritische combinatie van beide dimensies. Door de toenemende digitalisering worden door alle sectoren steeds zwaardere eisen aan beide beschikbaarheidsdimensies gesteld. In combinatie met de continue technologieontwikkeling leidt deze digitaliseringtoename tot een explosieve datagroei. Doordat daarnaast de levensduur van de technologie afneemt en aanmerkelijk korter is dan de gestelde bewaartermijn, ontstaat er een enorme uitdaging om informatie beschikbaar en raadpleegbaar te houden.

Digitaal preserveren
Bibliotheken hebben veel ervaring met het duurzaam bewaren van informatie ook wel ‘digitaal preserveren’ genoemd. Onder digitaal preserveren wordt verstaan: een reeks van beheersactiviteiten noodzakelijk voor het zekerstellen van continue toegang tot en behoud van digitaal materiaal.
Bij digitaal preserveren moet een onderscheid worden gemaakt bij het preserveren van de bitstroom (het bestand, de ‘bits’, de digitale asset). Dit dient onafhankelijk van het opslagmedium te gebeuren; immers, het op dat moment in gebruik zijnde medium is slechts de tijdelijke drager. Daarnaast moet het formaat worden gepreserveerd onafhankelijk van de applicatie die de informatie heeft gecreëerd. Het is hierbij van groot belang dat dit met een ‘standaard’ en bij voorkeur met een open formaat gebeurt. De keuze van het formaat zou idealiter moeten worden ingegeven door de (her)bruikbaarheid nu en in de toekomst. Is bijvoorbeeld het originele formaat (presentatie) belangrijk, dan voldoen standaarden voor foto’s (jpg, tiff, bmp). De data zijn dan een scan of screenshot. Soms is het van belang de complete software-/hardware-omgeving te emuleren zoals bij spelletjes. Als data echter moeten worden hergebruikt, dan is het originele bestand essentieel. Voor foto/video zijn dit de ruwe (niet bewerkte en niet gecomprimeerde) data: xls, ppt, doc, pdf, HTML/hyperlinks et cetera. Bestanden met macro’s en/of andere gekoppelde functionaliteit zijn zeer lastig te preserveren. De enige optie hiervoor is migratie of conversie als de nieuwe generatie applicatie niet backward compatibel is.
Verder moet rekening worden gehouden met toekomstige ontwikkelingen. Foto’s die nu gecomprimeerd worden in JPEG-formaat, zodat ze het netwerk minder belasten, zijn optimaal afgestemd op de resolutie van de huidige beeldschermen. Iedere drie tot vijf jaar zullen deze bestanden echter moeten worden geconverteerd naar een ander formaat, omdat de resolutie van beeldschermen verder zal stijgen.
De problematiek van het digitaal preserveren of duurzaam bewaren, kan het best worden samengevat door het volgende statement van Jérôme McDonough1: “Digital information you don’t take care of dies *REALLY* fast. The digital information that will survive more than a few years will be that which somebody cared enough about to take active steps to preserve.”

Virtuele ontwikkeling van het enterprise-archief
Iedere instelling krijgt te maken met dezelfde kwesties als ze overstapt op digitale archivering. Men doorloopt daarbij drie stadia:

  • Eerst moet de opslag van bestaande data worden geconsolideerd, zodat data vanaf iedere werkplek centraal opgeslagen worden door mensen die daartoe bevoegd zijn. Deze slag is nodig om de kostbare systemen en hardware zo efficiënt mogelijk te gebruiken.
  • In de tweede stap zal er voor de totale instelling een digitaal archief ontwikkeld moeten worden om waardevolle digitale bestanden (assets) snel terug te kunnen vinden en met de gebruikers binnen de instelling te delen.
  • Dat leidt automatisch tot stap drie: de virtualisatie van het archief, die ervoor zorgt dat het voor gebruikers van het netwerk van samenwerkende instellingen niet meer uitmaakt op welke locatie een bestand is opgeslagen.

Essentieel is het toenemende belang van het informatiebeleid. Waar de eerste fase van storage consolidatie nog voor tachtig procent een IT-aangelegenheid is, wordt in de derde fase van het virtuele enterprise-archief het informatiebeleid het meest bepalend. De ontwikkeling is analoog aan de bouw van een piramide. In de eerste plaats moet er een goed ontwerp zijn om (kostbare) verrassingen of in het ergste geval een totale nieuwbouw te voorkomen. Dit start al bij het fundament van de eerste fase, dat sterk genoeg is voor de bouw van de volgende fases. Het aantal mensen en middelen dat bij deze ‘bouw’ betrokken raakt, zal sterk toenemen. Naast de explosieve informatiegroei die moet worden beheerd, zal er een groot afstemmings- en veranderingsproces over de informatie en het gebruik in zijn context plaatsvinden. Dit proces start binnen de instelling en groeit in de ‘virtuele’ situatie uit tot het totale netwerk van samenwerkende instellingen.

Od oktober 2011, blz. 19
Figuur 3. Informatie Lifecycle Management

Informatie Lifecycle Management
De waarde van informatie is voor primaire processen afhankelijk van de tijd en neemt in waarde af. Zo worden zorgdata net als nieuws, direct na de creatie veel geraadpleegd. Na verloop van tijd worden ze niet of nauwelijks meer geraadpleegd. Om de kosten van hoge beschikbare dure opslag te verminderen wordt informatie verplaatst van zogenaamde first tier storage naar een goedkopere (minder beschikbaar) third tier. Aan de andere kant zijn epidemiologische onderzoeksdata, data die betrekking hebben op verbanden tussen ziekten, vaak op het moment van creatie niet interessant en worden ze met de tijd steeds waardevoller. Belangrijke eis is dat de data als ze over bijvoorbeeld tien jaar worden opgehaald niet corrupt zijn geraakt en nog raadpleegbaar zijn. De data zullen zeer waarschijnlijk naar een op dat moment geldend formaat moeten worden geconverteerd om nog raadpleegbaar te zijn. Omdat de data op dat moment weer actief worden gebruikt is een second tier storage nodig, met een lagere beschikbaarheid dan tier één, omdat de kopiedata op het third tier (diepe archief) staan. Het proces van informatiebeschikbaarheid in de tijd en ICT-technologieoptimalisatie wordt Informatie Lifecycle Management genoemd.

Od oktober 2011, blz. 17
Figuur 2. (R)evolutie van het archief

Enterprise archief (R)evolutie
Omdat alle applicaties allen om Informatie Lifecycle Management vragen en deze lifecycle als onderdeel van een archief onafhankelijk van de applicatie moet kunnen worden beheerd en gepresenteerd, zal er een grote behoefte ontstaan aan zogenaamde enterprise archiefmanagers, die dit proces optimaliseren.
Door virtualisatie (Grid/Cloud Technologie) zal de infrastructuur zeer flexibel, schaalbaar en in principe storagemedia onafhankelijk worden. Het getoonde voorbeeld komt uit de zorgsector, maar de beschreven ontwikkeling is sectoronafhankelijk.

Formaten en standaarden en hoe hiermee om te gaan
Formaten en standaarden zullen blijven veranderen door technologie-innovaties. Metadata en afspraken over wat er onder wordt verstaan zijn industrie-/segmentspecifiek en dynamisch. Wachten op het ‘standaardformaat’ voor alles is dus een utopie. Essentieel is het management van informatie en de mogelijkheid de informatie in het op dat moment meest optimale formaat/technologie aan de gebruikers aan te bieden. Het informatiebeleid bepaalt welke informatie moet worden beheerd en hoe er met de informatie in de tijd en naar de gebruikersgroepen (waaronder verantwoordingsinstanties) dient te worden omgegaan.

Od oktober 2011, blz. 20
Figuur 4. Ondersteuning informatiedynamiek

Om deze informatiedynamiek optimaal te ondersteunen is het belangrijk om een archief in verschillende delen op te splitsen. Hierdoor kunnen privacy en beveiliging worden gegarandeerd en de vindbaarheid en tijdigheid van beschikbaarstelling worden geoptimaliseerd tegen de laagste kosten. Zo zal er een weinig geraadpleegd master of ‘diep archief’ zijn, waar alle data in hoge kwaliteit kosteneffectief voor zeer lange tijd worden bewaard. Van hieruit zullen ‘gebruikskopieën’ naar actieve en publicatiearchieven worden gestuurd. Deze ‘kopieën’ worden geconverteerd naar de op dat moment qua technologie en toepassing meest optimale formaten. Zo zullen de ‘publicatie’-data zijn voorbereid voor de laatste internetformaattechnologie, omdat deze aan veel gebruikers via intra-, extra- en internet beschikbaar worden gesteld. Daarnaast zullen er actieve archieven met hoge kwaliteit data en formaten zijn, die door verschillende experts worden bewerkt voor publicatie. Soms zullen deze experts oude data uit het ‘diep archief’ ophalen en vergelijken/ toevoegen/bewerken met nieuwe data. Voor onderzoek zullen er weer andere actieve archieven ontstaan met (geanonimiseerde) onderzoeksdata. Deze data zullen net als de ‘publicatie’-data zeer waarschijnlijk in een groot netwerk worden gedeeld.

Duurzaam digitaal archief versus back-up
Het denken in een online- en offline-archief komt vanuit het verleden, waar de opslagtechnologie (disk of tape) de toegang tot data bepaalde en daarmee twee ‘archieven’ creëerde. Daarnaast werd meer vanuit een (papieren) archiveringsgedachte verondersteld dat archieven worden geraadpleegd en dat er vanwege het fysieke proces altijd sprake is van een opvraagtijd voor het ophalen van de documenten (archief assets, die per definitie offline zijn).
In principe moet er één archiefmanagementsysteem zijn dat in staat is om data over verschillende opslagsystemen (inclusief mogelijk extern/uitbestede cloud services) te verplaatsen en/of te verwijderen. Een good practice policy van duurzame digitale dataopslag gaat uit van ten minste drie datakopieën op zeker twee verschillende locaties, die minimaal vijftig km uit elkaar liggen (vanwege calamiteiten en rampen). Bij archivering is er geen sprake meer van een (onafhankelijk) back-upproces van gegevens. Bij back-upprocessen wordt de controle over kopieën van data en daarmee de mogelijkheid tot selectieve vernietiging compleet geëlimineerd. Replicatie is een vergelijkbaar proces, dat data op de achtergrond kopieert naar een ander(e) systeem/locatie. Deze automatische processen zorgen ervoor dat data, die op één locatie corrupt zijn geraakt direct ook corrupt worden op de tweede locatie. De digitale data-‘objecten’ moeten in het archief als ‘fixed data’ in de digitale opslagomgeving worden behandeld. De data mogen op geen enkele manier worden gemuteerd of corrupt raken. Met name bij migraties van oude naar nieuwe opslagsystemen raken data vaak corrupt en daarmee verloren. Daarom zal de eis aan mediamigratie met integriteitsgaranties (inclusief onafhankelijke audits) toenemen. Op dit moment is er discussie of het voor digitale vernietiging voldoende is om de referentie naar data te verwijderen – bijvoorbeeld door de link in de archiefdatabase te verwijderen. Zeer waarschijnlijk zal dit niet afdoende zijn. Er zal fysiek moeten worden aangetoond dat het bijbehorende digitale object (asset) ook daadwerkelijk is vernietigd en op geen enkele locatie (ergens) op een digitale drager staat. Uit het voorbeeld blijkt dat het archiefsysteem veel meer is dan één ICT-systeem met een specifieke opslagtechnologie. Er is sprake van het actief beheren van datakopieën over verschillende technologieën van opslagmedia. Daarbij zijn de schaalbaarheid (naar petabytes), de betrouwbaarheid, de snelheid en de prijs van de gekozen technologie belangrijke en onderscheidende factoren. Vanwege de zogenaamde (cloud) storage outsourcing- (opslaan buiten de deur)ontwikkeling is de verwachting dat er verscheidene leveranciers met ieder hun eigen dienst voor opslag zullen komen, waarbij in tegenstelling tot het huidige investerings-/licentie- (Capex) model, zij allen diensten zullen aanbieden op basis van verbruik, zoals voor gas, water en licht: een operationeel (Opex) model. Het archiefsysteem van de instelling moet op deze ontwikkeling in kunnen spelen. Worst case scenario is de gedwongen winkelnering door de inzet van een leverancierspecifieke opslagtechnologie, gekoppeld aan het archiefsysteem van één leverancier.

Conflicterende eisen voor vernietiging
Zorginstellingen met een onderzoeks- en onderwijstaak hebben het probleem dat data in een bepaalde context moeten worden vernietigd, terwijl diezelfde data in een andere context nog beschikbaar moeten blijven. Een voorbeeld is een patiëntenregistratie, die volgens de privacywet moet worden vernietigd, maar voor onderzoek relevant is. De data mogen in dit geval zonder privacygegevens voor onderzoek worden bewaard. De onderzoeksgroep zal als datacollectiebeheerder moeten bepalen of de data waardevol zijn voor de instelling en toekomstig onderzoek. Een voorbeeld zijn epidemiologische onderzoeksdata, die de eigenschap hebben dat hoe ouder ze zijn hoe waardevoller ze als collectie worden. De kosten voor het duurzaam bewaren van de data zullen transparant moeten zijn voor de eindgebruikers van onderzoek/onderwijs/zorg. Zij zijn samen met hun beroepsgroepen/verenigingen verantwoordelijk voor de keuzes en afweging van kosten versus baten. Het informatie lifecycle-beleid zal waarschijnlijk niet in een algemeen (patiënten) directiebeleid zijn samen te vatten. Dit komt doordat de keuzes voor het bewaar- en vernietigingsbeleid van bijvoorbeeld radiologie (beelden) anders zijn dan voor psychiatrie. De (hoge) kosten voor radiologiebeeldopslag versus het risico van lange termijn niet beschikbaarheid zijn (goed genezen patiënt met gebroken been), zijn van een compleet andere orde dan bij de psychiatrie (lage kosten, maar hoog risico als data in de toekomst verloren raken).

Het elektronisch patiëntendossier en het digitale archief
In de huidige architectuur van het elektronisch patiëntendossier wordt uitgegaan van een landelijk en/of regionaal schakelpunt dat de bron-/registratiesystemen in de zorginstellingen koppelt. De vraag wordt of ieder bron-/registratiesysteem aan de eisen van een goed archiefsysteem voldoet. Het zal waarschijnlijk kosteffectiever zijn om een onderscheid te maken tussen bronsystemen en het archivering-/ referentiesysteem. Het bronsysteem zal veel meer data bevatten, dan noodzakelijk is voor archivering. Het archiveringsdatadeel zou idealiter op het moment van creatie (als het de status niet meer in bewerking heeft) naar het archiefsysteem over moeten worden gedragen. Het worden daarmee fixed referentiedata (met een unieke, persistente ID-link) voor alle systemen (inclusief het bronsysteem). Dit vereist een standaardisatie van archiefdata aan de bron en afspraken met de gebruikers en applicatieleveranciers over een standaardoutput naar het archief. Idealiter moeten alle data anoniem (de-identified) in het archief worden opgeslagen. De sleutels naar de privacydata van zowel patiënt als zorgverleners worden door de zorginstelling beheerd en alleen gekoppeld als er sprake is van een relatie met een behandelgroep of als deze door een patiënt worden opgevraagd. Door een dergelijke opzet kan iedere instelling de regie gaan voeren over haar eigen datacollecties, onafhankelijk van de applicatie die deze heeft gecreëerd en de ICTinfrastructuur die deze ondersteunt.

Waarde van informatie en het archief
De waarde van informatie (letterlijk een digitale asset voor de instelling) neemt toe als deze vaker wordt gebruikt. Met andere woorden een archief met data die niet of nooit worden geraadpleegd en waarvan de enige reden van bestaan een zeer lage kans op een mogelijke (juridische) claim is, zal terecht als een noodzakelijke kostenpost worden gezien. Als het archief echter door creatieve ontsluiting leidt tot nieuwe inzichten en veelvuldig wordt gebruikt, zal de waarde enorm toenemen. Denk daarbij aan het archief als kennisbron voor onderzoek en onderwijs. Maar ook voor de industrie met de ontwikkeling van nieuwe medicijnen en behandelingen. 

peterwalgemoed@gmail.com, Peter Walgemoed is directeur van Carelliance en samenwerkingspartner van KBenP. Daarnaast is Walgemoed bestuurslid van de Records Management Conventie en betrokken bij de internationale ontwikkelingen op het gebied van multimedia lifecycle management.


1 Jérôme McDonough is Digital Library Development Team Leader bij de Elmer Bobst Library aan de New York University. Taken from Dspace-devel mailing list.