5 maart 2014

Archiveren 4.0

image for Archiveren 4.0 image

Esther Maes
Esther Maes

De techniek maakt het mogelijk dat een wetenschapper dezelfde records op een andere manier gerangschikt kan zien en benaderen dan bijvoorbeeld een accountant. Dat is nu juist de meerwaarde van de voortgaande ontwikkelingen op dit gebied: eenvoudige opslag, meervoudig gebruik, verschillende manieren van ordenen (naast elkaar).

Esther Maes
Esther Maes

De techniek maakt het mogelijk dat een wetenschapper dezelfde records op een andere manier gerangschikt kan zien en benaderen dan bijvoorbeeld een accountant. Dat is nu juist de meerwaarde van de voortgaande ontwikkelingen op dit gebied: eenvoudige opslag, meervoudig gebruik, verschillende manieren van ordenen (naast elkaar).
Er zijn ideeën dat het anders moet tot aan mogelijkheden die het verder onderzoeken waard zijn. Dit proces wordt in dit artikel beschreven vanuit de wensen van de doelgroep van universiteiten, waarbinnen onderzoek en onderwijs leading zijn en beleid en bestuur ondersteunend. Daardoor is er een hoge complexiteit in informatie.

Om tegemoet te komen aan de wensen van de gebruikers van de verschillende universiteiten, die vooral informatie (terug) willen kunnen vinden en delen, is er vanuit het landelijke PAZU1 overleg gezocht naar mogelijkheden om, met gebruik van ICT, de archivering en ontsluiting efficiënter en effectiever in te kunnen richten.
Dat moet kunnen in deze tijd van ongelimiteerde digitale mogelijkheden, toch?

Huidige manier volstaat niet meer
Zaakgewijs of juist procesgebonden ordenen, gebruik van selectielijsten; het zijn allemaal manieren van ordenen die zijn bedacht door anderen dan de uiteindelijke gebruiker. En alhoewel de bedenkers weten waar ze het over hebben, heeft de gebruiker over het algemeen grote moeite om te bepalen wat waar moet komen te staan en wat waar te vinden is.
Daar komt bij dat de meeste ordeningssystemen vaak onvoldoende geschikt zijn om alle soorten informatie te ordenen. Zo is het lastig bij procesgebonden ordenen, projectinformatie kwijt te kunnen en datzelfde geldt voor zaakgewijs ordenen en beleidsinformatie.
Verder is het vrijwel onmogelijk om iedere medewerker zijn/haar informatie in één overzicht te laten zien. Als een medewerker naast zijn primaire processen ook nog aan een project meewerkt en in de OR zit, haakt menige ordening/ menig systeem af.
Verder lijkt het erop dat steeds meer procesgebonden dossiers vrijwel volledig geautomatiseerd gaan plaatsvinden (bijv. het goedkeuren van verlofuren, of het wijzigen van een woonadres).

Het beeld is dan ook om te zoeken naar een oplossing die beter aansluit bij de optiek van de gebruiker, niet primair ontwikkeld vanuit archivering of opslag en distributie van de informatie/data.
De juiste informatie op de juiste manier presenteren bij de juiste persoon; deze gepersonaliseerde informatie en de daarbij behorende gepersonaliseerde ordening zou de basis moeten zijn.

Inspiratie van Geert-Jan van Bussel
Voor deze gepersonaliseerde informatie is de visie van Geert-Jan van Bussel aangehouden:

  • Archivering moet de normaalste zaak van de wereld zijn.
  • Archivering moet automatisch gebeuren, we moeten er niet langer bij stilstaan dat het moet, omdat het al (achter de schermen) geregeld is. We moeten niet lastiggevallen worden met vragen waar we iets willen opslaan en welke gegevens we zouden willen toevoegen.
  • Archivering is een commodity: de muren zijn afgebroken. Alle informatie gaat kris kras door de organisatie heen.2

Hergebruik van metadata
Hiervoor is het zaak zoveel mogelijk gebruik te maken van de informatie die al bekend is.
Zo is bijvoorbeeld al bekend wie wat opslaat (de gebruiker is immers ingelogd), dus deze informatie hoeft niet nogmaals te worden ingevoerd.
Ook is bekend welke taken deze persoon heeft, welke informatie hij/zij mag zien en welke andere taken hij/zij heeft (projecten etc.).

Veel gegevens kunnen uit de metadata van het e-mailprogramma en/of het Windows file system worden gehaald (properties van het document) en datzelfde geldt voor cloud storage (dropbox e.d.). Hierbij wordt meestal een map aangemaakt op de lokale pc, alles wat daarin geplaatst wordt, wordt online opgeslagen, veelal met versiebeheer.

Geen DSP
In dit licht is er ook geen plaats meer voor een ordening die enkel gebaseerd is op een selectielijst, ordeningsplan of DSP. Wel dient er zoveel mogelijk gebruik gemaakt te worden van alle informatie die reeds digitaal beschikbaar is en van de technische mogelijkheden om deze informatie te hergebruiken.
Door de combinatie van functie/taken/projecten/processen et cetera moet gekomen worden tot een gepersonaliseerde ordening van dataopslag, waarbij iedere persoon tot de juiste informatie toegang heeft.
Het streven hierbij is om de gebruiker zo min mogelijk te belasten met vorm en inhoud van registratie/metadata.

Centrale ingang
De huidige inrichting van organisaties (van in dit geval universiteiten, maar dit geldt natuurlijk voor alle organisaties) bestaat uit een zeer divers scala aan softwarepakketten met allerlei informatie.
In plaats van het aanbieden van een nie uwe archiefpakket wil de werkgroep kijken naar mogelijkheden om de informatie in de huidige pakketten te laten staan en vervolgens één slimme koppeling aan te brengen of op een centrale manier de ingang en ordening te regelen.

Het doel van de oplossing zou moeten zijn dat gebruikers snel in hun dagelijkse werkomgeving stukken kunnen plaatsen/ delen/archiveren en dat ze organisatiebreed (voor zover geautoriseerd) gemakkelijk kunnen zoeken naar informatie (dit kan door actief zoeken of bijv. RSS-feeds).
Met andere woorden: data/informatie op een dusdanige manier opslaan, dat:

  • gebruikers snel in hun dagelijkse werkomgeving informatie kunnen plaatsen/delen/archiveren;
  • gebruikers de juiste informatie aangeboden krijgen;
  • organisatiebreed (voor zover geautoriseerd) gebruikers gemakkelijk kunnen zoeken naar informatie.

En dit alles zoveel als mogelijk geautomatiseerd of gebruikmakend van al aanwezige informatie en registratie.

Interessante ICT-ontwikkelingen
Na een brainstormsessie met de aangesloten ICT’ers over de ontwikkelingen binnen het ICT-gebied die mogelijk interessant kunnen zijn voor het archief, is vanuit de werkgroep gefocust op de volgende drie onderdelen: zoekmachines, identity management en ordening/metadatering (triples, semantic web, linked data, etc.).
Om deze onderdelen nader in kaart te brengen, is via brainstormsessies met deskundigen gezocht naar raakvlakken met archivering en potentiële verbetermogelijkheden. In 2013 hebben er uiteindelijk een drietal brainstorm sessies plaatsgevonden, waarin alle onderwerpen aan bod zijn gekomen.

Een oplossing?
De eerste brainstormsessie ging over zoekmachines. Zoekmachines (enterprise search) zouden ons goed kunnen ondersteunen in het begeleiden van de zoekvragen van onze gebruikers, het enige minpunt is eigenlijk dat de rechten en rollen niet over te nemen zijn. Vertrouwelijke informatie is dus óf altijd voor iedereen te vinden óf totaal afgeschermd (niet vindbaar).
In het geval van zoekmachines, en daarnaast ook andere manieren van presentatie van diverse relevante informatie uit aanwezige informatiesystemen, is de security een belangrijk aandachtspunt.
Gebruikers mogen alleen die informatie zichtbaar krijgen waartoe zij geautoriseerd zijn.
Voor juiste authenticatie en autorisatie dient aansluiting te worden gezocht bij het IDM-systeem van de betreffende organisatie. Zoekmachines kunnen ons vakgebied dus zeker verder helpen, mits vertrouwelijke informatie toegevoegd kan worden. De voorkeur gaat echter nog meer uit naar een situatie waarin automatisch (zonder te zoeken) relevante informatie gepresenteerd kan worden.

In de tweede brainstormsessie is dieper ingegaan op identity management en RBAC (Roll Based Access Control). Dit is een methode waarmee op een effectieve en efficiënte wijze toegangscontrole voor informatiesystemen kan worden ingericht.
In de brainstormsessie bleek al snel dat alhoewel roll based prima is, context based nog veel beter is. Het ging daarbij met name om het vastleggen van verantwoordelijkheden, niet van procedures. De verantwoording van het waarom (waarom krijgt iemand extra rechten/rollen) is hierbij belangrijker dan dat de juiste procedure wordt gevolgd (de massa krijgt hierbij standaardrechten, de uitzonderingen zijn belangrijk om te verantwoorden).
Bij dit principe zou gebruik kunnen worden gemaakt van zogenaamde ‘ruleminders’, software die bekijkt welke regels er per softwarepakket op dit moment in gebruik zijn. Er wordt hierbij een overzicht gemaakt van welke rechten en rollen zijn toegepast en vooral waar de uitzonderingen zijn. Samen met de beheerders kan vervolgens worden bekeken (verantwoording) hoe dit tot stand gekomen is.

Bij dit principe hoort ook het idee dat de data zelf belangrijk zijn en niet de locatie waar deze data staan (de regels gelden voor informatie, niet voor mapjes of filestructuren).
Hulp hierbij kan bijv. door data leak prevention (DLP) – een techniek om te ontdekken of informatie openbaar is (bijv. wachtwoorden op openbare schijf). Of bijv. Security Information and Event Management (SIEM); een techniek om te zien wie wat heeft gedaan met welke data (bijv. verstuurd/ ingekeken etc). Ook kan gekozen worden voor een Linguïstisch Classificatie Systeem (LCS) dat documenten herkent bij invoer ervan en bijvoorbeeld federatief inloggen (als iemand uit dienst gaat de data laten bestaan).
Deze brainstorm heeft waardevolle informatie opgeleverd, maar is beperkt geweest gezien de hoeveelheid van de onderwerpen, en nader onderzoek in deze richting is van belang.

In de derde en laatste brainstormsessie zijn de technische mogelijkheden op het gebied van ordening/metadata behandeld. In deze sessie is vooral ingegaan op het principe van triples, een geautomatiseerde manier van ordenen.
Deze semantische technologie gaat uit van het principe dat ieder gegeven als een soort zin (de triple) in de database wordt opgeslagen. Deze triple bestaat altijd uit een subject, predicaat en object (SPO). In een database worden deze gegevens altijd opgeslagen in een url-structuur, zodat de gegevens door een machine benaderd kunnen worden en verwerkt.
Op dit moment wordt dit principe toegepast voor open(bare) data bij het zogenaamde ‘linked open data’. Hierbij worden, door toepassing van (onder meer) triples, alle datastructuren compatibel en koppelt het semantic web ‘producenten’ en ‘consumenten’ van open data, zonder dat die elkaar hoeven te kennen. Als ‘producent’ publiceer je gegevens die je toch al ergens had staan.
Alhoewel we natuurlijk weinig openbare data hebben, is het de moeite waard om te bekijken wat de mogelijkheden voor het archief kunnen zijn.

Stip op de horizon
De werkgroep heeft onderzocht hoe kan worden omgegaan met archief in de toekomst. Hierbij is de werkgroep tot de conclusie gekomen dat een zeer gewenste uitkomst is dat er een oplossing komt waarmee alle relevante informatie in één scherm voor de gebruiker beschikbaar is. Hierbij kunnen de bestaande informatiesystemen blijven bestaan, maar komt er een gepersonaliseerd portaal waarin de gebruiker alle noodzakelijke informatie voor het uitvoeren van de dagelijkse werkzaamheden beschikbaar krijgt.

Zoekmachines (enterprise search) zouden hierbij kunnen ondersteunen, maar eigenlijk gaat de voorkeur nog meer uit naar een situatie waarin er automatisch (zonder te zoeken) relevante informatie gepresenteerd wordt uit de verschillende bestaande informatiesystemen.
In de gewenste situatie spelen uiteraard toegangsrechten een belangrijke rol. Medewerkers krijgen in het gepersonaliseerde portaal alleen die informatie waartoe zij toegang hebben. Hiermee is Identity & Access Management een belangrijk onderwerp.

Het voorstel is dan ook om de ideeën uit de verschillende sessies een slag dieper te onderzoeken en vooral uit te gaan proberen. De ultieme oplossing is er dus nog niet, maar één ding is duidelijk geworden: ICT biedt veel mogelijkheden, het is alleen nog zoeken naar de meest praktische en breed toegankelijke toepassing.

e.a.m.maes@tudelft.nl, Esther Maes is voorzitter van de PAZU-werkgroep ASW.

Meer informatie volgt, maar voor diegenen die hier niet op kunnen wachten, graag zouden willen participeren of aanvullende informatie hebben – mail even naar het adres van de auteur.



1 PAZU (Post en Archiefzaken Universiteiten) is een overkoepelend overleg waaraan DIV-afdelingen van alle universiteiten van Nederland deelnemen.
Een van de werkgroepen binnen dit verband is de werkgroep ASW (Acquisitie Selectie en Waardering). Deze werkgroep heeft het eerste concept voor dit voorstel opgesteld. Deelnemers hiervan zijn: Hasret Acikbas (TUD), Manuël Boessen (UM), Eveline Bregonje (UvA), Anton van Dorp (RU), Ton Haanappel (TUD), Wout den Hollander (EUR), Gerard Huizinga (RUG), Marcel Jansen (EUR), Hugo van Kinschot (VU), José Koelman (Tu/E), Esther Maes (TUD, voorzitter), Homme Martinus (UT), Jeroen Tijhuis (UT), Chris Pothoven (TiU), Johan de Visser (EMC), Marianne Waldekker (RU), Max van der Wijk (RUL), Leo Woudstra (TUD). De subwerkgroep ASW/ICT heeft de krachten gebundeld met de ICT-afdelingen binnen de eigen organisaties en dit voorstel verder uitgewerkt. Deelnemers hiervan zijn: Johan de Visser en Bauke Fahner (EMC), José Koelman en Henk Boom (Tu/E), Jeroen Tijhuis en Pascal Butterhoff (UT), Esther Maes en Hans Nouwens (TUD).
2 Meer informatie hierover is te vinden op http://www.digitalarchiving.nl/lectoraatsprogramma