• nl
  • en
beeldband

IIPC (2): technische strategieën webarchivering

7 oktober 2009 Gepubliceerd door Laat uw gedicht achter

‘Making more informed "guesses" about what works, David Pearson, National Library of Australia. Zo’n titel vermoedt een echt pragmatische aanpak, en bij de Australiërs ben je dan meestal in goede handen. In Australië wordt het hele .au domein vier keer per jaar geharvest in het Pandora webarchief. Van de 2.3 miljard files die daaruit zijn voortgekomen, is een klein deel nu al niet meer toegankelijk, omdat de file formats al weer verdwenen zijn. Wat kun je daaraan doen? Een beroep doen op file format registers (Pronom, UDFR, etc.)? Een beDSC_0514roep doen op Wikipedia? Documenteren wat de webarchieven hebben gebruikt/nu gebruiken? Daar komen hele lijsten met gebruikte software uit. Door die te vergelijken kun je beter inschatten wat er gebruikt zou kunnen zijn. Pearson vraagt leden van de IIPC of ze mee willen helpen om zulke lijsten te maken. Het blijft wel een beetje stil in de zaal ….

‘Here be dragons’, strategies for dealing with virusees in the web archive, Matt Holden, Institut National de l’Audiovisuel). Holden wil de virussen niet helemaal uit het webarchief houden, want ze zijn een stuk historie, maar je wilt natuurlijk niet dat ze het hele archief infecteren. Hij acht het risico bij het oogsten van websites klein, want dan wordt er van alles gecheckt. Bij het opvragen is het risico veel groter. Dan moet je niet alleen het archief beschermen, maar ook de PC van de gebruiker. Beschikbare tools zijn ClamAV, Dazuko en HAVP. De strategie van INA bestaat uit: regelmatige viruschecks in het archief en regelmatige checks van het dataverkeer tussen het archief en de gebruiker. – Bij tests bleek het archief 2458 virussen te bevatten (28 unieke), 1 virus per 50,000 files. Exploit & Iframe zijn de meest voorkomende virustypes. Als de lezer weet wat dit betekent, weet hij meer dan ik ;-). De conclusie is dat de virussen een relatief laag risico zijn voor het webarchief. Maar ja, eentje kan te veel zijn ….

Duurzaamheidsstrategieën: emulatie of migratie?

DSC_0528 ‘I say emulate; he says migrate’, David Pearson, National Library of Australia (rechts) en Jeffrey van der Hoeven van de KB namens het KEEP project. Hoe gaan we duurzaamheid waarborgen? Dat is een tak van sport die nog in de kinderschoenen staat. Want er zit van alles in websites, tekst, databases, beelden, video, etc. etc. Wat je gaat bewaren en welke eigenschappen je belangrijk vindt, hangt af van de doelstelling van de de bewarende organisatie.

Mogelijke duurzaamheidsstrategieën zijn migratie (omzetten van bestanden naar steeds nieuwe software) en emulatie (een nieuwe computer door middel van software laten functioneren als een oude computer). Je kunt natuurlijk ook proberen de oude computers te bewaren (computermuseum), maar dat spoor zal snel doodlopen als die computers niet meer onderhouden kunnen worden. En wie weet 50 jaar later nog hoe die computers werkten?

De National Library of Australië deed een serie tests met zowel emulatie (Dioscuri) als migratie. Bij emulatie kreeg men vooral problemen met: a) allerhande licenties op software; b) de vele onderlinge afhankelijkheden tussen de gebruikte programma’s. Maar aan het eind kwamen de meeste objecten er goed genoeg uit. Migratie vereiste zeer snelle dataverbindingen, en de beschikbare tools zijn niet perfect en nogal langzaam. En het is moeilijk om goede beslissingen te nemen als je niet weet wat het exacte doel van de beschikbaarstelling is. Al met al concludeerde Australië dat de belangrijkste vraag nog niet is beantwoord: wat willen we precies bewaren? Waavoor bewaren we precies? Er zijn verder te weinig tools, en de tools die er zijn, moeten nog verder ontwikkeld worden. Vooral bij grote hoeveelheden data werken ze slecht.

Jeffrey van der Hoeven van KB presenteert het KEEP project: Keeping Emulation Environments Portable. Jeffrey laat zien hoe snel het gaat met de veranderingen in de software die we gebruiken. De laatste browser is Google Chrome 2009, dat op de markt wordt gebracht onder het motto ‘not your mother’s JavaScript’. Complex, dus. Ook de functionaliteit van websites is in vijftien jaar tijd enorm vooruitgegaan. Om de websites te gebruiken hebben we steeds meer software nodig (plug-ins, fonts, video). En waar websites nog wel compatibel kunnen zijn, zijn de browsers dat vaak niet.

DSC_0522 Van der Hoeven zegt direct: emulatie is niet DE oplossing, maar voor complexe websites zou het weleens de enige oplossing kunnen zijn. De KB en het NA hebben er veel onderzoek naar gedaan en o.a. Dioscuri ontwikkeld. Maar, geeft Jeffrey toe, we zijn er nog niet. Een emulator is een complex systeem dat alleen door ‘techies’ kan worden gebruikt. Ook heb je de oude software nodig (licenties!). En wie weet nog precies hoe die oude programma’s werkten?

KEEP is een Europees project dat erop is gericht het makkelijker te maken data over te zetten van oude dragers op nieuwe; duurzaamheid te bevorderen; en de emulatie onafhankelijk te maken van een sDSC_0519pecifiek computerplatform. Het project loopt van 2009 tot 2012. Jeffrey vraagt het publiek om mee te helpen ontwikkelen aan een goed emulatieplatform. Daar kan ik weinig aan bijdragen. Maar ik heb wel een advies voor komende projecten: het is aardig als een acronyiem lekker klinkt (KEEP), maar als het vervolgens volstrekt onduidelijk wordt waar het om gaat, dan ben je je doel toch wel een beetje voorbijgeschoten.

DSC_0531 David Rosenthal van LOCKSS vindt KEEP een interessant project, maar hij denkt dat het makkelijker kan. Als je de meest gebruikte browsers inbouwt in de pijplijn tussen het archief en de gebruiker, dan zou je al veel oplossen. LOCKSS kiest voor het bewaren van de bitstream; eventuele migratie geschiedt op het moment van opvragen, ‘on the fly’. Ook denkt David dat het wel zal meevallen met het in onbruik raken van file formats. Zijns inziens zal dat veel langzamer gaan dan soms gesuggereerd. Hier schiet mijn technische kennis tekort …

Iemand uit het publiek vraagt waar Australië nu voor zou kiezen, migratie of emulatie. David’s antwoord: ‘personally I think migration … or emulation.’ Men is er nog niet uit. Anderen vragen hoe lang het zal duren voordat we emulatie of migratie echt moeten gaan inzetten. Jeffrey geeft aan dat er nu al content verloren gaat. Maar misschien kunnen we dat ook accepteren, voegt David toe.

Ten slotte vragen Jeffrey van der Hoeven en Hilde van Wijngaarden van de KB andere organisaties om mee te helpen ontwikkelen aan emulatietechnieken.

Gecategoriseerd in :Geen categorie

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *



Translate »
Top
Netwerk Digitaal Erfgoed