Van tapes in bunkers tot in de klas: zo blijft Vlaamse media eeuwig bewaard

Meemoo beheert bijna 15 petabyte aan audiovisueel materiaal voor 150 Vlaamse organisaties. Het brede archief moet het digitale voortbestaan van waardevolle bestanden garanderen, maar heeft ook als missie om die gegevens beschikbaar te maken voor het publiek. Hoe werkt archivering en ontsluiting op dergelijke schaal?

Het Vlaamse instituut voor het archief, meemoo voor de vrienden, heeft als missie om het verleden digitaal veilig te stellen. De focus van de organisatie ligt op media en cultuur maar ook de overheid. In het archief van meemoo vind je bijvoorbeeld oude radio-journaals en programma’s van de VRT, maar ook opnames van theatergezelschappen en materiaal van musea.

Bijna 15 petabyte

“Het archief telt momenteel 14,7 petabyte aan data, goed voor net geen 5 miljoen items”, vertelt Matthias Priem, manager archiving. “Ieder jaar groeit het met ongeveer 2 petabyte aan.” Meemoo had aanvankelijk als opdracht om bestaande analoge audiovisuele data te digitaliseren en op te slaan, maar archiveert ook nieuw gegenereerde digitale content. “De digitalisering loopt sinds 2013 en is nog niet klaar, maar we zijn er wel bijna”, aldus Priem.

Het archief telt momenteel 14,7 petabyte aan data, goed voor net geen 5 miljoen items.

Meemoo heeft twee belangrijke taken voor die schat aan informatie. Enerzijds moet de archiefdienst de gegevens opslaan zodat ze in theorie tot in de eeuwigheid bewaard blijven. Anderzijds heeft niemand er wat aan als de data digitaal stof vergaren. Binnen de marge van de copyrightwetgeving moet de dienst de bestanden zo goed als mogelijk beschikbaar stellen voor verschillende doelgroepen. Onderwijs is één van de belangrijkste, maar ook voor onderzoekscentra en het grote publiek is dienstverlening mogelijk.

Veilig archiveren

“In 2013 kregen we de opdracht om het digitale archief op te richten”, weet Priem. “Met een infrastructuurbudget van de overheid kregen we de kans om het project van de grond op te bouwen. De aard van het budget betekende dat we fysieke infrastructuur moesten kopen en dus niet naar de cloud konden kijken. In de praktijk was dat niet erg: toen was on-premises-opslag de enige realistische optie om grote hoeveelheden data kostenefficient te bewaren.”

De belangrijkste prioriteit is veiligheid. De volledige 14 petabyte zijn drie keer opgeslagen. “Een petabyte kopiëren doe je niet op één nacht. In een precaire situatie is één secundaire kopie niet voldoende.” Het zou immers te lang duren om een nieuwe tweede kopie te maken en in die tijd kan er veel mislopen. Het principe is hetzelfde als waarom RAID-5 vandaag geen veilige configuratie is: tijdens de uitgebreide kopieeropdracht om opnieuw redundantie te voorzien, kan er te veel mislopen.

Bunkers en valiezen

“De archiefmasters staan op tape”, legt Priem uit. “Niet alle data op de tapes wordt vaak gebruikt. De gegevens moeten beschikbaar zijn, maar snelheid is niet van groot belang.” Tape is en blijft ook vandaag nog de efficiëntste manier om kostenvriendelijk grote hoeveelheden data voor lange tijd te bewaren. Kwaliteitsvolle metadata zorgt ervoor dat de gegevens op de tape snel terug te vinden zijn.

lees ook

Tape-opslag is nog lang niet dood

“De eerste twee kopieën van de data staan in twee datacenters,  één in Oostkamp en het andere in Gent. Daar staat ook de rest van de infrastructuur van meemoo. De derde kopie zit in een bunker in Nederland.” Dat lijkt een drastische oplossing, maar eigenlijk is ze gewoon het gevolg van een Europese tender. “We wilden de derde kopie van de data op een externe locatie bewaren op een minimale afstand van het primaire datacenter. De locatie in Nederland voldeed aan de voorwaarden en won de tender.” Ieder kwartaal vertrekt er daarom vanuit Oostkamp een valies met back-up-tapes naar de Nederlandse bunker.

Ieder kwartaal vertrekt er een valies met tapes naar de Nederlandse bunker.

De tape heeft als functie om de schat aan gegevens bij te houden, maar daarmee zijn ze nog niet toegankelijk. “De regering investeert flink in de digitalisering. In ruil daarvoor moet er iets mee gebeuren en mag de content niet in de tapebibliotheek blijven zitten.” Daarom maakt meemoo op het moment van archivering een kopie van de bestanden met een lagere resolutie die geschikt is om te streamen. Die database is ongeveer een halve petabyte groot. “Daarvan houden we twee kopieën bij”, aldus Priem.

Werkkopie

De eerste kopie staat lokaal in Oostkamp. “De tweede staat wel in de cloud. Twee jaar geleden hebben we ze gemigreerd naar de Archive-tier van Microsoft Azure.” Volgens Priem is de kost van opslag in zo’n tier vandaag laag genoeg dat het wel de moeite is om de data in de cloud te parkeren. Gebeurt er iets met de primaire kopie, dan moet meemoo wel betalen om de gegevens uit de cloud terug te halen. “We maakten een risico-analyse en besloten dat de cloud de beste keuze was”, verduidelijkt hij. De halve petabyte werd via het internet geüpload. “Dat heeft toch enkele maanden geduurd”, zegt Priem.

lees ook

SSD kapot en geen back-up: wat nu?

De primaire kopie vormt de basis van het platform waarlangs meemoo de archiefdata publiek beschikbaar wil maken. De archiefspecialisten bouwden het systeem voor de ontsluiting van de data recent helemaal opnieuw uit en testten de werking nu in de vorm van het Archief voor Onderwijs, gericht op scholen.

Containers en OpenShift

Voor het nieuwe platform koos meemoo voor een moderne containergebaseerde infrastructuur op basis van Red Hat OpenShift. “We werkten een reeks componenten uit die de ontsluiting ondersteunen. Die componenten komen steeds terug, of de doelgroep nu onderwijs, onderzoekers of het grote publiek is. Denk aan een component zoekopdrachten, of een mediaspeler.”

De componenten draaien in containers in de cloud via OpenShift. Dat laat een hybride model toe waarbij ontwikkelaars hun deploymentpipeline on-premises beginnen en de vernieuwingen uiteindelijk naadloos in productie in de cloud eindigen. De aanpak heeft als voordeel dat de capaciteit vlot kan schalen met de vraag. Wanneer het achief druk wordt bezocht, dan gaat de capaciteit tijdelijk de hoogte in zonder dat meemoo daarvoor zelf servers moet provisioneren.

Ultieme hybride aanpak

Naast de containers met componenten draaien ook de databases en API’s in de cloud. Pas wanneer een gebruiker echt iets wil streamen, komt er een verbinding met de on-premises-infrastructuur tot stand. Die hybride manier van werken combineert de sterktes van de cloud met de voordelen van een on-premises-omgeving. De halve petabyte aan audiovisuele data toegankelijk houden in de publieke cloud is immers op dit moment nog veel te duur. Eigen infrastructuur blijft een betere keuze. Omgekeerd is het wel interessant om het compute-intensieve luik in de publieke cloud te draaien, omdat de schaalbaarheid daar het financiële plaatje doet kloppen.

Priem is voorzichtig positief over het resultaat. Het nieuwe Archief voor Onderwijs lijkt vlot te draaien en de hele infrastructuur gaf ook tijdens loadtests geen krimp. “We kijken voortdurend naar de cloud. De markt evolueert snel dus het zou kunnen dat we in de toekomst nog meer op publieke cloudproviders zullen vertrouwen.” De volgende stap is om de herbruikbare componenten verder in te zetten ter ondersteuning van databases voor onderzoekers en het brede publiek, naar analogie van het doorzoekbare archief voor het onderwijs.

nieuwsbrief

Abonneer je gratis op ITdaily !
  • This field is for validation purposes and should be left unchanged.
terug naar home