Wat je kan leren van de datastrategie van de Universiteit van Gent

Data zijn het levensbloed van universitair onderzoek. Het IT-team van de UGent moet die data toegankelijk en veilig maken. De prijs-kwaliteitsverhouding is ook van belang. Ondanks de unieke uitdaging klaart de universiteit de klus op een best toegankelijke manier: hoe gaat ze te werk?

Een veelvoud aan experimenten en analyses maar ook administratieve gegevens en digitale lessen: data heeft de universiteit van Gent genoeg. “We slaan momenteel 2,8 petabyte aan gegevens op”, zegt Johan Van Camp, hoofd van de ICT-infrastructuur van de universiteit. “Die zijn afkomstig van ongeveer 86 vakgroepen die allemaal andere toepassingen en andere datastructuren gebruiken. Er zijn gegevens voor DNA-onderzoek, AI, taalherkenning, astronomie… Noem maar op. De diversiteit aan datasets is enorm.”

We slaan momenteel 2,8 petabyte aan gegevens op.

Johan Van Camp, hoofd ICT-infrastructuur UGent

De unief vertrouwt vandaag op Isilon-hardware van Dell Technologies, maar nam die beslissing met knikkende knieën. De universiteit legde sinds 2008 een complex traject af in de zoektocht naar de ideale oplossing dataopslag en leerde daarbij een heleboel lessen.

Man van alles, meester van niks

“In 2008 wisten we al dat data belangrijk waren”, zegt Van Camp. “Naar de normen van de UGent investeerden we flink wat geld in het platform van een grote storage vendor. Omdat het veel geld kostte, probeerden we het te gebruiken voor alles tegelijk. Het platform zou alles ondersteunen: van onderzoek over SAP tot administratieve systemen. Het werd ons verkocht als een mirakelmiddel. Je kon er de patatjes mee schillen.”

Niet dus. “Bij de aankoop van een platform zijn de theorie en de features één zaak. De belangrijkste vraag is hoe het zich in de praktijk gaat gedragen. Dat hangt niet alleen af van de kwaliteit maar ook van de match met de IT-omgeving en de verwachtingen.” Van Camp denkt dat die match niet ideaal was, en de leverancier te hoge verwachtingen had gecreëerd. “Het product zou alles kunnen, maar in de praktijk draaiden alle wielen eraf.”

Zelf bricoleren

Ander en beter dus: het IT-team van Van Camp nam de touwtjes zelf in handen en bokste een eigen systeem in elkaar. Daarvoor teerden de IT’ers op de expertise inzake geclusterde bestandssystemen en snapshots bovenop goedkope opslag. Die hadden ze opgedaan vanuit hun ervaring met de HPC-systemen van de universiteit. Hardwarematig bleken opslagservers van Dell de juiste keuze en daarop draaide eigen software.

“We waren redelijk succesvol”, glundert Van Camp. “Als je alles zelf in elkaar stopt, heb je een realistisch zicht op de mogelijkheden en beperkingen. Daar staat tegenover dat je alles wat je zelf in elkaar knutselt, ook moet onderhouden en updaten. Dat vergt een continue inspanning. Protocollen en vereisten veranderen en na verloop van tijd is het werk gewoon te arbeidsintensief. Er is een reden dat er commerciële oplossingen bestaan voor dataopslag.”

Opnieuw naar een platform

Hoewel de in-houseontwikkeling fijn en motiverend was voor de IT-specialisten, werd de situatie onhoudbaar. De universiteit ging opnieuw op zoek naar een platform, maar deze keer met een andere ingesteldheid. “Door lange tijd alles zelf te doen, wisten we heel goed wat we nodig hadden”, herinnert Van Camp zich. Hij stelde twee prioriteiten voorop: horizontale schaalbaarheid en ingebouwde intelligentie.

De horizontale schaalbaarheid betreft de uitbreidbaarheid van de opslag. De universiteit krijgt dag na dag meer data te verwerken en dat moest het nieuwe systeem op een efficiënte manier aankunnen. Van Camp: “Als een doos vol zit, willen we die niet vervangen door een grotere doos maar wel een identiek exemplaar bijplaatsen om de opslag te verdubbelen.”

De intelligentie was nodig gezien de unieke noden van de universiteit. “Wanneer onderzoekers data analyseren en verwerken, verwachten ze hoge prestaties.” Dat impliceert dat actieve data thuishoren op flash-geheugen, dat erg duur is. “Na de verwerking worden data echter gearchiveerd en zijn prestaties niet meer zo belangrijk”, weet Van Camp. In dat geval staan de gegevens best op tragere maar aanzienlijk goedkopere harde schijven.” Het is natuurlijk geen optie om gegevens manueel te versluizen. Daar komt de intelligentie-eis naar boven. “Het systeem moet actief gebruikte data zelf naar de flash-opslag verhuizen en omgekeerd rustende data opnieuw naar de HDD’s verplaatsen.”

Isilon

De universiteit van Gent kwam uiteindelijk bij de Isilon-oplossing van Dell Technologies uit. Na de eerdere ervaring met een totaalplatform zat de schrik erin, maar slechts kortstondig. Al snel werd duidelijk dat Isilon de verwachtingen wel kon invullen. “De overstap was spannend”, legt Van Camp uit. “De data-ervaring raakt aan de kern van wat we doen.”

Dell zette van het begin af aan sterk in op de begeleiding bij de overstap. Een korte lijn met de productontwikkelaars van Isilon zorgde voor vertrouwen. “De manier van converseren was heel open”, weet Van Camp. “We praatten niet enkel met support en installateurs, maar ook met de mensen die het product bouwen en coderen.”

Samenwerken en communiceren

Jurgen Weeck, account manager bij Dell Technologies, ziet de universiteit daarom liever als een partner dan een klant. De communicatie tussen de ICT’ers van de UGent en de ontwikkelaars van Dell maken Isilon op termijn beter, terwijl de bekommernissen van de universiteit verdwijnen. “Dialoog en een vertrouwensrelatie zijn belangrijk. We proberen gelijkgezinde klanten samen te brengen zodat ze van elkaar kunnen leren.” Zo was de UGent voor een stuk gerustgesteld dat andere onderzoeksinstellingen ook vertrouwden op Isilon.

We proberen gelijkgezinde klanten samen te brengen zodat ze van elkaar kunnen leren.

Jurgen Weeck, account manager Dell Technologies

Dell gaat er prat op dat zijn mensen meedenken met de klant en op zoek gaan naar oplossingen op maat. Van Camp onderschrijft dat verhaal enthousiast. “Wij vinden het intussen normaal dat onze leverancier meedenkt, actief mee op zoek gaat naar oplossingen en contacten mobiliseert binnen de community, maar eigenlijk is het dat helemaal niet”, lacht hij.

Performant en redundant

Uiteindelijk vertrouwt de UGent op Isilon-servers die momenteel met 2,8 PB aan data overweg kunnen. Dankzij technologische opslaginnovaties neemt al die opslag slechts drie serverracks in beslag. Isilon begrijpt zelf welke data in de flash-cache horen, en welke op de HDD’s. “In verhouding hebben we gelukkig relatief weinig flash nodig”, weet Van Camp. “Intensief gebruikte data zijn een kleine minderheid. De kunst is om voldoende prestaties te bieden, maar ook niet meer, zodat de totale kostprijs per terabyte optimaal is.”

De hele infrastructuur staat dubbel op twee verschillende sites, waar de universiteit gebruik maakt van de Data Domainoplossing van Dell voor back-ups. “De data worden gespiegeld op de tweede site, waar ook de back-up staat. Die back-up wordt vervolgens ook naar de primaire site gekopieerd.”

Van Camp is lyrisch over het huidige systeem, waarvan hij verwacht dat het nog jaren de geschikte oplossing zal blijven. Uit de ervaring van de universiteit vallen verschillende lessen te trekken. Realistische verwachtingen zijn bijvoorbeeld heel belangrijk. “Als een systeem iets niet kan, is het belangrijk dat de fabrikant daar ook eerlijk over is. Vroeg of laat worden de beperkingen toch duidelijk”, vindt de ICT-baas. Verder weet je maar best wat je wil. De zelfbouwervaring van de universiteit hielp daar voor een groot stuk mee. Van Camp predikt tot slot nog eenvoud: “Maak iets niet complexer dan nodig. Zo behoud je een stabiele en betrouwbare infrastructuur.”

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.