Beheer van onderzoeksdata: eenvoudig, toegankelijk en veilig

Nieuws - 02 november 2023

De enorme hoeveelheden data die vandaag de dag door onderzoekers worden gegenereerd, zorgen voor uitdagingen als het gaat om het beheer van al die gegevens. Elementen als opslag, beveiliging, delen en automatisering kunnen werkprocessen vertragen en complexer maken, en zelfs risico’s met zich meebrengen. Maar stel dat er een betere manier zou zijn om onderzoeksgegevens te beheren? Een team van de TU Delft Library en ICT is nu bezig met een pilotproject dat is gebaseerd op het open-sourceplatform iRODS. Dit is een systeem waarmee de dataopslag en -beveiliging wordt verbeterd, data toegankelijker worden gemaakt en de ontsluiting van metadata wordt vergemakkelijkt.

Integrated Rule-Oriented Data Management System

Als het om databeheer gaat, stuiten onderzoekers vaak op problemen zoals het verlies van gegevens als gevolg van ontoereikende back-ups, verwarring rond metadata en zorgen over de beveiliging van vertrouwelijke gegevens. Hoewel er natuurlijk allerlei instrumenten zijn ontwikkeld om dit soort problemen het hoofd te bieden is er duidelijk ruimte voor een grondige benadering. Fardad Maghsoudi Moud is specialist in databeheer van het team van TU Delft Library, dat bezig is een reeks softwaretools te laten samenwerken om databeheer voortaan eenvoudiger, sneller en efficiënter te maken.

Het project is gebaseerd op het Integrated Rule-Oriented Data Management System (iRODS), een open-sourceplatform waarmee data veilig en snel kunnen worden gedeeld. “Het systeem begint populair te worden omdat het veel voordelen heeft ten opzichte van huidige of oudere softwarepakketten, die overwegend commercieel zijn,” zegt Maghsoudi Moud. Tot die voordelen behoren zaken als datavirtualisatie, de mogelijkheid om databeleid af te dwingen, schaalbaarheid en betere prestaties bij grote hoeveelheden data, robuust metadatabeheer en mogelijkheden op het gebied van  aanpassingen en integratie.

Gebruiksvriendelijke codering met ManGO

Maar iRODS berust nog altijd op een command-interface, het zwarte scherm waarop een code moet worden ingevoerd, wat voor niet-experts lastig kan zijn. “We hebben het systeem verbeterd met een gebruiksvriendelijke web-based interface genaamd ManGO, dat het voor gebruikers veel eenvoudiger maakt, met name voor wetenschappers of onderzoekers die moeite hebben met  coderen.” Het invoeren van opdrachten voor coderingen is nu vervangen door een simpele ‘drag & drop’-functie voor het uploaden van datafiles. De combinatie van het door ManGO verbeterde iRODS en de mogelijkheid om met behulp van SURF op grote schaal enorme hoeveelheden data te hosten, heeft tot doel onderzoekers van de TU Delft een beter softwarepakket voor hun databeheer aan te bieden.

Grote hoeveelheden data en diverse gebruikers

ManGO is ontwikkeld door een team van de KU Leuven en stelt onderzoekers in staat hun onderzoeksgegevens op een veilige en efficiënte manier op te slaan, te beschrijven, te automatiseren en te delen. De tool werd gedeeld met TU Delft, maar het systeem vereist enige aanpassing om het probleemloos op de softwareomgeving van TU Delft te laten aansluiten. “Er zijn nog wat bugs die we moeten oplossen,” zegt Maghsoudi Moud. “We moesten een testronde doen, oftewel een cliënt die met ons systeem zou gaan werken en ons zo zou helpen met het identificeren van problemen.” Om dat te bereiken werkte het team samen met DAPWell, een project voor geothermische energie van TU Delft dat immense hoeveelheden data genereert. Het project is een veelbelovend leermodel als het gaat om het vergaren, up- en downloaden, bewerken en gebruiken van data door technici, ingenieurs, datastewards en -beheerders, studenten, promovendi, onderzoekers en docenten. 

Datatoegang volledig aan te passen

Hoewel de softwaretool momenteel alleen toegankelijk is voor datastewards zullen onderzoekers in de toekomst de mogelijkheid krijgen data te uploaden en beheren. Dat betekent dat datastewards in de toekomst een meer ondersteunende rol zullen spelen. En het iRODS-ManGO-systeem biedt enkele belangrijke voordelen, zoals het feit dat de datatoegang volledig aan te passen is, wat betekent dat het eenvoudig is om te bepalen welke gebruikers welk toegangsniveau krijgen. Bij opslag op een openbaar netwerk of in de cloud kunnen zich veiligheids- en toegankelijkheidsproblemen voordoen. Maar met dit allesomvattende systeem kan met behulp van een veilige twee-factorauthenticatie aan individuele gebruikers of groepen toestemming worden verleend om op elk moment en vanaf elke plek data te downloaden.

Metadata en ‘FAIR’-principes

Een ander belangrijk voordeel van het pilotsysteem draait om metadata. Zo kunnen met iRODS-ManGO labels voor elk instrument en elke dataset worden gecreëerd, aanvullende informatie als statistische analyses worden ontsloten en README-files worden opgesteld voor het bijhouden van gegevens. Data kunnen zonder downloads bekeken worden, en het systeem biedt ook de mogelijkheid tot real time synchronisatie. Uiteindelijk sluiten al deze prestaties aan op de FAIR-principes (‘Findable, Accessible, Interoperable, and Reusable’). “In de toekomst zal het jou, je collega’s en anderen helpen te begrijpen wat er met de data gebeurt,” zegt Maghsoudi Moud. “Al deze voordelen maken het eenvoudiger om projecten te beheren en samen te werken.”

Toekomstplannen

Het team kan eventueel extra financiering krijgen om te werken aan het probleem van dataopslag wat een grote uitdaging is op TU Delft. Nu het eenjarige pilotproject bijna op de helft is, zijn de leden tevreden over wat ze tot dusver hebben bereikt. Het succes heeft tot het voornemen geleid om iRODS de komende jaren als platform voor TU Delft op te zetten. Volgens Maghsoudi Moud heeft het team steun gekregen van de ICT-afdeling, de TU Delft Library en faculteiten. Dit heeft ervoor gezorgd dat de vaart erin zit. “Ik verheug me erop met meer cliënten en gebruikers samen te werken,” zegt hij. “Mensen die data willen beheren – of het nu gaat om classificatie, opslag, beveiliging, wat dan ook – kunnen contact met ons opnemen en dan geven wij ze toegang tot ManGO met de opslagcapaciteit die ze nodig hebben.”