Data verzamelen en annoteren

Hergebruik van data en onderzoekssoftware (van simpele scripts tot complete bibliotheken) is moeilijk als je niet weet waar ze over gaan en hoe ze zijn gemaakt. Daarom is het belangrijk om de juiste documentatie te verstrekken, inclusief metadata over de data en de software van je project, en ook om wijzigingen bij te houden (versiebeheer).

Metadata

Beschrijvende metadata zijn onmisbaar voor het bewaren, ophalen en opnieuw gebruiken van datasets en onderzoekssoftware.
Metadata geven informatie over degene die de data heeft aangemaakt, het onderwerp van de data, het type bestand(en), geografische gegevens en andere aspecten.
Metadata die relevant zijn voor onderzoekssoftware, zijn onder meer de programmeertaal, het besturingssysteem waarop de code kan worden uitgevoerd, de versie van de software en de licentie. Via het CodeMeta Project is de CodeMeta-generator verkrijgbaar, een tool die helpt om minimale metadata te verzamelen en te exporteren als een json-bestand.
Er zijn meerdere soorten metadata, zoals:

  • Ingebedde (embedded) metadata            
  • Aanvullende datadocumentatie               
  • Metadata voor vindbaarheid in repository’s                       
  • Metadata per vakgebied             

Ingebedde (embedded) metadata

Soms kunnen metadata direct in databestanden worden ingebed. Sommige wetenschappelijke instrumenten registreren automatisch metadata van de bestanden. Deze worden dan vastgelegd in de eigenschappen van het document, of ingebed in de bestanden zelf. Voorbeelden:

  • FASTQ-bestanden – dit zijn bestanden in txt-formaat die worden gebruikt in de biowetenschappen (in het bijzonder bio-informatica), en waarin informatie wordt opgeslagen over de nucleotidesequentie.              
  • TIFF-bestanden – deze bestanden bevatten vaak aanvullende informatie over afbeeldingen en hoe deze zijn vastgelegd.
  • FITS-bestanden – dit is een bestandsstandaard die op grote schaal wordt gebruikt in de astronomie om afbeeldingen en tabellen op te slaan. FITS-bestanden bevatten een koptekst met metadata met informatie over de data.

Aanvullende datadocumentatie

Metadata over de data en de onderzoekssoftware kunnen ook worden vastgelegd door middel van speciale README-bestanden.

Bij datasets zijn dit meestal txt-documenten met de nodige informatie over de data. Ze worden samen met de gegevensbestanden opgeslagen. 4TU.Research Data geeft nuttige richtlijnen voor het maken van README-bestanden.

Bij onderzoekssoftware kan een README-bestand worden gemaakt als onderdeel van een coderepository zoals GitHub of GitLab. Deze sjabloon voor een README-bestand voldoet aan het beleid van de TU Delft voor onderzoekssoftware.

Sommige onderzoekers, met name in de sociale wetenschappen, maken codeboeken waarin de dataverzameling wordt toegelicht. Deze bevatten ook informatie zoals codes (afkortingen of labels voor categorische variabelen) die worden gebruikt in de dataset, en beschrijvingen van velden en labels. Het Data Documentation Initiative biedt nuttige richtlijnen voor het opstellen van een codeboek voor je data.

Documentatie in een Electronic Lab Notebook (ELN)

Een Electronic Lab Notebook, of ‘elektronisch laboratoriumnotitieboekje’ is een softwaresysteem waarmee wetenschappers makkelijker hun onderzoek kunnen documenteren en reproduceerbaar houden, en informatie kunnen delen. ELN’s hebben een teksteditor voor het schrijven van notities op een manier die overeenkomt met een papieren notitieboekje, en andere functionaliteiten zoals spreadsheettools voor berekeningen en de opmaak van tabellen en grafieken, protocolsjablonen voor het documenteren van standaardprocedures, laboratoriuminventarissen voor het documenteren van monsters, reagentia en apparatuur, en samenwerkingstools voor het delen van informatie over experimenten. De TU Delft heeft een abonnement op twee ELN-tools: eLABJournal en RSpace.

Vindbare metadata in datarepository’s

Data en onderzoekssoftware worden vindbaar als je ze publiceert in een datarepository. Deze vindbaarheid wordt bereikt met metadata: informatie zoals de titel van de dataset of onderzoekssoftware, de namen van de auteurs, trefwoorden en instituutsgegevens. Datarepository’s hanteren meestal standaarden voor metadata. 4TU.Research Data gebruikt bijvoorbeeld het DataCite Metadata Schema en aanvullende Dublin Core-metadata.

Standaarden voor metadata per vakgebied

In sommige vakgebieden zijn standaarden voor metadata afgesproken, waarin is vastgelegd welke informatie minimaal nodig is om onderzoeksgegevens te begrijpen en hergebruiken.

FAIRsharing is een register waar je per vakgebied standaarden voor data kunt vinden.

Versiebeheer

Als je een tijd aan je data werkt of software ontwikkelt, is het handig om een vorm van versiebeheer in te voeren om de wijzigingen goed bij te kunnen houden.

Bij de TU Delft zijn twee belangrijke systemen beschikbaar voor versiebeheer: GitLab en Subversion.

GitLab

GitLab is een door de TU Delft verschaft versiebeheersysteem met back-upfaciliteit, dat vooral handig is voor het werken met code en software. Aan externe medewerkers kan toegang worden verleend. Je kunt zelf een GitLab-repository aanmaken via https://gitlab.tudelft.nl.

Meer informatie en een formulier voor het aanvragen van toegang voor externe gebruikers is te vinden bij Top Desk.

Subversion

Subversion is een door de TU Delft verschaft versiebeheersysteem met back-upfaciliteit, dat vooral handig is voor het werken met data. De eigenaar van de repository kan toegang beheren.

Een Subversion-repository is opvraagbaar via Top Desk.

Alternatieven

Er zijn andere tools die effectief versiebeheer bieden voor code, zoals GitHub en Gitea. Collega’s van het TU Delft Digital Competence Centre hebben een nuttige flyer met informatie over de beschikbare opties ontwikkeld.

Kijk in deze GitLab-repository voor een uitgebreide training voor Git.

Ondersteuning

Je kunt voor advies ook contact opnemen met de data steward van je faculteit.

/* */