Data verzamelen en annoteren

Zorg er bij het uitkiezen van een tool voor dataverzameling voor dat deze voldoet aan je behoeften met betrekking tot het annoteren van de data. Biedt de tool een logische manier om je data te beschrijven? Data hergebruiken is niet eenvoudig als je niet weet waar deze betrekking op hebben en hoe ze zijn verkregen. Zorg ervoor dat je voldoende informatie over je data (metadata) verschaft.

Metadata

Verzamelen en documenteren
Hergebruik van gegevens is moeilijk als je niet weet waar de gegevens over gaan en hoe ze tot stand zijn gekomen. Daarom is het belangrijk om de juiste gegevens over uw gegevens te verstrekken (metadata) en ook om wijzigingen in uw gegevens bij te houden (versiebeheer)

Metadata
Beschrijvende metadata zijn onontbeerlijk voor het bewaren, terugvinden en hergebruiken van datasets. Ze geven antwoord op vragen over de persoon die de gegevens heeft gecreĆ«erd, het onderwerp van de gegevens, het type bestand(en), geografische informatie en andere aspecten. 

Er zijn verschillende soorten metadata, bijvoorbeeld

  • Ingebedde metadata
  • Aanvullende documentatie van gegevens
  • Zoekmetadata in gegevensbestanden
  • Disciplinaire metadata

Ingebedde metadata
Soms kunnen metadata rechtstreeks in gegevensbestanden worden opgenomen. Sommige wetenschappelijke instrumenten leggen metadata-informatie over de bestanden automatisch vast. Deze worden dan opgenomen in de documenteigenschappen, of ingesloten in de bestanden zelf. Enkele voorbeelden zijn:

FASTQ-bestanden - dit zijn bestanden in txt-formaat die in de biowetenschappen (met name de bio-informatica) worden gebruikt en waarin informatie over de nucleotidenvolgorde wordt opgeslagen

TIFF-bestanden - deze bestanden bevatten vaak aanvullende informatie over afbeeldingen en de wijze waarop deze zijn opgenomen

FITS-bestanden - dit is een bestandsstandaard die veel wordt gebruikt in de astronomie om afbeeldingen en tabellen op te slaan. FITS-bestanden bevatten een header met metadata met informatie over de gegevens

Aanvullende documentatie over de gegevens
Metadata over de gegevens kunnen ook buiten de eigenlijke gegevensbestanden worden vastgelegd. De meest gebruikelijke manier om dit te doen is door speciale README-bestanden te maken. Dit zijn meestal txt-documenten met noodzakelijke informatie over de data, die naast de databestanden worden opgeslagen. 4TU.Research Data biedt nuttige richtlijnen voor het maken van README-bestanden.

Sommige onderzoekers, vooral in de sociale wetenschappen, maken codeboeken waarin de dataset wordt uitgelegd en informatie wordt gegeven zoals beschrijvingen van codes, velden en labels. Het Data Documentation Initiative biedt nuttige richtlijnen voor het opstellen van een codeboek voor uw gegevens.

Documentatie in een elektronisch laboratoriumnotitieboek
Een elektronisch laboratoriumnotitieboek (algemeen bekend als een ELN of een digitaal laboratoriumnotitieboek) is een softwaresysteem dat is ontworpen voor wetenschappers om u te helpen de reproduceerbaarheid van uw onderzoek te documenteren en te handhaven en om informatie gemakkelijker te delen. Elektronische labnotitieboeken bieden een teksteditor om notities te maken op een manier die vergelijkbaar is met een papieren notitieboek, samen met andere functionaliteiten zoals spreadsheet-tools voor berekeningen en opmaak van tabellen en grafieken, protocol-sjablonen voor het documenteren van standaardprocedures, laboratoriuminventarissen voor het documenteren van monsters, reagentia en apparatuur en samenwerkingshulpmiddelen voor het delen van experimentele informatie. De TU Delft heeft een abonnement op twee elektronische labnotebooktools: eLABJournal en RSpace.

Ontdek metadata in data repositories
Wanneer u uw data uploadt naar een data repository, zal de data repository uw data ook vindbaar maken. De vindbaarheid wordt verzekerd door het gebruik van discovery metadata: informatie zoals de titel van de dataset, de namen van de auteurs, trefwoorden, institutionele affiliatie enz. Datarepositories houden zich meestal aan metadatastandaarden. Zo gebruikt 4TU.Research Data het DataCite-metadataschema en aanvullende Dublin Core metadata.

Disciplinaire metadatastandaarden
Sommige disciplines hebben door de gemeenschap overeengekomen metadatastandaarden, waarin de minimale informatie wordt gedefinieerd die nodig is om onderzoeksgegevens te begrijpen en te hergebruiken.

FAIRsharing is een register waar je disciplinaire standaarden voor gegevens kunt vinden.

Versiebeheer
Als u gedurende een bepaalde periode aan uw gegevens werkt, is het nuttig om een vorm van versiebeheer in te voeren om de wijzigingen goed te kunnen volgen.

Er zijn bij de TU Delft twee belangrijke systemen beschikbaar voor versiebeheer: GitLab en Subversion.

GitLab
GitLab is een door de TU Delft geleverd versiebeheersysteem met back-upfaciliteit, vooral handig voor het werken met code en software. Er kan toegang worden verleend aan externe medewerkers. U kunt zelf een GitLab repository aanmaken op https://gitlab.tudelft.nl
Meer informatie en een formulier om toegang aan te vragen voor externe gebruikers is te vinden op Top Desk

Subversion
Subversion is een door de TU Delft geleverd versiebeheersysteem met backup mogelijkheid, vooral handig voor het werken met data. Toegang kan worden geregeld door de eigenaar van de repository.
Subversion repository kan worden aangevraagd via Top Desk.

Ondersteuning
U kunt ook contact opnemen met uw Faculty Data Steward voor advies.