Dokumentation und Metadaten
Dateiorganisation
Um spätere Fehler, Verwechslungen und langes Suchen zu vermeiden, ist es sinnvoll, bereits zu Beginn des Projektes Zeit in eine systematische Organisation der Dateien und Ordner zu investieren. Dies ist insbesondere dann wichtig, wenn mit anderen Forschungsgruppen zusammengearbeitet wird. Dabei sollten sich alle, an einem Projekt beteiligten Personen, mit einem Schema einverstanden erklären und dieses auch einhalten. Es empfiehlt sich, das Organisations- und Benennungssystem in einem Dokument festzuhalten, um es als Begleitdokument später bei der Datenpublikation mit abzulegen.
- Gruppieren Sie verwandte Dateien in Ordnern (z.B. nach Messungen, Methoden oder Projektphasen)
- Benutzen Sie klare und eindeutige Ordnernamen
- Benutzen Sie eine hierarchische Ordnerstruktur (Achtung: Eine zu verschachtelte Ordnerstruktur führt zu langen und komplizierten Dateipfaden)
- Trennen Sie aktive und fertiggestellte Arbeiten in separaten Ordnern und löschen Sie nicht mehr gebrauchte temporäre Dateien.
Dateinamen
Bei der Benennung von Dateien sollte darauf geachtet werden, dass die Namen eindeutig und auch für am Projekt unbeteiligte Personen leicht verständlich sind. Allgemeine Elemente die Teil eines Namens sein können, sind:
- Datum der Erstellung (JJJJ-MM-TT )
- Projektreferenz/Projektname
- Beschreibung des Inhaltes
- Name des Erstellers (Initialen oder ganzer Name)
- Name des Forschungsteams/Departement
- Versionsnummer
Um Limitationen des Betriebssystems zu vermeiden, wenden Sie die folgenden Namens- und Zeichenregeln an:
- möglichst kurze Namen
- Keine Sonderzeichen (: & * % $ £ ] { ! @)
- Unterstriche _ anstelle von Leerzeichen oder Punkten
- Dateiendung wo immer möglich (.txt, .xls, etc.)
- Verlassen Sie sich nicht auf Gross-Kleinschreibung
Dateiformate
Durch eine gezielte Wahl des Formats kann die Nachnutzbarkeit von Forschungsdaten erheblich verbessert werden, so dass Dateien auch nach Jahren noch verarbeitet werden können. Bei der Wahl eines geeigneten Formates sollten verschiedene Faktoren berücksichtigt werden:
- Zukunftsfähigkeit: wie viele Softwareprodukte können das Datenformat lesen?
- freie Zugänglichkeit zur Dokumentation
- keine rechtlichen Beschränkungen (Patente)
- keine technischen Beschränkungen (Verschlüsselung, DRM)
- etabliert in Community
Je nach Fachgebiet können sich Forschungsdaten und deren Dateiformate stark unterscheiden. Folgende Dateiformate sind grundsätzlich empfehlenswert:
- Bilder: TIFF, TIF
- Dokumente: TXT, ASC, PDF/A
- Tabellen: CSV
- Audiodateien: WAV
- Datenbanken: SQL, XML
- strukturierte Daten: XML, JSON, YAML
Weitere Informationen über empfohlene Dateiformate und deren Haltbarkeit finden Sie unter hier.
Versionierung
Eine funktionierende Versionskontrolle ist insbesondere bei Datensätzen die sich im Laufe des Projekts ändern, unabdingbar. Die einzelnen Datensätze sollten sequentiell benannt werden und neben der Versionsnummer auch das Speicherdatum enthalten (JJJJ-MM-TT). Die finale Version sollte als solche gekennzeichnet sein. Dabei kann das Führen einer Versionstabelle in der sämtliche Änderungen und neue Benennungen festgehalten werden, bei der späteren Nachvollziehung helfen.
Insbesondere bei der Zusammenarbeit mit verschiedenen Personen, kann es Sinn machen, regelmässig eine Meilenstein-Version der Datei, die nicht mehr geändert oder gelöscht werden darf, zu speichern.
Zusammenfassend empfiehlt forschungsdaten.info
- Sequentielle Nummerierung verwenden
- Datum und Versionsnummer in die Benennung einbeziehen
- Nutzung einer Versionskontrolltabelle
- Verantwortlichkeit für die Fertigstellung von Dateien festlegen
- Bei großen Datenmengen ggfs. Versionsverwaltungs-Software verwenden
- Meilenstein-Versionen speichern
Weiterführende Information - Best practices
- Wilson, G. et al. (2017): Good enough practices in scientific computing. PLoS Comput Biol 13(6): e1005510 https://doi.org/10.1371/journal.pcbi.1005510
- Software zur freien Versionsverwaltung
Datensicherung
Wir empfehlen, Ihre Daten über die Uni-IT zu sichern. Sie trägt anfallende Daten uniweit zusammen und speichert diese auf zwei Tape Libraries der aktuellsten Generation redundant ab.
Weitere Informationen finden Sie hier: Campus Backup / Archive (nur im Campus Netz zugänglich)
Grundsätzlich sollten Sie immer die 3-2-1-Sicherungsregel befolgen:
- 3 Kopien der Daten (1 Original, 2 Sicherungen)
- Speicherung auf 2 unterschiedlichen Medien (externe Festplatten, USB-Laufwerke, SD-Karten, CDs, DVDs, Cloud)
- 1 Kopie an einem externen Speicherort
Die Sicherung sollte in regelmässigen Abständen automatisiert erfolgen. Überprüfen Sie, ob die Sicherung fehlerfrei erfolgte und die Daten im Bedarfsfall auch wieder zurückgespielt werden können.
Dokumentation
Eine umfangreiche Dokumentation ist für das richtige Verständnis und eine mögliche Nachnutzung Ihrer Daten unerlässlich. Die Dokumentation sollte unter anderem Angaben zu Ort und Zeit der Datenerhebung, zu den verwendeten Methoden, Instrumenten, Software und Statistikmodellen aber auch Informationen zu den gewählten Parametern, zu fehlenden Werten, der Nomenklatur und Abkürzungen enthalten. Diese Informationen können Ihren Daten z.B. in Form von einer Readme-Datei mitgegeben werden.
Weitere Informationen zur Dokumentation von Daten allgemein finden Sie hier.
Metadaten
Metadaten sind Informationen über Daten, die in strukturierter und maschinenlesbarer Form angelegt werden. Sie helfen, Daten für Aussenstehende auffindbar und somit nutzbar zu machen. Je nach Disziplin gibt es verbreitete Metadatenstandards und Tools mit deren Hilfe ein Datensatz fachspezifisch beschrieben werden kann.
Das Repositorium der Universität Bern (BORIS Publikationen) (BORIS) verwendet das Metadatenschema Dublin Core. Diese Metadaten werden beim Ablegen eines Datensatzes auf dem Repositorium durch das Ausfüllen des Formulars automatisch generiert.
Datenqualität und Metadatenstandards. Der Link zur Präsentation befindet sich unter dem BORIS Publikationen