Forschungsdatenmanagement - Was kann ich tun?

440 Aufrufe

Veröffentlicht am

> Was ist Datenmanagement und weshalb betrifft es uns?
> ETH Vorschriften, geistiges Eigentum, Privatsphäre und Zugriffsrechte
> Organisation, Speichern, Teilen und Archivieren von Daten
> Methoden, Dienstleistungen, Werkzeuge

Veröffentlicht in: Bildung
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Forschungsdatenmanagement - Was kann ich tun?

  1. 1. || Forschungsdatenmanagement – Was kann ich tun? Dr. Ana Sesartic – Digitaler Datenerhalt 28.03.2017Ana Sesartic 1
  2. 2. || 28.03.2017Ana Sesartic 2 Heutiges Programm Was ist Datenmanagement und weshalb betrifft es uns? ETH Vorschriften, geistiges Eigentum, Privatsphäre und Zugriffsrechte Organisation, Speichern, Teilen und Archivieren von Daten Methoden, Dienstleistungen, Werkzeuge
  3. 3. ||  Ihren (wissenschaftlichen) Hintergrund  Bisherige Erfahrungen mit Datenmanagement  Motivation zur Kursteilnahme 28.03.2017Ana Sesartic 3 Erzählen Sie kurz über…
  4. 4. || Was ist Datenmanagement und weshalb betrifft es uns? 28.03.2017Ana Sesartic 4 Digitale Forschungs- daten Hypothese/ Forschungs- frage Daten Erfassen/ Generieren Analyse und Interpretation SynthesePublikation Zugriff und Verifizierung Wieder- verwendung
  5. 5. ||  Datenmanagement während der Forschung  Daten teilen, veröffentlichen und erhalten – für sich selbst und andere! 28.03.2017Ana Sesartic 5 Zwei Hauptfaktoren
  6. 6. ||  Datenmanagement ist ein allgemeiner Begriff, welcher die Organisation, Strukturierung, Speicherung und Pflege von Informationen beinhaltet, die während eines Forschungsvorhabens verwendet oder erzeugt werden  Es umfasst:  Wie Sie im Alltag mit Informationen über die Laufzeit eines Projektes umgehen  Was auf längere Sicht passiert – was Sie damit machen, nachdem das Projekt abgeschlossen ist 28.03.2017Ana Sesartic 6 Was ist Datenmanagement?
  7. 7. ||  Daten werden in der Regel erstellt, ohne deren Veröffentlichung zu planen  Forschungsdaten bedürfen einer umfassenden Dokumentation  Nur technische Metadaten können später extrahiert werden, aber wenig bis gar keine Dokumentation von Inhalt oder Kontext kann sinnvoll hinzugefügt werden. 28.03.2017Ana Sesartic 7 Einschränkungen für den Erhalt und Austausch GARBAGE IN, GARBAGE OUT!
  8. 8. || Wozu Datenmanagement? Oder: Über Zuckerbrot (Vorteile) und Peitsche (Bestimmungen) 28.03.2017Ana Sesartic 8
  9. 9. ||  Um effizient und effektiv arbeiten zu können  Sicherung nicht replizierbarer Daten  Vermeidung redundanter Datenerhebungen  Möglichst umfassende (kosteneffiziente) Auswertung der Daten  Reanalyse unter anderen Fragestellungen / mit neuen Methoden  Verstärkung des wissenschaftlichen Austausches  Impact factor: Trend zur Zitierbarkeit von Forschungsdaten als Werk  Um die Vorgaben der Geld- und Arbeitgeber zu erfüllen  SNF fordert Datenmanagementpläne ab Oktober 2017  Horizon 2020 Programm der EU fordert ebenfalls Datenmanagementpläne  Einhaltung der Regeln guter wissenschaftlicher Praxis, Transparenz und validität  Sie können die Diskussion in Ihrer Forschungsgemeinde, in Ihrer Institution und mit Geldgebern beeinflussen 28.03.2017Ana Sesartic 9 Weshalb Zeit und Mühe aufwenden?
  10. 10. || ETH Vorschriften, geistiges Eigentum, Privatsphäre und Zugriffsrechte 28.03.2017Ana Sesartic 10
  11. 11. || https://itsecurity.ethz.ch/de/#/manage_your_data 28.03.2017Ana Sesartic 11
  12. 12. ||  «An der ETH Zürich beruht Forschung auf intellektueller Redlichkeit. Die Forschenden […] stehen für wissenschaftliche Integrität und Wahrhaftigkeit in der Forschung und bei Begutachtungen.»  https://www.ethz.ch/content/dam/ethz/main/resear ch/pdf/forschungsethik/Broschure.pdf 28.03.2017Ana Sesartic 12 Richtlinien für Integrität in der Forschung
  13. 13. ||  «Sämtliche Verfahrensschritte im Umgang mit den Primärdaten (statistische Analysen, Umformungen etc.) sind in einer der jeweiligen Disziplin angepassten Form (z.B. Laborjournal, andere Datenträger) derart zu dokumentieren, dass die aus den Primärdaten gewonnenen Ergebnisse vollständig reproduziert werden können.»  «Die Projektleitung ist für das Management der Daten (Aufbewahrung, Datenzugang, Einhaltung des Datenschutzes, etc.) verantwortlich. Sie sorgt insbesondere dafür, dass Daten und Materialien nach Abschluss des Projektes während der für das Fachgebiet massgebenden Frist aufbewahrt bleiben und gegebenenfalls innerhalb der gesetzlich vorgegeben Frist ordnungsgemäss vernichtet werden.» 28.03.2017Ana Sesartic 13 Artikel 11. Erhebung, Dokumentation und Aufbewahrung von Primärdaten
  14. 14. ||  «[…] alle [ETH] Angehörigen […] an die gesetzlichen Vorschriften und internen Weisungen halten und diese in ihrem Bereich umsetzen.»  «Der vorliegende Compliance Guide bietet dazu eine Orientierungshilfe. […] Damit die Umsetzung leichter fällt, sind zu jedem Punkt weitere Informationskanäle und Auskunftspersonen angegeben, die konsultiert werden können.»  https://rechtssammlung.sp.ethz.ch/Dokumente/1 33.pdf 28.03.2017Ana Sesartic 14 Compliance Guide
  15. 15. || 28.03.2017Ana Sesartic 15 Wissen Sie wo Ihre Daten sind und wer Zugriff hat? http://fsfe.org/nocloud
  16. 16. ||  «Die Auslagerung von sensitiven Daten der ETH Zürich (z.B. Forschungsdaten, die einer vertraglichen Geheimhaltung mit Dritten unterliegen, wichtige Geschäftsdaten der ETH Zürich wie etwa Finanzdaten, personenbezogene Mitarbeiter- oder Studierendendaten, Gutachten) ist nicht zulässig. Die ETH Zürich muss jederzeit den Zugriff und die Kontrolle über diese Daten haben.»  «Die Nutzung von Cloud oder Social Media Services (z.B. Facebook, Google, Dropbox) in der Forschung für den Austausch mit Forschenden anderer Hochschulen, in der Lehre für den Austausch mit den Studierenden (Vorlesungsfolder, etc.) ist unproblematisch, solange keine sensitiven Daten der ETH Zürich betroffen sind und keine Rechte Dritter, namentlich Persönlichkeits- oder Urheberrechte, verletzt werden.» Links: https://www1.ethz.ch/id/documentation/rechtliches/Merkblatt_Cloud_Computing_MA.pdf https://www1.ethz.ch/id/documentation/rechtliches/leaflet_example_cloud_DE.pdf 28.03.2017Ana Sesartic 16 Cloud Computing @ ETH Zürich Regeln und Vorschriften
  17. 17. ||  Personenbezogene Daten sind nach schweizerischem Datenschutzrecht aufzubewahren  Eine entsprechende Anonymisierung kann erforderlich sein  Das Löschen einzelner Datensätze muss jederzeit möglich sein  Die Testpersonen müssen eine Einverständniserklärung unterzeichnen 28.03.2017Ana Sesartic 17 Privatsphäre
  18. 18. ||  Respektieren Sie die Rechte anderer:  Dritte  Personen, mit denen Sie arbeiten  Im Zweifelsfall: auch bei einer CC-Lizenz um Genehmigung fragen  Beachten Sie, dass gemäss ETH-Gesetz die meisten immateriellen Rechte an den Werken ihrer Angestellten, der ETH Zürich gehören. Im Zweifelsfalle an ETH transfer wenden (www.transfer.ethz.ch)  Achten Sie darauf, ausreichende Rechte zu behalten  Z.B. für Open Access Publishing («grüner Weg», http://www.library.ethz.ch/Open-Access)  Z.B. in Bezug auf Patentanmeldungen: ETH transfer (www.transfer.ethz.ch) 28.03.2017Ana Sesartic 18 Geistiges Eigentum
  19. 19. || 28.03.2017Ana Sesartic 19 share-alike by non-derivative Some rights reserved share non-commercial public domainremix
  20. 20. || 28.03.2017Ana Sesartic 20 Vorteile des Teilens von Daten © Neil Chue Hong http://dx.doi.org/10.6084/m9.figshare.942289
  21. 21. ||  Daten, Metadaten und Kontext werden benötigt, um einen Datensatz richtig zu verstehen.  Das Datenmanagement beinhaltet nicht nur Ihre eigenen Daten, sondern auch eine kritische Sicht auf fremde, von Ihnen verwendeten Daten:  Verstehen Sie, wie die Daten gewonnen wurden?  Haben Sie genügend Informationen, um ihre Zuverlässigkeit zu bewerten?  Können Sie die Daten verwenden, ohne mit ihren Urhebern Rücksprache halten zu müssen?  Werden Sie in ein paar Monaten noch wissen, welche Daten Sie von anderen Forschern wiederverwendet haben?  Wissen Sie, wie Sie die von Ihnen verwendeten Daten zitieren sollen? (siehe https://www.datacite.org/cite-your-data.html) 28.03.2017Ana Sesartic 21 (Wieder-)verwendung von Daten kritisch überdenken
  22. 22. || Langzeitarchivierung von Daten Und wie man sich darauf vorbereiten kann 28.03.2017Ana Sesartic 22
  23. 23. ||  Ein ordnungsgemässes Datenmanagement, oder dessen Fehlen bestimmen, ob der Datenerhalt möglich ist  Über eine Zeitspanne von zehn Jahren, mag Datenmanagement allein genügen, es ist jedoch sinnvoll vorauszudenken  Falls Daten über längere Zeiträume aufbewahrt und genutzt werden sollen, sind weitere Massnahmen nötig:  Daten sollen so selbsterklärend wie möglich sein, einschliesslich der Dokumentation über die verwendete Software oder noch besser, der Aufbewahrung der Software selber; einschliesslich z.B. Referenzoutputs von Modellalgorithmen  Mehr Sorgfalt bei der Auswahl und Verwendung von Dateiformaten ist geboten 28.03.2017Ana Sesartic 23 Was hat das mit Datenmanagement zu tun?
  24. 24. ||  Offene Standards (nicht proprietär)  Falls proprietär, nach Möglichkeit konvertieren oder, falls nicht möglich, Programm zur Ansicht der Daten beifügen  Gut dokumentiert  Weit verbreitet und unterstützt durch viele Programme  Unkomprimiert (oder zumindest verlustfrei komprimiert)  Unverschlüsselt  Im Zweifelsfall Original behalten und Kopie erstellen in einem offenen Format  Sich nicht auf Dateiendungen verlassen  Beachten, dass Daten auf unterschiedlichen Betriebssystemen verwendet werden können 28.03.2017Ana Sesartic 24 Bevorzugte Eigenschaften von Fileformaten
  25. 25. ||  Bilder: unkomprimierte TIFF; JPEG2000  Text: ASCII, inklusive XML etc. Informationen über Kodierung und Abhängigkeiten wie Stylesheets und TeX- Bibliotheken nicht vergessen  Text (formatiert): PDF/A1-b, (PDF)  Daten aus Tabellen: CSV  Tabellen: (CSV), (ODF, OOXML) 28.03.2017Ana Sesartic 25 Beispiele
  26. 26. ||  Dies bedeutet nicht, dass Sie die Daten nicht in anderen Formaten abspeichern dürfen  Sie müssen sich nur dessen bewusst sein, dass proprietäre oder undokumentierte Formate (auch Ihre eigenen!) in der Zukunft Probleme verursachen können  Überlegen Sie sich alternative Formate (ja, redundant!) zu den proprietären Formaten zu benutzen…  …und Kontext-Informationen in einer Readme-Datei, Begleitdokument oder Metadaten hinzuzufügen die sie selber in einigen Jahren gerne sehen würden, um die eigenen Daten verstehen zu können. 28.03.2017Ana Sesartic 26 Achtung
  27. 27. || Organisieren Sie Ihre Daten Finden Sie was Sie brauchen, wenn Sie es brauchen? 28.03.2017Ana Sesartic 27
  28. 28. || 28.03.2017Ana Sesartic 28 "A story told in file names": Source: http://www.phdcomics.c om/comics/archive.php ?comicid=1323 Copyright: Jorge Cham Kommt das Ihnen bekannt vor?
  29. 29. ||  Dateien nach Themen ordnen  Ordnerpfade möglichst kurz halten  Dateinamen sind…  Eindeutig und reflektieren den Inhalt  Verwenden nur ASCII Zeichen (keine Sonderzeichen) Weitere Informationen finden Sie unter:  http://www.data.cam.ac.uk/data-management-guide /organising-your-data  http://www.wur.nl/en/Expertise-Services/ Data-Management-Support-Hub/Browse-by-Subject/ Organising-files-and-folders.htm  http://datalib.edina.ac.uk/mantra/organisingdata/ 28.03.2017Ana Sesartic 29 Versuchen Sie es lieber so… © Wageningen University
  30. 30. ||  Selbstkritische Fragen:  Wie müssen Daten aussehen, um sie mit wissenschaftlicher Überzeugung und Vertrauen in Qualität und Korrektheit wiederverwenden zu können?  Stimmt das für unsere eigenen Daten? Was fehlt?  Aufgaben für Gruppenleiterinnen und -leiter  Vereinbaren Sie verbindliche Regeln  Bestimmen Sie einen Datenmanagement-Verantwortlichen innerhalb der Gruppe  Besprechen und dokumentieren Sie Regeln (schriftlich) mit dem Datenmanagement- Verantwortlichen 28.03.2017Ana Sesartic 30 Was ist zu tun? Strategien für Forschungsgruppen
  31. 31. || Datenmanagementplan 28.03.2017Ana Sesartic 31
  32. 32. || Ein kurzer Plan, der zu Beginn eines Projektes geschrieben und während des Projektverlaufs aktualisiert wird, um zu definieren:  Welche Daten werden gesammelt oder erstellt?  Wie werden die Daten dokumentiert und beschrieben?  Wo werden die Daten gespeichert?  Wer ist verantwortlich für Datensicherheit und Backup?  Welche Daten sollen geteilt und/oder langzeitarchiviert werden?  Wie werden die Daten geteilt und mit wem? 28.03.2017Ana Sesartic 32 Was ist ein Datenmanagementplan (DMP)?
  33. 33. || DMPs werden zunehmend für Projektanträge verlangt (z.B. durch SNF ab Oktober 2017), sind aber auch sonst nützlich, wann immer Forschende Daten erstellen. Sie helfen Forschenden:  Bewusste Entscheidungen zu treffen, um Probleme zu antizipieren und zu vermeiden  Konsistenzwahrende Prozeduren frühzeitig zu entwickeln  Sicherzustellen, dass Daten korrekt, vollständig, zuverlässig und sicher sind  (Unerwünschte) Duplizierung, Datenverlust und Sicherheitsverletzungen zu vermeiden  Zeit und Mühe zu sparen und ihr Leben zu erleichtern! 28.03.2017Ana Sesartic 33 Weshalb ein DMP?
  34. 34. ||  Unterstützt Sie bei der Erstellung eines DMP oder bei der Diskussion von Datenmanagement im Allgemeinen  Umfasst die allgemeine Planung und die Phasen des Datenlebenszyklus, von der Datenerfassung über die Erstellung bis hin zur Verteilung und dem langfristigen Management der Daten  Spezielle Abschnitte umfassen Dokumentation und Metadaten, Dateiformate, Speicherung, ethische Fragen und geistiges Eigentum  http://bit.ly/rdmchecklist 28.03.2017Ana Sesartic 34 Was tun? Datenmanagement Checkliste der ETH / EPFL
  35. 35. || https://dmponline.dcc.ac.uk/ Das DMPOnline-Tool des UK Digital Curation Centre hilft Ihnen, Horizon 2020 konforme Datenmanagementpläne zu erstellen, indem Sie einen Fragenbogen beantworten, der sicherstellt, dass Ihre wissenschaftlichen Daten:  Auffindbar  Zugänglich  Bewertbar und verständlich  Nutzbar sind über den ursprünglichen Zweck hinaus  Interoperabilität mit spezifischen Qualitätsstandards aufweisen Sammlung von DMP Beispielen: http://www.dcc.ac.uk/resources/data-management-plans/guidance-examples 28.03.2017Ana Sesartic 35 DMPOnline
  36. 36. || Werkzeuge 28.03.2017Ana Sesartic 36
  37. 37. ||  Versionierung: Wie gehen Sie damit um? Was funktioniert gut? Was läuft schief?  Namensregeln: Benutzen Sie sie und falls ja, welche?  Teilen: Welche Werkzeuge und Dienste verwenden Sie? Was sind Ihre Erfahrungen?  Literaturmanagement: Welche Programme verwenden Sie? Was sind ihre Vor- und Nachteile?  Sonstige? Z.B. fachspezifische Plattformen oder zentrale Datenbanken? 28.03.2017Ana Sesartic 37 Gruppendiskussion zur aktuellen Nutzung
  38. 38. ||  Wo befinden sich Ihre Daten?  Welche Rechtsvorschriften gelten, z.B. in Bezug auf Datenschutz?  Ist der Dienst nachhaltig?  Vertrauen Sie dem Anbieter?  Wer kann auf welche Ihrer Daten zugreifen und diese nutzen?  Wie bekommen Sie Ihre Daten zurück?  Ist eine bestimmte Lizenz erforderlich?  Gibt es unmittelbare oder längerfristige Kosten? 28.03.2017Ana Sesartic 38 Kriterien zur Auswahl von Dienstleistungen und Tools © Jorgen Stamp
  39. 39. || 28.03.2017Ana Sesartic 39 Repositorien und Registries http://www.re3data.org http://datadryad.org https://zenodo.org http://figshare.com https://www.openaire.eu/search/data-providers (nur bedingt empfehlenswert, Daten können laut Nutzungsbedingungen jederzeit ohne Ankündigung seitens figshare gelöscht werden)
  40. 40. || Empfohlen  Daten in der Schweiz  Sicherheitsbestimmungen erfüllt Nur bedingt emfpohlen  Daten in EU/USA  Sicherheitsbestimmungen nur z.T. erfüllt  Nie vertrauliche / Private Daten dort ablegen 28.03.2017Ana Sesartic 40 Zusammenarbeit – Teilen / Sharing https://www.dropbox.com https://www.switch.ch/drive/ https://www.switch.ch/filesender https://cifex.ethz.ch/ https://polybox.ethz.ch https://www.wetransfer.com
  41. 41. || 28.03.2017Ana Sesartic 41 Zusammenarbeit - Organisation https://www.openproject.org http://www.redmine.org https://trello.com https://slack.com https://tagpacker.com https://asana.com
  42. 42. || 28.03.2017Ana Sesartic 42 Kommerzielle ELN Lösungen in Verwendung an der ETH Zürich https://benchling.com http://labcollector.com http://findingsapp.com
  43. 43. ||  Anpassung möglich  Datenspeicherung an der ETH  Speichert:  Proben  Protokolle  Beschreibung der Experimente  Daten 28.03.2017Ana Sesartic 43 Hausinterne Lösung für Forschungsdatenmanagement /ELN Samples Protocols Experiment Description Raw Data Analysis Scripts Results Laboratory Notebook & Inventory Manager https://openbis-eln-lims.ethz.ch
  44. 44. || 28.03.2017Ana Sesartic 44 Zusammenarbeit - Versionierung https://subversion.apache.org https://github.com https://bitbucket.orghttps://www1.ethz.ch/id/services/list/sharepoint (Sharepoint ist nur für die Versionierung von Dokumenten gedacht, nicht für Forschungsdaten!)
  45. 45. || 28.03.2017Ana Sesartic 45 Zusammenarbeit - Schreiben https://www.overleaf.com https://www.authorea.com https://atlas.oreilly.com https://hypothes.is https://evernote.com http://simplenote.com https://www.onenote.com https://www1.ethz.ch/id/services/list/sharepoint
  46. 46. || www.jabref.org 28.03.2017Ana Sesartic 46 Zusammenarbeit – Referenzmanagement www.mendeley.com endnote.com www.zotero.org www.citeulike.org www.bibsonomy.org
  47. 47. || 28.03.2017Ana Sesartic 47 Weitere Dienstleistungen an der ETH Zürich ETH-Bibliothek  ETH Data-Archive (http://www.library.ethz.ch/Digitaler-Datenerhalt)  DOI Registration (http://www.library.ethz.ch/DOI-Desk)  Open Access (http://www.library.ethz.ch/de/Open-Access)  ETH E-Collection (http://e-collection.library.ethz.ch)  ETH E-Citations (http://e-citations.ethbib.ethz.ch)  ORCID (http://www.library.ethz.ch/ORCID)  Verknüpfung mit Ihrer ETH-Identität möglich Informatikdienste  Speicher (meist via internes IT-Support-Team)  NAS (Network Attached Storage) (https://www.ethz.ch/services/de/it-services/katalog/speicher/nas.html)  LTS (Long-Term Storage, Langzeitspeicherung) (https://www.ethz.ch/services/de/it-services/katalog/speicher/lts.html) ETH transfer (http://www.transfer.ethz.ch)  Software-Offenlegungs-Workflow mit dem ETH Data Archive Werden demnächst in «research collection» zusammen- geführt und ermöglichen Publikation von Daten und Dokumenten
  48. 48. ||  Überlegen Sie, was Sie tun  Beginnen Sie frühzeitig  Treffen Sie Vereinbarungen über klare Konzepte und einfache Werkzeuge  Sie brauchen nicht immer raffinierte Apps  Sprechen Sie mit Kolleginnen  Informieren Sie sich über das Angebot Ihrer lokalen Dienstleister  «Halten Sie es so einfach wie möglich – aber mit gesundem Misstrauen!» 28.03.2017Ana Sesartic 48 Take home message
  49. 49. || 28.03.2017Ana Sesartic 49 Danke  Dr. Ana Sesartic Digitaler Datenerhalt ETH-Bibliothek Rämistrasse 101 8092 Zürich 044 632 73 76 ana.sesartic@library.ethz.ch www.library.ethz.ch/Digitaler-Datenerhalt data-archive@library.ethz.ch

×