This is a read only archive of pad.okfn.org. See the shutdown announcement for details.

CSDIALOG_AG_Datenmanagement CITIZEN SCIENCE DIALOGFORUM
4. - 5. Mai 2015 in Hamburg
Datenqualität, Datenmanagement und rechtliche Aspekte in Citizen Science -  Strukturen und Ressourcen in Zeiten von Science 2.0

AG DATENMANAGEMENT

Wie benutze ich das Pad?



Willkommen bei der Arbeitsgruppe „Datenmanagement“

Ziel des Workshops ist es, einen Beitrag für den Citizen Science Leitfaden zu erarbeiten und gemeinsam die Citizen Science Strategie 2020 für Deutschland hinsichtlich Datenmanagement, -qualität und -rechte  zu entwickeln. Diese Arbeitsgruppe fokussiert auf Herausforderungen und deren Lösungen zum Thema Datenmanagement.

Wir arbeiten mit einem Etherpad - einem Werkzeug zum gemeinsamen Erstellen von Texten im Netz. Der Vorteil des Pads ist, dass mehrere AutorInnen gleichzeitig (oder zeitversetzt) am selben Text arbeiten können. Die Änderungen von allen Mitwirkenden sieht man (fast) ohne Zeitverzögerung am eigenen Bildschirm. Ein Etherpad beinhaltet vier Hauptkomponenten: Das Textfeld, die Autorenübersicht, einen Chat und das Menu für erweiterte Funktionen. Wie mit diesen Komponenten zu arbeiten ist, kann hier http://wiki.llz.uni-halle.de/images/2/21/Anleitung_Etherpad.pdf nachgelesen werden. 


Wir wünschen Ihnen viel Spaß beim Erarbeiten des Pads. Die Moderatorin und Ansprechpartnerin für diese Arbeitsgruppe ist Frau Angelika Wurbs

 
Datenmanagement entlang von Citizen Science Projektphasen

Bitte beschreiben Sie für Citizen Science Projekte den Datenzyklus mit Hinblick auf Datenmanagement  (Soll- Zustand  & einige Best Practice Beispiele)
 
Phase 1: Design / Planung
Herausforderungen:
- Benötigtes Datenformat und Datenschema nicht immer von Anfang an klar. Dies macht Anpassungen während der Untersuchung notwendig.
- Datenvolumina u.U. teilweise nicht gut abschätzbar.
- Datenformate und -mengen (Auswirkungen auf technische Entscheidungen wie nötige Archivierungs-Infrastruktur)
    klare Fragestellung für CS und Nutzer der Daten - abgestimmt mit dem Ziel des übergeordneten Projekts 
- Wahl eines "passenden" Metadatenschemas zur Beschreibung der Daten. Dieses ist fungiert zwischen den Polen "zu elaboriert" vs. "zu minimal". Zentral ist daher im Vorfeld eine Zielbestimmung, was mit den Daten passieren soll; konkret also wo, wie und in welchen Kontexten die Daten nachgenutzt werden sollen. (Lastenheft? Datenmanagementplan? -> https://dmptool.org/ oder https://dmponline.dcc.ac.uk/ )    -> Empfehlung fachspezifische Standards zu nutzen oder anzupassen 
- Ziel muss vor Umsetzung des Projektes definiert werden, d.h. Projekt muss ergebnisorientiert unter Qualitätssicherung und Datenmanagement aufgebaut werden, Instrumente sind im Vorfeld zu definieren
- Das Nutzungspotential der Daten muss im Fokus der Betrachtung stehen, personenbezogene Daten vor Missbrauch schützen (Anonymisierung)
- Welche rechtlichen Fragen sind zu klären (frühzeitig!)?
- Abläufe des Datenmanagements definieren (Eingabe, Qualitätskontrolle, Freigabe...)
- Konzept für nachhaltige Sicherung/Archivierung der Daten (Nutzung vorhandener Infrastrukturen, digitale Langzeitarchivierung, ...)
- Erfassungsmethoden: sind technische oder andere Infrastrukturen notwendig?
Verantwortlichkeiten innerhalb des Projektes definieren: Datenmanager, Datenschutzbeauftragter, Datenlieferanten/Beteiligte Bürger, Ansprechpartner für die beteiligten Bürger ..., Unterstützung durch externe Experten (Medien, Programmierer)
Datenschutzverantwortliche
strenge/klare Vorgaben für die Dateneingabe, Validierung auf technischer Ebene, Kommentarfeld
Frage nach Nutzerkonto, Klarnamenspflicht (Datenschutz-Problematik), (Selbst)einschätzung des Expertenlevels
Umgang mit fehlerhaften Daten 
Wie können bei diesen Anforderungen auch kleine bottom-up Projekte mithalten? Punkt Finanzierung/Förderung! open Source ermöglicht Low-Budget Projekte (Datenbank-Managment Lösungen)

Welche Rolle spielt das Datenmanagement in der Design und Planungsphase? Wie beeinflusst das Design eines Projektes das Management? Was sind die größten Herausforderungen? 
- Vorab abgestimmtes Datenmanagement spielt eine zentrale Rolle für die spätere Nachnutzung der im Projekt gewonnenen Daten und Erkenntnisse
- Datenmanagement kann teilweise nicht vorab modelliert werden, zum Beispiel bei Analysen auf sozialen Medien
 
Lösungen:
Welche Schritte/Maßnahmen müssen vorgenommen werden, um das Management von Beginn des Projektes zu etablieren? 
- Bestimmung des Zwecks der gewonnenen Daten - wie sollen diese Nachgenutzt werden, gibt es ggf. bestimmte Anforderungen auf technischer oder organisatorischer Ebene in Hinsicht auf die Zielsysteme (Datenbanken; Retrievalfunktionalitäten?) Darauf aufbauend die Auswahl eines passenden Metadatenschemas (oder eine Neuentwicklung, wobei die Nutzung bereits existierender Standards immer die bessere Lösung ist). In Hinsicht auf die spätere Archivierung sind ggf. weitere Anforderungen zu bedenken (technische und administrative Metadaten über die so gewonnen Daten). Bestimmung der indendierten Nutzer/innen und deren Rechte. Ggf. nötige Anonymisierungsmaßnahmen mitbedenken. 
- CS-Datenerhebung ist nicht notwendigerweise anders als die in "normalen" wissenschaftlichen Projekten (wenn CS-Projekt von der Forschung aus gestartet wird)- ggf. Rückgriff auf Erfahrungen/Richtlinien... aus der Wissenschaft ohne CS-Bezug 

Vorab Fragen klären: 
    - Was sind meine Fragestellungen und welche Daten brauche ich zur Lösung? --> Was soll aus den Daten hervorgehen?
    - Welche Daten will ich erheben und welche Metadaten sind dafür geeignet und notwendig?
    - Wie sollen die Daten ausgewertet werden? 
     - Wie bringe ich die Nutzer/Teilnehmer dazu, möglichst  eindeutige/saubere Daten zu erheben UND auch einzugeben? --> gute  guidelines und strenge Eingaberegelen (so viel wie möglich  vorgeben/einschränken, aber so viel wie nötig Freiheit lassen, z.B.  Kommentarfeld)
     - Soll die Eingabe nach/durch ein Nutzerkonto erfolgen? -->  Vorteile: Hürde gegen schnelles/einfaches spoilen/spammen,  Qualitätssicherung (User spezifische bewertungen der daten,  Plausibilitäten), Nutzerkonto ermöglicht Nutzer die Einsicht seiner  Daten, evtl. auch ranking unter Nutzern dadurch möglich (Achtung! Gefahr  der Förderung von Wettbewerbs-/Wettkampfgefühl --> kann  Datenqualität mindern)
     - in jedem Fall sollte ein DatenschutzBA die Erhebung überprüfen (erst recht mit Nutzerkonto) --> u.a Unterscheidung zwischen anonymiserten vs. pseudonymisierten (alias) Daten, und voll-personenbezogenen Daten
     - Experten sollten das Projekt in jedem Fall begleiten (v.a. bei bottom-up Vorhaben)
     - der Öffentlichkeitsarbeit und dem Design (u.a. von Apps, Webseiten) sollte eine hohe Bedeutung beigemessen werden. --> Kommunikation des Projektes (Werbung) und (visuelle) Attraktivität

 Best Practise Beispiele:
     Animal Tracker, Chimps
     
Literatur:
http://www.ianus-fdz.de/it-empfehlungen/datenmanagement

 _________________________________
Phase 1b: Vorbereitung und Schulung
Herausforderungen:
   von Beginn an Aufklärung aller Beteiligten über Was? Wie? Wofür? Wer? Was passiert mit den Daten?
Welche Bedeutung haben Vorbereitung und Schulung von den Teilnehmern bezüglich Datenerhebung, Datenanalyse, Dateninterpretation und Datenkommunikation? Was sind die größten Herausforderungen? 
- Bei einstufigen Projekten, die auf die Mitarbeit von geschulten Bürger setzen (z.B. Tagfaltermonitoring) ist die Schulung von Partnern unerläßlich
- Bei Projektplanung Vorbereitungsphase einkalkulieren!!! Klare Strukturen definieren!e.
Klare Vorschriften, wie z. B. Proben gesammelt und verschickt werden, werden spezielle Probengefäße benötigt?
- Vorgaben, wie exakt Daten mit Metadaten beschrieben werden sollen; Erläuterung von Sinn & Zweck der einzelnen auszufüllenden Felder.
 
Lösungen
detaillierte aber verständliche Projektbeschreibung (themat. Grundlagen, Erhebungsdesign, Methodik der Messung, Umgang mit evtl. Sensoren)

Welche Schritte/Maßnahmen sind notwendig, um die Herausforderungen zu überwinden? 
Klarheit im Datenmanagement, z.B. welche Daten wofür
Infrastruktur für die Datenerfassung bzw. Probensammlung und -verschickung etablieren.
 
Wie sollte eine Vorbereitung/Schulung aussehen, wer hat diese durchzuführen, was sind die Inhalte, wer sind Ansprechpartner?
je nach Projekt, Experten schulen/ arbeiten Freiwillige ein, bleiben Ansprechpartner für "kniffligere" Aufgaben
je nach Erhebungsdesign (Fragebogen oder Feldmessung) ist eine mehr oder weniger intensive Schulung notwendig daraus folgt eine onsite (bei regionalen Projekten) oder online (via Web) Ausbildung; Durchgeführt werden sollte diese durch das Projektmanagement, oder Experten z.B. erfahrene Partizipatoren des Projektes (BürgerInnen) (siehe Eintrag oben), 
Gute anschaulicher Schulungsmaterial (Multimedia erzielt bessere Effekte als textbasierte Schulung)
je nach  reichen Anleitungen im Netz (Videos) oder erfordern direkte Schulung vor Ort/am  gemeinsam mit Experte 
Vorab-Testeingabe zur (selbst)Überprüfung, ob der Bürger die Anleitung verstanden hat (auch Möglichkeit evt feedback zu geben...)
 
Best Practise Beispiele:
 Tagfaltermonitoring, Mückenatlas
 
 ________________________________________________________________________________
Phase 2: Erhebung der Daten: Daten sammeln, erheben und dokumentieren (siehe AG Datenqualität)
Validierung der Daten notwendig, Stand der Validierung (vorläufig / endgültig)
--> sollen Daten analog oder digital, und online oder auch offline erhoben werden können
--> Achtung bei Erhebung von Geodaten (u.a, viele Referenzsysteme, "falsche Genauigkeiten" z.B. durch Erhebung von Punktdaten, mit einer Ungenauigkeit von +-15 metern)
 
Phase 3: Sicherung der Qualität der Daten (siehe AG Datenqualität):
- Validierung der Daten notwendig, Qualitätskontrolle
Es muss nachvollziehbar sein, woher ein Datensatz /eine Probe kommt, wann , wo und von wem sie gesammelt wurde
- Nutzung von Ontologien zur Beschreibung der Herkunft, zB Prov-Ontology (http://www.w3.org/TR/prov-o/) 
 
Phase 4: Analyse und Interpretation der Daten (siehe AG Datenqualität)

 
Phasen 5: Speicherung und Archivierung der Daten 
schon in der Planungsphase muss Klarheit über Archivierungs- und speichermöglichkeiten bestehen
über definiertes Datenbankkonzept für die jeweilige Zielsetzung
offline-Eingabemasken sinnvoll?
wie wird der Zugriff gewährleistet? Wer hat Zugriff?
interne Verarbeitung von Daten muss möglich sein, definierte Zugriffs- und schreibrechte
Daten verschlüsselt für externe Weitergabe
kurzfristige oder langfristige Speicherung
Rohdatenarchivierung
 In Hinsicht auf die spätere Archivierung sind ggf. weitere Anforderungen zu bedenken (technische und administrative Metadaten über die so gewonnen Daten). Bestimmung der indendierten Nutzer/innen und deren Rechte.


Herausforderungen: 
  -  Datenkonsistenz im Hinblick auf Datenformate und Qualität, Plausibilität, relationale Struktur
- Datenbank muss (!) vorher Zielsetzung kennen, um Auswertetools zu geben, 
- Speicherung nach Vorgaben der guten wissenschaftlichen Praxis (mindestens 10 Jahre)

Welche Herausforderungen existieren bei der Speicherung und Archivierung von Citizen Science Daten? Warum bestehen diese Herausforderungen? 
- Urheberrechte?
- Verwendung von Bürgerdaten und -wissen?
- Wie kann man die Bürger über seine Rechte informieren (Fragestellung ähnlich zur klassischen Experimenten und der "informierten Zustimmung" des Bürger zur Teilnahme am Experiment)
- technische und adminstrative Metadatenerstellung (zumindest in Hinsicht auf eine dauerhafte Archivierung)

Welche Möglichkeit der Verschränkung von CS Daten mit anderen Datensätzen zur gemeinsamen Auswertung gibt es? Wie können CS Daten oder Information über die Daten an Dritte weitergegeben werden (s. Metadaten / Ontologie)?
Dies richtet sich vor allem nach dem Zweck / dem Bereich des CS-Projekts?!
 --> GIS
 
Lösungen: 
    Aufbau einer objektbasierten (Schlagworte, Klassen) hierachischen, relationalen Datenbank --> ermöglicht hohen Grad an logischen Abfragen, zeigt Systemzusammenhänge --> z.B. verschwinden einer essentiellen Unterart (primäre Produzenten) bringt einen Effekt auf übergeordnete Arten (z.B. Räuber)
    

Wie kann eine Integration von Daten erfolgen? Wo und durch wen sind Speicherungen und Archivierungen vorzunehmen? 
- z.b. Gruppenansätze in Datenbanken, Sicherung der Datensätze und trotzdem gemeinsame Nutzung (auch extern zur weiteren Auswertung) möglich
- gemeinsame Metadatenstandards und Datenformate
- Speicherung und Archivierung sollte lokal durch Projektträger/-leiter erfolgen --> Mögliche Verknüpfung zu globalen Portalen über Schnittstellen
 
Best Practice Beispiele:
 
 
 ____________________________
Phase 6: Daten kommunizieren

Herausforderungen:
sollen die Daten für nachfolgende Projekte/Analysen zur Verfügung stehen? (im Sinne von Datamining) 

Warum ist eine Kommunikation der Daten nach innen sowie nach außen notwendig? Welche Schwierigkeiten ergeben sich hinsichtlich Kommunikation?
 Wegen eines potentiell hohen Grades an Grund-/Anfangssmisstrauen der Teilnehmer gegenüber dem Projekt, der Datenerhebung,- nutzung usw.
 - Öffentlichkeitesarbeit essentiell für hohe Beteiligung und Vertrauen
 
 
Lösungen:
Welche Instrumente eignen sich, um Citizen Science Daten zu kommunizieren? Welche Kriterien müssen erfüllt sein, um Daten zu publizieren? Wer ist an der Kommunikation beteiligt?
- auf Wissenschaftsebene Publikationen, die über Medien der Bevölkerung zugänglich gemacht und verfügbar gemacht werden
- Laufende Prototypen und Visualisierungen - wie zum Beispiel http://data.geobon.org/
 
Best Practice Beispiele
 

____________________________ 
Hierbei gilt es zu bedenken:

Welche Formate und Besonderheiten an Datenstrukturen ergeben sich bei Citizen Science Daten im Vergleich zu anderen Daten?
·         ….
·         ….
·         ….
·         ….
 Beschreiben Sie aus Ihrer Sicht/Erfahrung den Ist-Zustand des Datenmanagements von Citizen Science Daten
·         ….
·         ….
·         ….
 
Wie differiert der Soll-Zustand  vom Ist-Zustand? Beschreiben Sie, wie das Management strukturiert sein müßte, um den Ansprüchen gerecht zu werden.
·         ….
·         ….
·         ….
 Identifizieren Sie Maßnahmen, um eine effektives Datenmanagement zu gewährleisten. Was würde für eine Änderung benötigt (Wissen, Resourcen, Kapazitäten, etc)? 
·         ….
·         ….
·         ….
 
Benennen Sie die Akteure, welche bei diesen Maßnahmen mit einbezogen werden sollten.
·        Programmierer für entsprechende Datenbanken/ Auswertetools!!!
·         ….
·         ….
 
 
Citizen Science Strategie 2020 für Deutschland

Folgender Text ist ein Auszug aus dem Entwurf zur Citizen Science Strategie 2020 für Deutschland. Bitte ergänzen und kommentieren Sie. Bitte entwickeln Sie, wenn nötig, alternative Textvorschläge im Änderungsmodus. Zeigen Sie auf, welche Punkte/Sichtweisen Sie unterstützen und beteiligen Sie sich an der Entwicklung der Citizen Science Strategie. 

Das Ziel ist es: Transparente Qualitäts- und Management-Standards für Citizen Science in der Wissenschaft zu etablieren 


IST ZUSTAND
Es gibt eine Vielzahl von Citizen Science Projekten, die mit unterschiedlichen Motivationen und Fragestellungen konzipiert und oft, bedingt durch unzureichende Ressourcen oder Kenntnis, nicht oder inadequat archiviert werden. Weitere Herausforderungen sind die Gewährung der Datenqualität und die Validierung sowie Aufbereitung und Speicherung von Informationen, welche im Rahmen von Citizen Science Aktivitäten generiert werden. Entsprechend können oft andere (sekundäre) Fragestellungen nicht mit den vorliegenden Daten bearbeitet werden. So können beispielsweise einige Beobachtungsdaten hinsichtlich einer Mustererkennung ausgewertet werden, ersetzen aber kein Monitoring nach streng standardisiertem Design. Zudem liegen die Daten in den unterschiedlichsten Formaten vor, und sind nicht unbedingt zugänglich. Eine eindeutige und praktikable Regelung zum Urheberrecht ist nicht vorhanden. 



SOLL ZUSTAND
Die gewonnenen Erkenntnisse und (Roh-) Daten aus Citizen Science Projekten sind einheitlich archiviert. Die Herkunft der Daten ist dokumentiert. Sowohl das Erhebungsdesign als auch weitere Metadaten sind entsprechend der INSPIRE Richtlinie (Kompabilität von Geodaten) in kompatiblen Datenformaten und im open access zugänglich. Es ist möglich, die Urheber von Datenpunkten zu referieren. Den Akteuren sind die Regelungen der Datenspeicherung und Verwaltung der Daten bekannt. 

Maßnahmen
·         Erstellung von Kriterien für Datenqualität und Datenbankmanagement, speziell für Daten, welche durch bürgerschaftliches Engagement erhoben wurden. 
·         Schaffung und Umsetzung von verbindlichen Leitlinien zur Klärung von Datenrechten (Erarbeitung einer Deklaration über den rechtlichen Umgang mit Citizen Science Daten bzgl. Urheber,Lizenzen u.a.)
·         Unterstützung beim Aufbau von Datenbanken und –Management für Citizen Science Projekte
·         Entwicklung einer Creative Commons-Lizenz als Open Access Standard für wissenschaftliche Daten
·         Training und Schulung für Projekt-Beteiligte bezüglich Datenqualität und Datenmanagement

Akteure
Universitäten, Wissenschaftliche Bibliotheken und außeruniversitäre Forschungseinrichtungen; erfolgreiche Citizen Science-Projekte; große Datenbanken Forschungsprojekte; wissenschaftspolitische Akteure wie beispielsweise der neu einberufene Rat der Bundesregierung zu Forschungsinfrastrukturen
 
 
 
Am Ende der Veranstaltung werden alle drei Etherpads zur weiteren Bearbeitung auf der Webseite www.buergerschaffenwissen.de verlinkt.