This is a read only archive of pad.okfn.org. See the shutdown announcement for details.

CSDIALOG_AG_Datenqualitaet CITIZEN SCIENCE DIALOGFORUM
4. - 5. Mai 2015 in Hamburg
Datenqualität, Datenmanagement und rechtliche Aspekte in Citizen Science -  Strukturen und Ressourcen in Zeiten von Science 2.0

AG DATENQUALITÄT

Wie benutze ich das Pad?


Willkommen bei der Arbeitsgruppe „Datenqualität“

Ziel des Workshops ist es, einen Beitrag für den Citizen Science Leitfaden zu erarbeiten und gemeinsam die Citizen Science Strategie 2020 für Deutschland hinsichtlich Datenmanagement, -qualität und -rechte  zu entwickeln. Diese Arbeitsgruppe fokussiert auf Herausforderungen und deren Lösungen zum Thema Datenqualität.

Wir arbeiten mit einem Etherpad - einem Werkzeug zum gemeinsamen Erstellen von Texten im Netz. Der Vorteil des Pads ist, dass mehrere AutorInnen gleichzeitig (oder zeitversetzt) am selben Text arbeiten können. Die Änderungen von allen Mitwirkenden sieht man (fast) ohne Zeitverzögerung am eigenen Bildschirm. 
Ein Etherpad beinhaltet vier Hauptkomponenten: Das Textfeld, die Autorenübersicht, einen Chat und das Menu für erweiterte Funktionen. Wie mit diesen Komponenten zu arbeiten ist, kann hier http://wiki.llz.uni-halle.de/images/2/21/Anleitung_Etherpad.pdf nachgelesen werden. 

Wir wünschen Ihnen viel Spaß beim Erarbeiten des Pads. Die Moderatorin und Ansprechpartnerin für diese Arbeitsgruppe ist Frau Anett Richter vom GEWISS Team.
 


Bitte beschreiben Sie für Citizen Science Projekte den Datenzyklus (Soll-Zustand & Best Practice Beispiele)
 
 allgemeiner Hinweis nach Struktur des Leitfadens: Oriertierung an Ablauf von Forschung, wichtig sind die Feedback Loop (Evaluation) welche oft fehlen
 einen interessanten Best Practice guide mit Fokus auf UK kann man hier: http://www.ceh.ac.uk/products/publications/understanding-citizen-science.html finden...ggf. lassen sich daraus auch Dinge adaptieren
 
Phase 1: Design / Planung

Herausforderungen:
    
Welche Rolle spielen Daten während der Design und Planungsphase? Wie beeinflusst das Design eines Projektes die Datenstruktur, Datenverwaltung und Datenqualität? Was sind die größten Herausforderungen? 
 
 Nicht jedes Citizen-Science-Projekt beginnt mit einer dezidierten wissenschaftlichen Fragestellung oder stellt die Daten (und/oder deren Qualität) als Ziel in den Mittelpunkt; oft stehen andere Ziele im Vordergrund (z.B. Umweltbildung); damit steheh auch oft die späteren Verwendungszwecke der Daten nicht von vorn herein fest, und damit auch nicht die Qualitätsziele (im Sinne der fitness for use)
 
 Nicht nur das Design beeinflusst die Datenqualität, sondern auch die Evaluation beeinflusst das (zukünftige) Projektdesign ("Feedback-Schleifen")
 
 Zielgruppe ist für Datenqualität relevant
 
 gute Anleitungen / Tutorials / Workshops der Nutzergruppen sind entscheidend
 
 Es ist für die Datenevaluation bereits in der Planungsphase wichtig, ob es Referenz- oder Vergleichsdaten zum gleichen Thema gibt.
 
 Prinzipiell ist zu unterscheiden ob die Nutzer mit in die Qualitätssicherung einbezogen werden sollen oder nicht. Wenn die Beobachtung wiederholbar ist kann direkt durch die Nutzer geprüft werden. 
 Sollen die Daten später justiziabel sein ist sicher die Prüfung durch einen Experten unumgänglich. 
 
 subjektive Daten sind je nach Fragestellung gewünscht ("Vetorecht der Quellen")

Ziele (welche Datenqualität will ich haben, gewünschte Genauigkeit, räumlich/zeitliche Auflösung, Vollständigkeit) und Risiken (was sind die Probleme zur Erreichung der Datenqualität z.B. Hohe Fehlerquote bei Laien) definieren
Erfassungskriterien sind entsprechend festzulegen 

Lösungen:
Welche Schritte/Maßnahmen müssen eingehalten und vorgenommen werden, um die Qualität der zukünftigen Daten zu gewähren/ zu sichern? 
 
 sicherstellen dass eine ausreichend große Gruppe von Datenerfassern beteiligt ist um die angestrebte räumliche und zeitliche Auflösung zu erreichen; (wissenschaftlich erhobene) Referenzdaten
 bzw. double keying.. => Trade-off:  Einschränkungen für höhere Datenqualität vs. Verringerung der Komplexität für höhere Teilnehmerzahl
Die Eingabemöglichkeiten in den Eingabmasken der Erfassungssoftware möglichst weit einschränken und potentielle Eingaben wenn möglich vorgeben. Konsistenzprüfungen der Eingaben möglichst direkt bei der Eingabe oder dirket danach durchführen und Fehler direkt dem Erfasser mitteilen 
 
 Quantifizierung von Risiken (BEispiel Zedlitz; multi-keying)
 
Welche Good Practice Beispiele kennen Sie:
 Stunde der Gartenvögel: rauschen der Daten wird akzeptiert, Referenzdaten werden genutzt,um Qualität zu gewährleisten
 
 sehr stringent: Monitoringprogramme Vögel (DDAV) und Schmetterlingsmonitoring (UFZ)
 
 _____________________________
Phase 1b: Vorbereitung und Schulung

Herausforderungen:
Welche Bedeutung haben die Vorbereitung und Schulung von den Teilnehmern bezüglich Datenerhebung, Datenanalyse, Dateninterpretation und Datenkommunikation? Was sind die größten Herausforderungen? 
 
 * Teilweise hohe Fehlerquote bei "Laien"
 
"Bewusstseinserweiterung" bzgl. kollaborativem Arbeiten
 
Lösungen:
Welche Schritte/Maßnahmen sind notwendig, um die Qualität der zukünftigen Daten zu gewähren/ zu sichern? 

* gutes Tutorial (mit Bildern, genaue Angaben zur Auflösung, GPS,...,..)

 Auflösung der Daten auch in Hinblick auf Nachnutzung
 
 kleiner Aufwand beispielsweise für Biodiversitätsatlanten: Listen mit zu erwartetenden Arten zur VErfügung stellen und Absenzdaten integrieren
 
Wie sollte eine Vorbereitung aussehen, wer hat diese durchzuführen, was sind die Inhalte, wer sind Ansprechpartner?
 
Selbsteinschätzung/Berücksichtigung des eigenen "Expertenstatus", um Aufgaben zu verteilen (s. Vortrag Zedlitz)
 
Good Practice Beispiele:
 
 Schulungen e.g. DDAV,....
 Workshop Insekten Sachsen
 
 
 
 _____________________________________________________________
Phase 2: Erhebung der Daten: Daten sammeln, erheben und dokumentieren 
 
Herausforderungen: 
Welche Daten sind nicht erfassbar? Was sind die Grenzen der Datenquantität und -qualität? Was sind die Herausforderungen bei der Datenerfassung?
 
 Qualität bei Modellierungen (z.B. Temperatur in Meeren--> als GL für Modelle) sehr wichtig
 
 Z.T. innerhalb von Fachdomänen bestimmte Daten erfassbar, andere nicht (Beispiel: verschiedene Tierartengruppen sind unterschiedlich schwierig, was Bestimmung angeht)
 
 
 Daten (in Form von Alltagserfahrung oder Alltagswissen) nicht unbedingt in schriftlicher Form vorliegend
 
Lösungen:
Wie und wodurch kann das Sammeln/Erheben und Dokumentieren von Daten vereinfacht werden? Wer ist Ansprechpartner, welche Instrumente können angewendet werden, um den Prozess gemeinsam zu gestalten?
 

Expertenstatus; verschiedene Möglichkeiten, Eigenzuschreibung; Prozentsatz richtiger Klassifikationen;....[wie gut kann "richtig" definiert werden]

Man könnte auch von den Erfassern abfragen wie sie die Qualität der Daten selbst einschätzen, z.B. wie sicher sie sich bei einer Klassifikation sind
 
Best Practise Beispiele: 
In welchen Projekten ist die Phase Datenerhebung besonders intensiv vorbereitet wurden? Wie, mit wem, und mit welchem Erfolg?
 
 Artenfinder: persönliche Rückmeldung an Melder zur Verbesserung der Bestimmung etc.; Co-Benefit: Motiviation der Melder über längere Zeiträume
 
 naturgucker / inaturalist / iSpot als soziales Netzwerk zur Selbstkontrolle; Algorithmus zur upgrading der Melder
 
 stadtteilgeschichten.net: Handreichungen, Workshops, geleiteter mehrstufiger Erfassungsprozess mit Tipps zu den einzelnen Datenfeldern, Qualitätssicherung durch Metadatenstandards, kontrollierte Vokabularien (Normdaten) und die Teilnehmer (Poolbildung). Im Ergebnis mit im Durchschnitt 3 Veröffentlichungen sehr kurze Einarbeitungszeit.

- Gibt es Spam in Citizen Science Projekten/Datenbanken? Wie kann das erkannt werden? Unterscheidet es sich von Spam wie zum Beispiel Reviews auf eCommerce-Plattformen.

 ___________________________________
 Phase 3: Sicherung / Dokumentation  der Qualität der Daten
Daten auswerten


Herausforderungen:
Welche Herausforderungen existieren bei der Auswertung von Citizen Science Daten? Welche Formen der Auswertung sind bekannt, aber nicht geeignet für Citizen Science Daten?
 
 Datenqualität sichtbar machen (in Biodiv-Forschung wenig falsche Daten, von CS nicht mehr als von Experten) -> Ziel, Einsatz in Forschung und Verwaltung
 Experten auf einem Gebiet können gleichzeitig Laien auf einem anderen Gebiet sein => Differenzierung notwendig
 (z.B. ArtenFinder Rheinland-Pfalz: Expertengrad wird je Artengruppe bestimmt)
 
Lösungen
Welche Maßnahmen können angewendet werden, um bei und durch die Auswertung hochwertige Ergebnisse zu generieren? 
- Nutzung von zB Methoden des Crowd Sourcing um Qualität der Daten zu bewerten (Interrater-Agreement)
- Peer-reviewing von Eingaben

Wer sind die Akteure in diesem Prozess? 
 
 klare Metadaten und Dokumentation / Definition der Qualitätssicherungsmethoden
 Provenienz der Daten; Bearbeitungsschritte werden dokumentiert -> Transparenz, Reproduziertbarkeit, open science
 
 eventl. weitere Standards ("INSPIRE ist Tanker") 
Wenn die Daten später INSPIRE relevant sind und einem der INSPIRE Datenthemen zuzuordnen sind ist es sicher sinnvoll die Verwendung des jeweiligen INSPIRE Datenschemas in Betracht zu ziehen. (z.B. Artenfinder Daten sind INSPIRE relevant)
Andernfalls sind die INSPIRE Schemata in den meissten Fällen in ihrer Anwendung sicher zu komplex.  
 
Best Practice Beispiele: 
 
 ______________________________________________________________
Phase 4: Analyse und Interpretation der Daten (siehe AG Datenmanagement)

Herausforderungen:

Lösungen:

Best Practice Beispiele:
 
 
 
 ________________________________________________________________
Phase 5: Speicherung und Archivierung der Daten (siehe AG Datenmanagement)

Herausforderungen:

Lösungen:


Best Practice Beispiele
 
 
 _________________________________________________
Phase 6: Daten kommunizieren (siehe AG Datenmanagement)

Herausforderungen:


Lösungen:


Best Practice Beispiele: 
 
 
 
 ______________________________________________
Rechtliche Aspekte werden in der AG Datenrechte erörtert. 
 
Hierbei gilt es zu bedenken:


_________________________________________________________________________________


Welche Formate und Besonderheiten an Datenstrukturen ergeben sich bei Citizen Science Daten?
·         ….
·         ….
·         ….
·         ….
 Beschreiben Sie aus Ihrer Sicht/Erfahrung den Ist-Zustand der Datenqualität und Validierung sowie Aufbereitung und Speicherung von Informationen, welche im Rahmen von Citizen Science Aktivitäten generiert werden
 
 
 
Daten, welche durch Citizen Science Aktivitäten generiert werden sind derzeitig, 
 
·         ….
·         ….
·         ….
 
Wie sieht der Soll-Zustand  aus? Beschreiben Sie, wie Citizen Science Daten zukünftig erhoben, validiert, archiviert und dokumentiert werden sollen.
·         ….
·         ….
·         ….
Identifizieren Sie Maßnahmen, um eine hohe Datenqualität und Datensicherheit zu gewährleisten. Was würde für eine Änderung benötigt (Wissen, Infrastruktur, Ressourcen, Kapazitäten, etc)?
·         ….
·         ….
·         ….
 
Benennen Sie die Akteure, welche bei diesen Maßnahmen mit einbezogen werden sollten.
·         ….
·         ….
·         ….
 
 
Citizen Science Strategie 2020 für Deutschland
Folgender Text ist ein Auszug aus dem Entwurf zur Citizen Science Strategie 2020 für Deutschland. Bitte ergänzen und kommentieren Sie. Bitte entwickeln Sie, wenn nötig, alternative Textvorschläge im Änderungsmodus.


 Citizen Science ist ein glaubwürdiger Wissenschaftsansatz mit webbasierten Infrastrukturen, die als vertrauenswürdige und datenschutzkonforme Umgebungen sowohl quantitative als auch qualitative Citizen Science Projekte unterstützen. Citizen Science stärkt die technische Infrastrukturen und unterstützt insbesondere die Entwicklung von Science 2.0. 



Ziel ist es: Transparente Qualitäts- und Management-Standards für Citizen Science in der Wissenschaft zu etablieren


IST ZUSTAND

Es gibt eine Vielzahl von Citizen Science Projekten, die mit unterschiedlichen Motivationen und Fragestellungen konzipiert und oft, bedingt durch unzureichende Ressourcen oder Kenntnis, nicht oder inadequat archiviert werden. Weitere Herausforderungen sind die Gewährung der Datenqualität und die Validierung sowie Aufbereitung und Speicherung von Informationen, welche im Rahmen von Citizen Science Aktivitäten generiert werden. Entsprechend können oft andere (sekundäre) Fragestellungen nicht mit den vorliegenden Daten bearbeitet werden. So können beispielsweise einige Beobachtungsdaten hinsichtlich einer Mustererkennung ausgewertet werden, ersetzen aber kein Monitoring nach streng standardisiertem Design. Zudem liegen die Daten in den unterschiedlichsten Formaten vor, und sind nicht unbedingt zugänglich. Eine eindeutige und praktikable Regelung zum Urheberrecht ist nicht vorhanden. 



SOLL ZUSTAND 

eyespoDie gewonnenen Erkenntnisse und (Roh-) Daten aus Citizen Science Projekten sind einheitlich archiviert. Die Herkunft der Daten ist dokumentiert. Sowohl das Erhebungsdesign als auch weitere Metadaten sind entsprechend der INSPIRE Richtlinie (Kompatibilität von Geodaten) in kompatiblen Datenformaten und im open access zugänglich. Es ist möglich, die Urheber von Datenpunkten zu referieren. Den Akteuren sind die Regelungen der Datenspeicherung und Verwaltung der Daten bekannt. 


Maßnahmen
•          Erstellung von Kriterien für Datenqualität und Datenbankmanagement, speziell für Daten, welche durch bürgerschaftliches Engagement erhoben wurden. 
•          Schaffung und Umsetzung von verbindlichen Leitlinien zur Klärung von Datenrechten (Erarbeitung einer Deklaration über den rechtlichen Umgang mit Citizen Science Daten bzgl. Urheber, Lizenzen u.a.)
•          Unterstützung beim Aufbau von Datenbanken und –Management für Citizen Science Projekte
•          Entwicklung einer (Creative Commons-)Lizenz als Open Access Standard für wissenschaftliche Daten
•          Training und Schulung für Projekt-Beteiligte bezüglich Datenqualität und Datenmanagement


Akteure
Universitäten und außeruniversitäre Forschungseinrichtungen; erfolgreiche Citizen Science-Projekte; große Datenbanken Forschungsprojekte; wissenschaftspolitische Akteure wie beispielsweise der neu einberufene Rat der Bundesregierung zu Forschungsinfrastrukturen
 
 
 
Ziel ist es: Infrastrukturen für rechtliche Sicherheit und Datenmanagement schaffen und zu etablierenIst-Zustand

Die rechtliche Sicherheit zu den Urheberrechten in Bezug auf die Daten, welche im Rahmen von Citizen Science Aktivitäten erhoben werden, ist zurzeit unzureichend. Sicherheitsfragen und Fragen zum Versicherungsschutz bei der Durchführung von Forschungsprojekten mit Citizen Scientists sind bei vielen Akteuren ungeklärt. Es existieren zahlreiche Portale mit Citizen Science Daten, aber eine Zugänglichkeit der Daten ist derzeitig weder gewährleistet noch in allen Bereichen gewünscht. 


SOLL ZUSTAND
Für das Management von Citizen Science Daten gibt es rechtliche Strukturen, welche die Auswertung und Speicherung von Daten und deren freien Zugänglichkeit ermöglichen. Es herrschen verbindliche Standards, wie mit den Daten umzugehen ist. Koordination -und Dateninformationsstellen sind als Anlaufstellen eingerichtet, um sich beim Umgang mit Daten (Urheberrechte, Verwaltung, Nutzung) zu beraten. Grundsätzlich sind durch Citizen Science erhobene Daten frei zugänglich und vor Missbrauch geschützt. Die Versicherer führen zugunsten Ehrenamtlicher für die Wissenschaft z.B. bei der Datenerhebung ergänzende Rahmenverträge zum Unfallversicherungsschutz ein. 

Maßnahmen
·         Einrichtung von Dateninformations- und Koordinationsstellen für Citizen Science Daten 
·         Schaffung von rechtlichen Strukturen zur Auswertung und Speicherung Daten sowie zum Umgang mit Urheberrechten
·         Schaffung eines erweiterten Versicherungsschutzes im Ehrenamt für ehrenamtliche Wissenschaftler

Akteure
Versicherungen, Gesetzgebung (Politik) 
 
Ziel ist es: Existierende webbasierten Infrastrukturen auszubauen


Citizen Science wird maßgeblich durch die zahlreichen neuen technischen Möglichkeiten (z.B. Online Platformen, Apps, Sensoren) gestärkt. Auch wenn die Anwendung der digitalen Tools weit verbreitet ist, fehlen allgemeine festgelegte Regeln, wie diese Tools zu verwenden sind. Formen der Qualitätssicherung sowie rechtliche Regelungen beim Umgang mit open access Daten sind bisher unklar. Diese fehlenden Strukturen stellen Barrieren für die Potentiale der technologischen Innovationen dar.


SOLL ZUSTAND
Die Anwendung neuer technischen Möglichkeiten für Citizen Science 2.0 sind rechtlich geregelt und werden in Beratungsstellen kommuniziert. Etablierte Infrastrukturen sind optimiert und flexibel, somit ist eine Anpassung möglich. Citizen Science 2.0 ist Teil des wissenschaftlichen Bewertungssystems für Forschende und Forschungseinrichtungen und wird als Source von Innovation und Kreation verstanden. 

Maßnahmen
·         Rechtliche Regelung für Citizen Science 2.0
·         Etablierte Infrastrukturen für Citizen Science 2.0

Akteure
Technische Start-Ups, demokratische Institutionen, wissenschaftliche Einrichtungen, Verwaltung und Politik, Nutzer des Internets



Ziel ist es: Neue Technologien durch Citizen Science Aktivitäten entwickeln

IST ZUSTAND

Es gibt eine aufstrebende DIY (do-it-yourself) und Wissenschaftsläden Community, die aber nicht notwendigerweise mit den Citizen Science Akteuren vernetzt ist, oder sich teilweise sogar bewusst fern von institutionell organisierter Forschung hält. Inhaltich umfassen diese Communities viele Aktivitäten im Bereich Biotechnologie (biohacking) und Informatik (Sensortechnologien). 

SOLL ZUSTAND

Citizen Science fördert die Entwicklung und Anwendung neuer Technologien. Es existieren Orte und Räumlichkeiten, in welchen Bürgerinnen und Bürger „Science & Technology“ nutzen können. Infolge der Entwicklung von neuen Technologien entstehen offene, kreative Schaffens- und Denkprozesse. 


Maßnahmen
·         Etablierung und Vernetzung von Einrichtungen, in welchen Technologien freizugänglich nutzbar sind
·         Öffentliche Labore, beispielsweise in Wissenschaftsläden, Museen oder als Teil von anderen wissenschaftlichen Einrichtungen
·         Unterstützung dieser Einrichtungen durch hauptamtliche Wissenschaftler
·         Schaffung des freien Zugangs von Publikationen für Bürgerinnen und Bürger

Akteure
FabLabs, TA-Institute, Wissenschaftliche Einrichtungen 
 
Am Ende der Veranstaltung werden alle drei Etherpads zur weiteren Bearbeitung auf der Webseite www.buergerschaffenwissen.de verlinkt.