This is a read only archive of pad.okfn.org. See the
shutdown announcement
for details.
Infocamp15_Session1_Raum2
Infocamp 2015
Thema: Open Data Tools (A2.15)
Teilnehmende;
Bruno Wenk
Karsten Schuldt
Tobias Wildi
Monika Stucki
Marc Kamer
René Schneider
Marco Humbel
Marcel Hanselmann
Philippe Tanner
Najko Jahn
Felicitas Isler
Susanne Kohler
Barnaby Skinner
Vorschlag Vorgehen:
1) Definition Datenverwertungskette
2) Sammlung und Gegenüberstellung entsprechender Tools
Wichtig Trennung zwischen Datennutzern und Datenproduzenten!
Diskussion um Grundbegriffe
Datengwinnungs-Kette
- Idee/ Forschungsfrage
- Auf bestehnde Datensätze zurückgreifen vs. selber produzieren
Datenliefernaten sind auf präzsise Fragestellungen angewiesen (Archiv)
-> (Sicht Archiv) für welche Community (mit welchem Vorwissen) archivieren wir (Designated Community)? Von welchem Vorwissen können wir ausgehen?
-> (Sicht Datenproduzent) auf welche Data Dictionaries kann ich zurückgreifen? Wie steuert dies meine Fragestellung?
1. Nachnutzung von Daten
Konkretes Beispiel: Open Access Kosten Darstellung der Uni Bielefeld in Github
Beifrage: Sind manche Ideen nicht schon per se einfach so vorhanden? Braucht man dazu Tools? Oft generieren sich auch erst aus vorhandenen Datensätzen Ideen/Fragen.
Was heisst Scraping? Daten aus unstrukturierten Datensätzen extrahieren Scraping Tools siehe oben unter Mining.
Einschub Herr Wenk: http://webdatacommons.org--> Auszeichnung von strukturierten Daten auf Webseiten
2. Erstellung von Daten
- Schritte: Tools
- Bedarfsanalyse: Gesetze zur Dokumentation; Policies (Tools?); Datamanagementplans (DMPonline https://dmponline.dcc.ac.uk/) für den Bereich Forschungsdatenmanagement; Dataone https://www.dataone.org/; Word
- Datenproduktion/Strukturierung/Bereitstellung: arbeiten in einem SIP , docuteam packer (https://wiki.docuteam.ch/doku.php?id=docuteam:packer_200), TE-Editoren; xml Editor ; Spezialeditoren aus den Digital Humanities (Oxygen--> www.oxygen.com); Excel; SAP; Taverna (Bioinformatik) --> www.taverna.org.uk,
- Bereinigung der Metadaten: keine Tools bekannt
- Datenprovision: Rosetta, DSpace (https://www.dspace.com/de/gmb/home.cfm), GItHub, Wikidata(https://www.wikidata.org), Silk( http://www.silk.co) Migrationstools
- Auffindbarkeit: bei Google, Opendata Portale (Stadt ZH, Bund) (http://opendata.admin.ch ),w3data(http://www.w3-data.de/), pubmed, Europeana (http://www.europeana.eu/portal/); API; alod.ch http://alod.ch/, Silk
Tools:
Repositories:
- Github
Mining:
-Outwithub
- Morph
- ropensci (für Literaturquellen, Forschungsdaten)
Reinigen:
- Google Refine (openrefine.org)
Transformation
- librecat (Bibliothekarische Daten [Katalog] in verschiedene Formate umwandeln)
Analyse:
- CartoDB
- R
- Excell
- SPSS
- Tableau
Visualisierung:
- Tableau
- Gephi
Storytelling/ Publshing
Anschauliches Beispiel gefordert zum Durchspielen der Tools:
Najko --> OpenAPC (https://github.com/OpenAPC/openapc-de) => Datensatz mit bezahlten LIzenzgebühren von BIbliotheken an Verlage
GIbt es Prozesse um semistrukturerte Daten zu strukturieren (z. Bsp. Worddokumente)?
Textliche Daten -> machinelles Lernen Probleme; Programmierkenntnisse nötig,Ausnahmen in der Datenmenge, es gibt keine Sicherheit ob das Resultat von maschinellem Lernen immer valide ist
Gibt es im Datenjournalismen Tools dazu? Nein, noch nicht! Von Fall zu Fall andere Herangehensweise!->https://www.documentcloud.org/home, https://www.overviewdocs.com/
Ü
Literatur:
Data Science at the Command Line http://datascienceatthecommandline.com/