This is a read only archive of pad.okfn.org. See the shutdown announcement for details.

Infocamp15_Session1_Raum2 Infocamp 2015

Thema: Open Data Tools (A2.15)


Teilnehmende;
 Bruno Wenk
 Karsten Schuldt
Tobias Wildi
 Monika Stucki
 Marc Kamer
René Schneider
Marco Humbel
Marcel Hanselmann
Philippe Tanner
Najko Jahn
Felicitas Isler
Susanne Kohler
Barnaby Skinner


Vorschlag Vorgehen:
    1) Definition Datenverwertungskette
    2) Sammlung und Gegenüberstellung entsprechender Tools

    Wichtig Trennung zwischen Datennutzern und Datenproduzenten!
    Diskussion um Grundbegriffe
    
    Datengwinnungs-Kette
  1.     Idee/ Forschungsfrage
  2. Auf bestehnde Datensätze zurückgreifen vs. selber produzieren

Datenliefernaten sind auf präzsise Fragestellungen angewiesen (Archiv)
-> (Sicht Archiv) für welche Community (mit welchem Vorwissen) archivieren wir (Designated Community)? Von welchem Vorwissen können wir ausgehen?
-> (Sicht Datenproduzent) auf welche Data Dictionaries kann ich zurückgreifen? Wie steuert dies meine Fragestellung?

1. Nachnutzung von Daten

Konkretes Beispiel: Open Access Kosten Darstellung der Uni Bielefeld in Github

Beifrage: Sind manche Ideen nicht schon per se einfach so vorhanden? Braucht man dazu Tools? Oft generieren sich auch erst aus vorhandenen Datensätzen Ideen/Fragen.
Was heisst Scraping? Daten aus unstrukturierten Datensätzen extrahieren Scraping Tools siehe oben unter Mining.
Einschub Herr Wenk: http://webdatacommons.org--> Auszeichnung von strukturierten Daten auf Webseiten

2. Erstellung von Daten


Tools:
Repositories:
- Github

Mining:
    -Outwithub
    - Morph
     - ropensci (für Literaturquellen, Forschungsdaten)

Reinigen:
- Google Refine (openrefine.org)

Transformation
- librecat (Bibliothekarische Daten [Katalog] in verschiedene Formate umwandeln)

Analyse:
    - CartoDB
    - R
    - Excell
    - SPSS
    - Tableau

Visualisierung:
    - Tableau
    - Gephi
    
Storytelling/ Publshing
Anschauliches Beispiel gefordert zum Durchspielen der Tools:
Najko --> OpenAPC  (https://github.com/OpenAPC/openapc-de) => Datensatz mit bezahlten LIzenzgebühren von BIbliotheken an Verlage

GIbt es Prozesse um semistrukturerte Daten zu strukturieren (z. Bsp. Worddokumente)?
Textliche Daten -> machinelles Lernen Probleme; Programmierkenntnisse nötig,Ausnahmen in der Datenmenge, es gibt keine Sicherheit ob das Resultat von maschinellem Lernen immer valide ist
Gibt es im Datenjournalismen Tools dazu? Nein, noch nicht! Von Fall zu Fall andere Herangehensweise!->https://www.documentcloud.org/home, https://www.overviewdocs.com/
Ü

Literatur:
Data Science at the Command Line http://datascienceatthecommandline.com/