This is a read only archive of pad.okfn.org. See the
shutdown announcement
for details.
Infocamp15_Session3_Raum1
Infocamp 2015
Session 3, Raum 1
Thema: Kontextualisierung von Daten
Teilnehmende: Silvio Gruber, Niklaus Stettler, Michele Merzaghi, Bruno Wenk, Andreas Stegmeier, Silvia Abegglen, Philipp Kuntschik, Bettina Flütsch, Simone Plüss
Klärung: Was ist mit Kontextualisierung von Daten gemeint? Welchen Kontext brauchen Daten?
- - Wer ist der Erzeuger?
- - Warum wurden die Daten erzeugt?
- - Wann wurden sie erstellt (Alter)?
- - Was beschreiben sie?
- - Wie werden sie gepflegt?
- - Mit welchen Methoden wurden sie erstellt / erfasst
- - Versionsgeschichte
- - Rechtliche Grundlagen
- - Links zu anderen Daten
Wie kann der Kontext in der aktiven Phase dokumentiert werden?
- - sollte grundsätzlich in der Datenbank geschehen (optimalerweise automatisch)
- - sobald die Daten "nach aussen" gegeben wird (Archiv, Open Data, Reporting) müssen diese Daten ausgewiesen werden können. (-> Verifikation)
- - wie können diese Daten sinvoll mitgegeben werden
Problematik: Schemata sind vielleicht vorhanden aber Personal, das die Daten einpflegt ist nicht ausreichend geschult / wird unsorgfältig.
Können Metadaten in Dokument mit Daten integriert werden (entweder ausgewiesen oder in einem Container) analog der SIP
Gewisse Metadaten können auch im Datum selbst enthalten werden (Erstellungsdatum) zusätzlich können gewisse Metadaten selbst schnell zu Daten werden.
Quellenkritik und Methode der Erfassung sollte optimalerweise vom Produzenten bereitgestellt werden.
Sollte ein Zwang zu (vollständigen) Angaben von Metadaten bestehen? Manuelle Eingabe teilweise sehr aufwändig -> Motivation sinkt mit Detaillierungsgrad , Grund für Nachnutzung nicht vorhersehbar
Möglichkeit: Mehrere Ebenen -> Beschreibung der "Tabelle", bei den einzelnen "Daten" nur die Unterschiede
Spezifische Ablagen mit spezifischen Angaben mit Directory (nicht Repository) wäre nützlich.
Prozess in Unternehmen
Unternehmen: Records entstehen durch Tätigkeiten in einem länger dauernden Prozess (von unterschiedlichen Personen erstellt), die Daten werden nur bei Notwendigkeit zusammengezogen
Konzept des Datenbanksystem (Dokumentation) ist ein wesentliches Element für die Metadaten erfassung (optimalerweise automatisert)
Problem vor allem bei Freitextfeldern, die von verschiedenen Personen ausgefüllt werden können (Bsp. Titel für Dokument / Geschäft / Projekt)
Bedürfnis, dass das System gewisse Vorgaben enthält (nicht nur klassisch als analoges festes Regelwerk)
Klar ist, das Dokumentation bei Daten gemacht werden sollen. Frage wie und wieso (Grund)?
3 Use Cases: Validität, Auffindbarkeit, Nutzung (Vergleichbarkeit, beötigt maximalen Hintergrund)
Frage: Was ist in 50 - 100 Jahren relevant? Ist es noch nutzbar?
System der Methadaten muss erweiterbar sein.
Gibt es Metadaten Standards?
- Für vieles gibt es Standarts aber gewisse Felder sind nicht standartisiert
- Bsp: DECAT
- ISAD (G), ISAAR / Problematik Verbindungen, Hierarchisierung in ISAD (G)
- Mögl. Felder von ISAD (G) Nutzbar, Hierarchie kann technisch anders umgesetzt werden
Konsenz: Metadaten sind Notwendig und es gibt grundsätzlich Möglichkeiten diese zu erfassen und auszuweisen
Wie praktisch umsetzbar:
- - System, das gewisse Metadaten verlangt
- - analog in Open Datat, allerdings müssen Anpassungen im System vorgenommen werden
Wieso erst jetzt:
- - Linked Open Data (früher einzelne geschlossene Systeme)
- - es gibt mehr Daten
- - die technischen Möglichkeiten bestehen
- - die Nutzungsmöglichkeiten sind klarer
- - vor 50 Jahren hat niemand über die Nutzung nachgedacht
Idee: keine "Datenbanken" Dokumente werden "flach" gelagert (allf. in Standardformat, bsp. RDF) und können so maschinell (als Text) durchsucht werden. Entsprechende Formatierung (mit entsprechender Auszeichnung) nötig.
Problem: Missbrauch -> (absichtlich) falsche Auszeichnungen ausserhalb der sichtbaren Darstellung
Schwierigstes Metadatum: Methode
- - nicht automatisiert auswertbar / darstellbar
- - kein neues Element, wird aber brisanter
- - im Vergleich zu historischer Quellenkritik wird es ungleich schwieriger und aufwändiger diese zu rekonstruieren
Ansatz: Auszeichnung der Metadaten mit Fokus auf Anwendung (allf. Möglichkeit zur Erweiterung)
Beispiel Astronomie: Lange Zeit festes Metadatenschema
Mit veränderung der Methoden / Möglichkeiten änderen sich die Anforderungen an Metadaten.
-> Spezifikation des Systems zentraler Punkt (auch für eine Nachnutzung der Daten) / allenfalls nachträgliche Dokumentation per Screenshots des System
Wann werden die Metadaten wichtig?
- - Genaue Auszeichnung speziell bei rechtlcihen Fragen wichtig.
- - ist es sonst relevant?
- - historische daten? geo daten? Raumplanung? Baupläne? technische Daten (Gotthard Tunnel, Daten des ersten Tunnels sind vorhanden, konnten aber nicht genutzt/ nachvollzogen werden)?
- - gewisse Daten verfügen entsprechend nicht nur über einen historischen Wert, sondern es können auch aktuelle wirtschaftliche / technische /... Bezüge bestehen.
Es ist wichtig nicht nur die Langfristige Nutzung im Fokus zu behalten, sondern vor allem auch die kurz und mittelfristige Nutzung.
Fazit: Metadaten sind in erster Linie Community abhängig und sollten in Hinblick auf deren Bedürfnisse definiert und angewandt werden.