This is a read only archive of pad.okfn.org. See the
shutdown announcement
for details.
Infocamp15_Session1_Raum1
Infocamp 2015
Session 1, Raum 1
Thema: Data Life Cycle Management
Teilnehmende: Andreas Steigmeier, Eliane Blumer, Nicolas Prongué, Simone Plüss, Bettina Flütsch, Marco Zollinger, Michele Merzaghi, Mara Hellstern, Elena Mastrandrea, Silvio Gruber
Fragestellungen:
- Ist der Life Cycle von strukturierten und unstrukturierten Daten der selbe? 3 Phasen (aktiv, semi-aktiv, Archiv)?
Ist es nicht der Life Cycle von Dokumenten gegenüber strukturierten Daten?
- Häufig wird nur nach Lösungen für unstrukturierte Daten gesucht
- Bei strukturierten Daten wurden noch nicht nach entsprechenden Lösungen gesucht
- Muss bei strukturierten Daten die Struktur mit etrahiert werden?
- Muss Programm mit archiviert werden? (Können Daten in 10-20 Jahren noch gelesen werden)
- aktuell wird teilweise Struktur aufbereitet, damit die Daten lesbar bleiben
- Wie glaubwürdig sind Daten? Wie wird Qualität dokumentiert?
- Institutionen sammeln die (strukturierten) Daten. Wie müssen die Daten gepflegt werden, damit die Qualität über den gesamten Life Cycle gewährleistet ist.
- Teilweise schwierig: Bsp. Adressen (veraltet, unvollständig, Doppel)
- es gibt Systeme mit Logfiles, zum Teil gibt es Schemen, die Überprüfung unterstützen (Bsp. AHV Nr.)
- Erfahrung: Manuelle Kontrolle oft für Qualitätssicherung nötig (oft bei speziellen Ereignissen)
- - Problem: Wann sind die Daten von Interesse? (Aktualität)
- - Ist strukturierte Ablage von Vorteil?
- - Wer ist der Nutzer der Daten?
Qualitätsprobleme können durch menschliche Fehler (falsche Eingabe) oder automatismen (Migration), externe Faktoren (Kunden ziehen um)
These: Daten sind immer falsch. Der Grad richtet sich nach den Grund der Nutzung.
Einteilung in statische und dynamische Daten. Erreichen dynamische Daten je die 2. und 3. Phase?
Was geschieht bei Systemumstellungen: Wird altes System übergangsweise weiter verwendet? Migriert?
Szenarien:
- Buchhaltungsdaten... nach dem aktiven Jahr?
- Kundendaten (z.B. in einer Bank).... nach der Migration in ein neues System?
- Einwohnerkontrolle der Stadt Baden (digitale Stadtarchiv): 18'000 Einwöhner in der Tat, 80'000 Einträge in der Datenbank... sollen alle Einträge in die neue Datenbank migriert werden?
- Fusion von 5 Banken... wie werden die Datensystemen zusammengeführt?
Mögliche Fälle:
- Snapshots von Datenbanken
- altes System wird bei Datenübergabe abgestellt
- Dokumentation wird auf pdf archiviert, teilweise gar ausgedruckt so archiviert
- altes System läuft noch ein Weilchen zu Konsultationszwecken (semi-aktive Phase)
- Emulation auf lange Frist Beispiel von Emulation as a service: http://bw-fla.uni-freiburg.de/
- - Möglich. Der Nutzen ist teilweise fraglich. Emulation kaum mehr relevant (stimmt je nach Community nicht, siehe z. B. http://www.mame.net/). Migration auf Vorrat ist vorzuziehen.
- - Emulation eignet sich mehr für die 2. Phase (Zeithorizont ca. 10 Jahre)
- keine Phase drei
- keine Phase zwei und drei, weil immer direkt wieder aktiv, durch neues System
Test für eine Anmerkung
Archivierungsformat : SIARD http://www.bar.admin.ch/dienstleistungen/00823/01911/index.html?lang=de
Die wichtigsten Metadaten sind die Logfiles, speziell im Kontext der Qualitätssicherung
Definition von Statischen und dynamische Daten? (Analogie zu Stammdaten und Bewegungsdaten? Stammdaten = können verändert werden, kommt aber selten vor)
- abgeschlossen = statisch ?
- statische Daten -> read only Daten?
-
- Gibt es einen Unterschied zwischen statischen und dynamischen Datenbanksysteme im Bezug auf den Life Cycle?
- Kann grundsätzlich das gleiche Schema angewandt werden?
- Qualität ist nicht an Life Cycle gebunden. Organisatorische Aufgaben sind wichtiger.
- - Phase 1: Logfiles, Kontrollen, Regeln ...
- - Phase 2: Technische Überlegungen
Schritt von Phase 1 zu Phase 2 ist wichtig und wird tendenziell eher bei unstrukturierten Daten berücksichtigt.
Wie werden strukturierte Daten aus der 3. Phase nutzbar gemacht? Wie hoch ist der Aufwand (tendenziell viel höher als bei unstrukturierten Daten)?
Gibt es Vergleiche bei der Länge des Life Cycles?
- These bei strukturierten Daten je länger Phase 1 umso aufwändiger Phase 2 und 3.
- Komplexität wird nicht wesentlich beeinflusst.
- - Bsp. Einwohnermeldesysteme wurden seit den 80ern mehrfach vollständig migriert -> die Phasen finden innerhalb des Systems statt. Allenfalls wäre eine teilweise überführung direkt in Phase 3 denkbar (inaktive (= weggezogene) unterscheiden sich nur Status)
- - Datensätze die laufend aktualisiert werden sind gefährdeter und müssen tendenziell schneller archiviert werden.
- - es gibt allerdings auch Fälle, bei denen Daten aus gesetzlichen Gründen nach gewissen Fristen gelöscht werden müssen
- - Fall Einwohnermeldesystem: bei Überführung in Phase 3 sowohl strukturiert (quantitative Auswertung) als auch einzelne Datensätze (einzelne Anfragen)
- -> in Phase 3 muss die Struktur beibehalten werden und es muss auf die einzelnen Dokumente zugegriffen werden können
Life Cycle von Systemen wenn Firma nicht mehr existiert:
Geschäftsrelevanteysteme werden grundsätzlich nicht ohne Nachfolger abgestellt.
Fusion Banken: Migration der Daten, altes System Read only nach Nützlichkeit.
- Wie wird Datenqualität gewährleistet? Wird System dokumentiert?
Bei Konkurs: Über gesetzliche Aufbewahrungspflicht hinaus, lohnt sich die Aufbewahrung?
Grundsatz: Viele strukturierte Daten werden nie in Phase 3 überführt. -> Aufwändig, fehlende Notwendigkeit / Nutzen
Fragen zum Datenschutz:
Überlegungen zu Datenschutz und Öffentlchkeitsprinzip müssen berücksichtigt werden (Zugriffsberechtigungen)
Überwiegende Mehrheit der Datensammlungen enthalten Dokumente, die Datenschutzrichtlinien unterliegen.
http://www.swissuniversities.ch/fileadmin/swissuniversities/Dokumente/EN/UH/SUK_P-2/Abstract_DLCM.pdf