This is a read only archive of pad.okfn.org. See the
shutdown announcement
for details.
Workshop_TextVis
Workshop: Einführung in die Textvisualisierung
Interfacekritik/Methodenkritik
- Was habe ich versucht, mit dem Interface über meinen Text herauszufinden?
- Inwiefern hat mir das Interface dabei geholfen oder nicht geholfen? Kann ich bestimmte Schlussfolgerungen ziehen?
- Inwiefern hätte das Interface anders gestaltet sein müssen, um meine Frage zu beantworten? Wie arbeite ich normalerweise an Texten?
- (Unter Zuhilfenahme der Visualisierungstipps: Was sollte man gestalterisch am Interface verändern, um meine Frage besser beantworten zu können?)
Links
Tools:
Wordtree – https://www.jasondavies.com/wordtree
emosaic – http://emosaic.de/
samediff https://www.databasic.io
Übersicht über Tools zur Textvisualisierung:
http://textvis.lnu.se/
Übersicht über generelle Tools zur Datenvisualisierung:
http://selection.datavisualization.ch/
Tools zum Scrapen von Text in pdf-Dokumenten:
Cometdocs http://www.cometdocs.com/
Abbyy Finreader (kommerziell) http://finereader.abbyy.de/
Tabula http://tabula.technology/ (eher für Tabellen in PDFs)
Vis:
Docuburst http://vialab.science.uoit.ca/portfolio/docuburst-visualizing-document-content-using-language-structure
Serendip http://vep.cs.wisc.edu/serendip/
TRAViz http://www.traviz.vizcovery.org/
lit. https://vimeo.com/16976300
Interfacekritik/Methodenkritik Christine Hoffmann
(Mediendidaktikerin, Magistra Philosophie/Neue deutsche Literatur)
1. SameDiffReport
- Ich habe zwei selbstgeschriebene Texte über ein Konzept und ein Medienprojekt hochgeladen.Die Frage war, ob die Texte über Projekt und Konzept eine so ähnliche Wortwahl haben, dass das Tool sie als ähnlich einstuft.
- Ich kann das Ergebnis leider nicht interpretieren, es handelt sich um einen Cosinus, der Wert lag im Bereich recht extrem (0,82) .
- Ich hätte mir gewünscht, dass ich eine Anleitung hätte, um das Ergebnis zu interpretieren. Zudem befürchte ich, dass ein aussagekräftiges Ergebnis durch die Einbeziehung von Füllwörtern gar nicht erreicht wird. (?) Auch ansonsten würde ich Wörter und Begriffe vergleichen. Insofern empfinde ich das Ergebnis der mittleren Spalte für mich als hilfreich.
- Das Ergebnis hätte visualisiert werden könne, eventuell so, dass die beiden Texte als verbunden dargestellt würden oder auch eben nicht. Der Cosinuswert ist sehr unanschaulich.
2.emosaic
- Ich wollte prüfen, welche Emotionen das Tool in einem Sachtext findet.
- Das Ergebnis, dass der Text von "Love" bestimmt sei, hat mich befremdet. Mir scheint, dass ich daraus keine Schlussfolgerungen ziehen kann.
- Mir erscheint die Methode insgesamt zweifelhaft. Da der Wert offenbar für jedes Wort einzeln berechnet wird, ist die eigentliche Textbedeutung anscheinend vollkommen unbedeutend. Ich bezweifele, dass die emotionale Wirkung eines Textes der Summe der emotionalen Wirkung der Einzelwörter entspricht. Selbst diese Methode ist nicht fehlerfrei: So ist das Wort "kind" offenbar mit "Love" konnotiert. Dabei handelt es sich aus meiner Sicht aber um einen Homonymirrtum.In einem Text würde ich nur ausgewählte Wortschatzbereich so betrachten.
- Vielleicht würde das Ergebnis aussagekräftiger, wenn auch hier Füllwörter herausfallen könnten, bzw. eine Beschränkung auf Substantive möglich wäre. Bedienen lässt sich das Tool gut.
3. Wordtree
- Ich habe mich gefragt, ob ich, wenn ich zentrale Begriffe auf "Root" setze, ich einen Überblick über die zentralen Thesen hätte.
- Ich war mit dem Ergebnis nicht unzufrieden, hätte aber für schnelle Schlussfolgerungen
Christiane Müller-L. (Romanische Philologie: Literaturwissenschaft)
1. Wordtree
Wie häufig und in welchen Kontexten tauchen in Sekundärwerk Autoren bzw. bestimmte Genera auf.
-> positiv, direkt Häufigkeit + Satzumgebung/ Kontext. Werde ich öfter gebrauchen ;).
2. Emosaic: Würde auf Emotionen in meiner Primärliteratur suchen. Problem: französische Texte
3. Databasic:
- word counter: wieder Problem Französisch, Sprache mit sehr vielen Partikeln, Inhaltswörter "rutschen zu weit runter" im Ranking.
Weiterentwicklung des Programms: diese Wörter rausfiltern? Nomensuche o.ä.?
- csv.: habe keine csv-files bzw. kenne ich mich nicht mit aus - noch einmal mehr dazu sagen?
- Mir fällt auf, dass ich viel mehr auf lesbare Dateien umstellen müsste (Thema bereits im Flur angesprochen), in samediff würde ich dann verschiedene Sekundärliteratur (z.B. zu unterschiedlichen Zeitpunkten) durchlaufen lassen und schauen, auf grundlage welcher Autoren die Schlussfolgerungen gemacht werden, auf was verwiesen wird. Ich würde auch je nach Thema schauen, ob sich bestimmte semantische Felder herauskristalliesieren etc.
Anna Busch (Litwiss.)
SameDiff:
- Wie hoch ist die Ähnlichkeit zweier Texte?
- einfach zu bedienen, übersichtliche Ergebnisse
- für die erste Orientierung über die Ähnlichkeit zweier Texte geeignet, nicht für weitergehende Kollationierung geeignet
- .docx hat nicht funktioniert
emosaic:
- visuell ansprechend, aber ich kann aus der Visualisierung keine Ergebnisse lesen (mag auch an mir liegen)
- es ist mir nicht klar, warum einem bestimmten Wort z.B. ein hoher oder niedriger arousal-Wert zugeordnet wird
word Tree:
- intuitive und einfach zu handhabende Visualisierung
Jan Christoph Meister; Prof. für NdL mit Spezialisierung in Narratologie und DH
Sorry, habe mich i.W. gleich auf die Meatperspektive eingeschossen...
SameDiff:
- in didaktischer Hinsicht ein gutes Einstiegstool - besonders wenn man sich dazu den "activity guide" unter https://www.databasic.io/en/samediff/samediff-activity-guide.pdf anschaut
- auf den ersten Blick etwas 'mager' was den Einsatz von Visualisierungsoptionen angeht - denn es ist im Prinzip eine schlichte 3-pane Ansicht, die zugleich Häufigkeit der Vorkommnisse durch Textgröße darstellt. Auf den zweiten Blick gefällt mir aber gerade diese Schlichtheit, die sehr elegant die traditionelle Perspektive auf Texte (= "3 nebeneinander legen, dann vergleichen") zur Grundlage nimmt, um die visuelle Metapher darüberzulegen. Das holt den Nutzer da ab, wo er sich für gewöhnlich bewegt.
eMosaic:
- habe ich mit einem englischen Text aus Gutenberg getestet (Bodyguard by By CHRISTOPHER GRIMM von 1956) um zu sehen,ob das 'Emotionsvokabular' eine historische Spezifik aufweist. Verlangt natürlich eigentlich eine Korpusperspektive - was mein erstes FR wäre
- gut finde ich das "Morphen" zwischen den drei Ansichten Mosaic/Scatter plot/Histogram - es macht visuell klar, dass die gleiche Datenbasis neu dargestellt wird.
- Möglichkeit zur Angabe eigener Referenzkorpora / semantischer Lexika wäre gut
WordTree:
- gut die Möglichkeit zur Verknüpfung von Phrasen als "Header term"; ansonsten konzeptionell dem DoubleTree in CATMA sehr ähnlich
- würde mir für diese Vis eine Art 'Recommender Funktion' wünschen, die einem automatisch vorschlägt, welche Header Terms möglicherweise interessant für die Vis-basierte Exploration sein könnten (z.B. Zipf-Score basiert)
Franziska Kutzick, Doktorandin in frz. LitWiss, Gegenwartsliteratur
SameDiff:
- Würde ich verwenden, um zwei Versionen eines Romans miteinander zu vergleichen (Texte lagen nicht als Daten vor).
- Problem wahrscheinlich: Es handelt sich um frz. Texte -> wird das auch erkannt?
Emosaic:
- Stimmung in einem Text. Gegenstand: Madame Bovary im Original.
- Hat erstaunlich gut funktioniert, da doch viele Worte im Englischen ähnlich sind.
- Spezifische frz. Vokabeln fielen natürlich durchs Raster, deshalb wäre eine Spracherweiterung super - dann könnte ich mir eine Verwendung sehr gut vorstellen.
Wordtree:
- Vergleich von den Stellungen zweier Begriffe in ihrem häufigsten Kontext.
- Hat sehr gut funktioniert, besonders gut finde ich die Sprachunabhängigkeit und das elegante Design! Ich weiß nun, dass "Madame Bovary" eher am Satzanfang steht, wohingegen "Emma Bovary" nie vorkommt, sondern nur "Emma", und dann vorrangig am Satzende steht. Könnte man gut dafür verwenden, um eine unterschiedliche Figurdarstellung abhängig von ihrer Benennung durch den Erzähler zu belegen.
Anett Brüsemeister
SameDiff:
der Vergleich der Texte ist m. E. zu unspezifisch, da mir z. B. zugehörige Positionsangaben für die Wörter fehlen
emosaic
- kann ich wenig mit anfangen
Wordtree
- wenn saubere Daten vorhanden sind, sicher schnell und einfach zu benutzen
- gut zum herausfiltern formelhafter Wendungen
Niels-Oliver Walkowski Wiss-Mit. BBAW (DARIAH Proj.)
SameDiff
- Was habe ich versucht, mit dem Interface über meinen Text herauszufinden?
Ich habe 2 Texte von Slavoj Zizek benutzt. Ich hatte keine vorgängige Frage, sondern habe mir überlegt welche Frage das Interface gut zu beantworten scheint. Wo liegen thematische Eigenheiten zwischen den Werken?
- Inwiefern hat mir das Interface dabei geholfen oder nicht geholfen? Kann ich bestimmte Schlussfolgerungen ziehen?
Durch die Abgrenzung von Begriffen, die nur in dem einen oder anderen Werk vorkommen und mittels spontaner Herausfilterung von thematisch nicht aussagekräftigen Tokens konnte ich zumindest herausbekommen, dass das eine Buch diskursiv stärker realweltliche Konflikte und religiöse Motive aufgreift, während das andere sich das andere stärker in einem philosophie-historisch theoretischen Kontext bewegt
- Inwiefern hätte das Interface anders gestaltet sein müssen, um meine Frage zu beantworten? Wie arbeite ich normalerweise an Texten?
löschen von bestimmten Wö
emosaic
- Salvoj Zizek ist ein Mensch ohne Gefühle (Upload funktionierte nicht)
wordTree
- Was habe ich versucht, mit dem Interface über meinen Text herauszufinden?
Ich habe "Absolute Recoil"von Slavoj Zizek benutzt. Ich hatte keine vorgängige Frage, sondern habe mir überlegt welche Frage das Interface gut zu beantworten scheint. Welche Rolle spielt Hegel in dem Werk.
- Inwiefern hat mir das Interface dabei geholfen oder nicht geholfen? Kann ich bestimmte Schlussfolgerungen ziehen?
Durch das Interface habe ich herausgefunden, dass Hegel häufig als Ausgangspunkt für Zizeks eigene Argumentation verwendet wird.
- Inwiefern hätte das Interface anders gestaltet sein müssen, um meine Frage zu beantworten? Wie arbeite ich normalerweise an Texten?
Es gab zu wenig Platz auf dem Bildschirm, der Inhalt war zu gedrungen
- (Unter Zuhilfenahme der Visualisierungstipps: Was sollte man gestalterisch am Interface verändern, um meine Frage besser beantworten zu können?)
Schöne wäre es gewesen, wenn es parallel zur rechten Spalte mit dem Text noch eine Spalte mit dem Textoutline gegeben hätte in dem sich die Textstelle befindet (erweiterter Kontext)rtern innerhalb der Tag Cloud(Unter Zuhilfenahme der Visualisierungstipps: Was sollte man gestalterisch am Interface verändern, um meine Frage besser beantworten zu können?)Man könnte im Sinne meiner Fragestellung noch anbieten, Verknüpfungen von Wörtern die in beiden Werken vorkommen und in der mittleren Spalte stehen zu Wörtern die in der Spalte des einen oder anderen Werkes in der Nähe vorkommen zu visualisieren
Katarina Le Müller
Samediff: Ich habe zwei Texte - Kulturempfehlungen - verglichen (score 0,22). Ein nettes Werkzeug für den schnellen Vergleich, und auch die Herausfiltern von zentralen Wörtern, die vielleicht in Bezug auf Onlinemarketing eingesetzt werden könnten.
Vorteil: schnell, übersichtlich
Nachteil: nur English
Wunsch: mehrere Texte gleichzeitig vergleichen
emosaic: die gleichen Texte eingegeben. Es ist etwas unklar was bei der Darstellung eigentlich gezeigt wird. Ein interessanter Faktor wäre der “emotionally relevant” count, der ganz unten steht, aber leider nicht mit visualisiert wird. Die Idee ist aber für meine Arbeit mit Stereotypen sehr interessant
Vorteil: hübsch
Nachteil: konzeptuell nicht ganz durchschaubar. Nur Englisch
Wunsch: die Zuordnung deutlicher machen
Wordtree: bei den Kulturempfehlungen eher uninteressant, weil die Texte einfach zu kurz waren. Bei Interviewdaten viel interessanter, weil es da interessante Wiederholungen gibt
Vorteil: Flexibilität und deutlicher Bezug zu den Originaldaten
Nachteil: nur für längere Texte
SameDiff (Marco Petris, Institut für Germanistk, Softwareentwicklung)
Texte: frankenstein, dracula
Nutzen die beiden Texte ähnliche Wörter um Spannung zu erzeugen?
Liste enthielt interessante Kandidaten wie "shall", "night", "see".
Es gibt nicht die Möglichkeit von der Ergebnisliste in den Text oder in eine KWIC Ansicht zu wechseln.
Mosaic (Marco Petris)
Texte: dracula, pygmalion
Pygmalion wird bei gutenberg.org unter dem Stichwort Comedy gefunden und ich wollte sehen ob die Mosaic Sicht den Unterschied zu Dracula zeigt.
Die Bilder unterschieden sich im Farbbild nicht signifikant.
Wahrscheinlich ist mir die Einteilung in von Emotionen über valence, arousal und dominance noch nicht ganz klar.
Word Tree (Marco Petris)
Text dracula mit suchwort garlic
der einseitige Kontext stört