Annotieren, Analysieren, Visualisieren – Einführung in CATMA 6

workshop / tutorial
Authorship
  1. 1. Jan Horstmann

    Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg

  2. 2. Jan Christoph Meister

    Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg

  3. 3. Marco Petris

    Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg

  4. 4. Mareike Schumacher

    Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg

  5. 5. Marie Flüh

    Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg

Work text
This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.


Einleitung
Der ohne technische Vorkenntnisse besuchbare hands-on Workshop bildet eine Einführung in die Möglichkeiten der für Geisteswissenschaftlerïnnen entwickelten, webbasierten Annotations- und Analyseplattform CATMA, deren sechste Version im Oktober 2019 veröffentlicht wurde. Im Zentrum stehen theoretische und praktische Aspekte der digitalen Annotation von (literarischen) Texten sowie die Analyse und Visualisierung dieser Texte und der erstellten Annotationen.
CATMA (Computer Assisted Text Markup and Analysis;
https://catma.de) ist ein webbasiertes open-source-Tool, das seit 2008 an der Universität Hamburg entwickelt und derzeit von über 60 Forschungsprojekten und ca. 12.000 Nutzerïnnen weltweit genutzt wird. Die im Zuge des DFG-Projektes forTEXT (https://fortext.net) entwickelte sechste Version bietet neben erweiterten technischen Möglichkeiten (wie beispielsweise der Datenversionierung und der Organisation kollaborativer Arbeit in einer Projektstruktur), ein völlig überarbeitetes, intuitiver nutzbares User Interface, das einen leichten Einstieg in die digitale Textannotation und -analyse ermöglicht, ohne dass umfangreiche technische Kenntnisse vonnöten wären, und ohne dass die Nutzerïnnen mit zu vielen (Experten-)Funktionen gleichzeitig konfrontiert würden. Das gesamte Repertoire an Funktionen (wie beispielsweise kollaborative Annotation oder automatische Annotation von Textkorpora) kann von erfahreneren Nutzerïnnen bei Bedarf genutzt werden.

Abbildung 1: CATMA

CATMA unterstützt...

private und teambasierte Texterforschung durch individuelle wie kollaborative Annotation, Analyse und Visualisierung;
explorative, non-deterministische Praktiken der Textannotation – CATMA liegt ein diskursiver, diskussionsorientierter Ansatz zur Textannotation zugrunde, der auf die Forschungspraktiken hermeneutischer Disziplinen zugeschnitten ist;
die nahtlose Verknüpfung von Textannotation, Analyse und Visualisierung in einer webbasierten Arbeitsumgebung – Analyse und Interpretation gehen nach dem Prinzip des ‘hermeneutischen Zirkels’ in CATMA damit Hand in Hand.

Von linguistischen Textanalysetools unterscheidet sich CATMA insbesondere durch seinen „undogmatischen” Ansatz: Das System schreibt mit seiner hermeneutischen Annotation (vgl. Piez 2010) weder definierte Annotationsschemata oder -regeln vor, noch erzwingt es die Verwendung von starren Ja-/Nein- oder Richtig-/Falsch-Taxonomien. Wenn eine Textstelle mehrere Interpretationen zulässt (wie es in literarischen Texten häufig der Fall ist), ist es in CATMA (durch die Nutzung von Standoff-Markup) daher möglich, mehrere und sogar widersprechende Annotationen zu vergeben und so der Bedeutungsvielfalt der Texte Rechnung zu tragen. Mit der
Build-Query-Funktion lassen sich zudem ganz ohne Kenntnisse der Query Language Schritt für Schritt Abfragen kreieren und Textanalysen durchführen. Die Ergebnisse der Analyse können in verschiedenen Varianten visualisiert und für die literaturwissenschaftliche Interpretation und Argumentation genutzt werden. Die sechste Version des Tools integriert gemäß der im Projekt 3DH (http://threedh.net) formulierten Kriterien einer
Dynamic Data Visualisation and Exploration for Digital Humanities Research ein geisteswissenschaftlich orientiertes Visualisierungskonzept. Dieses Konzept nutzt die
Vega Visualization Grammar, die auf die von Wilkinson (2005) formulierte generische
Grammar of Graphics zurückgeht. Schließlich bietet CATMA die Möglichkeit, bereits annotierte Texte zu verarbeiten (z. B. durch den Upload von XML-Dateien) und die in anderen Tools erstellten Annotationen anzuzeigen, mit zu analysieren und damit wissenschaftlich nachzunutzen. Außerdem lassen sich in CATMA auch automatische (z. B. POS für deutschsprachige Texte) und halb-automatische Annotationen generieren.

Manuelles und kollaboratives Annotieren
Die seit Jahrhunderten zu den textwissenschaftlichen Kernpraktiken gehörende Annotation (vgl. Moulin 2010) lässt sich in sog. Highlights, Freitextkommentare sowie taxonomiebasierte Annotation und Textauszeichnung aufteilen, wobei die Übergänge häufig fließend sind (vgl. Jacke 2018, § 9). Während CATMA 6 auch die Möglichkeit für Highlights und Freitextkommentare bietet, ist die taxonomiebasierte Annotation das eigentliche Kerngeschäft des Tools – wobei die Taxonomie prinzipiell undogmatisch erstellt werden kann und die Form von sog. Tagsets annimmt, denen für kollaborative Annotationsprojekte wahlweise eine Annotations-Guideline beigegeben werden kann (vgl. auch Bögel et al).
Im Workshop werden wir den Unterschied von
Document (der eigentliche Text),
Tagset (die aus
Tags – d. h. aus einzelnen Beschreibungsbegriffen – gebildete Taxonomie, mit der Texte annotiert werden) und
Annotation Collection (die nutzerspezifische Sammlung individueller Annotationen zu einem
Document oder einem Korpus) kennenlernen. Diese für CATMA spezifische Dreigliederung bietet mehrere Vorteile:

Taxonomien können projektübergreifend und unabhängig von Texten und Annotationen wiederverwendet werden;
Annotationen können als
Collections nach unterschiedlichen inhaltlichen (z. B. nach Forschungsaspekten) oder auch organisatorischen Gesichtspunkten (z. B. nach Projektmitgliedern) gruppiert und wiederverwendet bzw. erweitert werden;

benutzerspezifische Annotationen werden als sog.
Stand-off Markup gespeichert und können damit wahlweise angezeigt oder ausgeblendet werden. Der eigentliche Text wird hierbei nicht verändert. Arbeitet eine Gruppe von Annotatorïnnen mit der gleichen Taxonomie an einem Text, lassen sich Übereinstimmungen und Widersprüche direkt und einfach erkennen (vgl. Gius und Jacke 2017), um auf interessante oder problematische Textstellen aufmerksam zu werden und die ‘Arbeit am Text’ zugleich kritisch zu reflektieren.

Analyse und Visualisierung
Neben der Annotation sind die Analyse und Visualisierung der Text- und Annotationsdaten das andere wichtige Standbein von CATMA. Hier wird
distant reading mit
close reading zusammengebracht, denn die zuvor manuell erstellten qualitativen Annotationen werden nun in ihrer Quantität, Relationalität und Verteilung hinterfragt. Dies geschieht in Zusammenhang mit „klassischen” DH-Textanalysemethoden wie dem Erstellen einer Wortfrequenzliste, der Analyse von Keywords in Context (KWIC und
DoubleTree) oder der Distribution ausgewählter Wörter (oder eben Annotationen) im Text oder in der Textsammlung.

Neben diesen grundlegenden Funktionen, die alle per Klick ausgeführt werden können, bietet CATMA die sog.
Build-Query-Funktion, ein Wizzard, in dem komplexere Abfragen einfach per Mausklick erzeugt werden können, ohne dass tiefergehende Kenntnisse einer Abfragesprache (sog.
Query Language) verlangt werden. Im Workshop werden wir uns dabei nicht nur den Analysefunktionen widmen, sondern auch die unterschiedlichen Visualisierungsmöglichkeiten zu den einzelnen Abfragen anschauen und hinterfragen.

Im Analysebereich können außerdem halbautomatische Annotationen erstellt werden, d. h. man annotiert wiederkehrende Wörter oder Wortgruppen auf einmal mit einem bestimmten Tag, statt dies manuell und wiederholt im Annotationsmodul zu tun.
Der Wechsel zwischen der Arbeit im Annotations- und Analyse- und Visualisierungs-Modul ist ein iterativer Prozess, der die klassisch-zirkuläre hermeneutische Interpretationsarbeit in der Literaturwissenschaft widerspiegelt (vgl. Gius, im Erscheinen).

Ablauf
Im Workshop werden wir uns in abwechselnden Präsentations- und Hands-on-Phasen der textanalytischen Arbeit in CATMA 6 nähern. Nach einer generellen Einführung in das Tool werden die Teilnehmerïnnen anhand eines vorgegebenen Beispieltextes den gesamten Workflow von der individuellen taxonomiebasierten Textannotation, über die Analyse hin zur Visualisierung und Interpretation der Text- und Annotationsdaten kennenlernen und praktisch erproben können.

Lernziele
Die Teilnehmerïnnen sollen ausgehend vom digitalen Text in die Lage versetzt werden, Annotationen manuell und automatisch unterstützt zu erstellen und in Annotation Collections zu speichern, Tagsets/Taxonomien zu entwickeln und den Text alleine und in Kombination mit den Annotationen zu analysieren und zu visualisieren. Für kritische Reflektionen, Diskussionen sowie individuelle Rückfragen (theoretischer, praktischer und technischer Art) auf jedem Niveau und in Bezug auf die Projekte der Teilnehmerïnnen wird ausreichend Möglichkeit bestehen.

Zeitplan
Im Workshop werden wir anhand von Kafkas Erzählung
Erstes Leid und narratologischen Kategorien der erzählerischen Distanz beispielhaft den Arbeitsablauf der digitalen Texterforschung praktisch kennenlernen (die Teilnehmenden können jedoch auch gerne mit selbst mitgebrachten Texten und Annotationskategorien arbeiten):

analytische Textexploration (ca. 30 Minuten)
manuelle und automatische Annotation und Spezifikation von Annotationskategorien (ca. 40 Minuten)
kombinierte Abfragen von Annotations- und Textdaten (ca. 30 Minuten)
visuelle Darstellungsmöglichkeiten von Abfrageergebnissen (ca. 20 Minuten)

Beitragende (Kontaktdaten und Forschungsinteressen)

Dr. Jan Horstmann

Universität Hamburg, Institut für Germanistik
Überseering 35, Postfach #15
22297 Hamburg

Jan Horstmann ist Postdoc und koordiniert das DFG-Projekt forTEXT (
https://fortext.net
), in dem neben der Dissemination von digitalen Routinen, Ressourcen und Tools in die traditionelleren Fachwissenschaften auch die Weiterentwicklung von CATMA eine wesentliche Rolle spielt. Als Literaturwissenschaftler interessiert er sich vor allem für die neuen Perspektiven und Erkenntnispotentiale, die DH-Methoden auf literarische Artefakte bereithalten können.

Prof. Dr. Jan Christoph Meister

Universität Hamburg, Institut für Germanistik
Überseering 35, Postfach #15
22297 Hamburg

Jan Christoph Meister ist Professor für Digital Humanities mit dem
Schwerpunkt Literaturwissenschaft. Als ursprünglicher Erfinder von
CATMA hat er etliche Forschungsprojekte zur Annotation und
Visualisierung textueller Daten und der Entwicklung und Verbesserung
von DH-Tools geleitet.

Marco Petris, Dipl. Inform.

Universität Hamburg, Institut für Germanistik
Überseering 35, Postfach #15
22297 Hamburg

Marco Petris ist Informatiker mit starker Affinität zu
geisteswissenschaftlichen Fragestellungen. Er ist von Anfang an an
der Entwicklung von CATMA beteiligt und beschäftigt sich mit allen
Aspekten der DH-Toolentwicklung, des Tool-Designs und der
Implementierung.

Mareike Schumacher, M.A.

Universität Hamburg, Institut für Germanistik
Überseering 35, Postfach #15
22297 Hamburg

Mareike Schumacher promoviert als digitale Literaturwissenschaftlerin über Orte und narratologische Ortskategorien in literarischen Texten, beschäftigt sich besonders mit den Methoden des
distant reading (u. a.
Named Entity Recognition oder Stilometrie) und ist im forTEXT-Projekt u. a. für die Dissemination in den (sozialen) Medien zuständig.

Marie Flüh, M.Ed.

Universität Hamburg, Institut für Germanistik
Überseering 35, Postfach #15
22297 Hamburg

Marie ist Master of Education und interessiert sich besonders für Christoph Martin Wieland und seine Zeitgenossen. Außerdem liegt ihr Forschungsschwerpunkt auf der Wertung von Literatur. Sie studierte in Kiel und Hamburg und ist nun wissenschaftliche Mitarbeiterin an der Universität Hamburg.

Zahl der möglichen Teilnehmerïnnen
Bis zu 30 Personen.

Benötigte technische Ausstattung
Teilnehmerïnnen bringen ihren eigenen Laptop mit, der mit dem Internet verbunden ist (Achtung: Touch-Devices werden derzeit noch nicht unterstützt). Am Workshop können bis zu 30 Personen teilnehmen. Neben einer stabilen Internetverbindung werden ein Beamer und eine Leinwand benötigt.

Bibliographie

Bögel, Thomas / Gertz, Michael / Gius, Evelyn / Jacke, Janina / Meister, Jan Christoph / Petris, Marco / Strötgen, Jannik
(2015):
„Collaborative Text Annotation Meets Machine Learning: heureCLÉA, a Digital Heuristic of Narrative”, in:
DHCommons Journal 1.

Gius, Evelyn
(im Erscheinen):
„Digitale Hermeneutik: Computergestütztes close reading als literaturwissenschaftliches Forschungsparadigma?”, in: Jannidis, Fotis / Winko, Simone / Rapp, Andrea / Meister, Jan Christoph / Stäcker, Thomas (eds.):
Digitale Literaturwissenschaft. DFG-Symposium Villa Vigoni, 2017. Berlin, New York: de Gruyter.

Gius, Evelyn / Jacke, Janina
(2017):
„The Hermeneutic Profit of Annotation: On Preventing and Fostering Disagreement in Literary Analysis”, in:
International Journal of Humanities and Arts Computing
11 (2): 233–254.

Jacke, Janina
(2018):
„Manuelle Annotation", in: forTEXT. Literatur digital erforschen
.
http://fortext.net/routinen/methoden/manuelle-annotation
(letzter Zugriff 20. Dezember 2018).

Moulin, Claudine
(2010): „Am Rande der Blätter. Gebrauchsspuren, Glossen und Annotationen in Handschriften und Büchern aus kulturhistorischer Perspektive", in:
Autorenbibliotheken, Quarto. Zeitschrift des Schweizerischen Literaturarchivs
30 (31): 19–26.

Piez, Wendell
(2010): „Towards Hermeneutic Markup. An Architectural Outline".
Digital Humanities Conference
2010, London
http://dh2010.cch.kcl.ac.uk/academic-programme/abstracts/papers/html/ab-743.html
(letzter Zugriff 20. Dezember 2018).

Wilkinson, Leland
(2005):
The grammar of graphics
. 2. Aufl. New York: Springer.

If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.

Conference Info

Incomplete

DHd - 2020
"Digital Humanities zwischen Modellierung und Interpretation"

Hosted at Universität Paderborn

Paderborn, Germany

March 2, 2020 - March 6, 2020

130 works by 320 authors indexed

Conference website: https://zenodo.org/record/3666690

Contributors: Patrick Helling, Harald Lordick, R. Borges, & Scott Weingart.

Series: DHd (7)

Organizers: DHd