Annotieren, Analysieren, Visualisieren – Einführung in CATMA 6

Jan Horstmann; Jan Christoph Meister; Marco Petris; Mareike Schumacher; Marie Flüh

Authorship

1. Jan Horstmann

Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg
2. Jan Christoph Meister

Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg
3. Marco Petris

Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg
4. Mareike Schumacher

Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg
5. Marie Flüh

Geisteswissenschaftliche Infrastruktur für Nachhaltigkeit (gwin), Universität Hamburg

Work text

This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.

Einleitung
Der ohne technische Vorkenntnisse besuchbare hands-on Workshop bildet eine Einführung in die Möglichkeiten der für Geisteswissenschaftlerïnnen entwickelten, webbasierten Annotations- und Analyseplattform CATMA, deren sechste Version im Oktober 2019 veröffentlicht wurde. Im Zentrum stehen theoretische und praktische Aspekte der digitalen Annotation von (literarischen) Texten sowie die Analyse und Visualisierung dieser Texte und der erstellten Annotationen.
CATMA (Computer Assisted Text Markup and Analysis;
https://catma.de) ist ein webbasiertes open-source-Tool, das seit 2008 an der Universität Hamburg entwickelt und derzeit von über 60 Forschungsprojekten und ca. 12.000 Nutzerïnnen weltweit genutzt wird. Die im Zuge des DFG-Projektes forTEXT (https://fortext.net) entwickelte sechste Version bietet neben erweiterten technischen Möglichkeiten (wie beispielsweise der Datenversionierung und der Organisation kollaborativer Arbeit in einer Projektstruktur), ein völlig überarbeitetes, intuitiver nutzbares User Interface, das einen leichten Einstieg in die digitale Textannotation und -analyse ermöglicht, ohne dass umfangreiche technische Kenntnisse vonnöten wären, und ohne dass die Nutzerïnnen mit zu vielen (Experten-)Funktionen gleichzeitig konfrontiert würden. Das gesamte Repertoire an Funktionen (wie beispielsweise kollaborative Annotation oder automatische Annotation von Textkorpora) kann von erfahreneren Nutzerïnnen bei Bedarf genutzt werden.

Abbildung 1: CATMA

CATMA unterstützt...

private und teambasierte Texterforschung durch individuelle wie kollaborative Annotation, Analyse und Visualisierung;
explorative, non-deterministische Praktiken der Textannotation – CATMA liegt ein diskursiver, diskussionsorientierter Ansatz zur Textannotation zugrunde, der auf die Forschungspraktiken hermeneutischer Disziplinen zugeschnitten ist;
die nahtlose Verknüpfung von Textannotation, Analyse und Visualisierung in einer webbasierten Arbeitsumgebung – Analyse und Interpretation gehen nach dem Prinzip des ‘hermeneutischen Zirkels’ in CATMA damit Hand in Hand.

Von linguistischen Textanalysetools unterscheidet sich CATMA insbesondere durch seinen „undogmatischen” Ansatz: Das System schreibt mit seiner hermeneutischen Annotation (vgl. Piez 2010) weder definierte Annotationsschemata oder -regeln vor, noch erzwingt es die Verwendung von starren Ja-/Nein- oder Richtig-/Falsch-Taxonomien. Wenn eine Textstelle mehrere Interpretationen zulässt (wie es in literarischen Texten häufig der Fall ist), ist es in CATMA (durch die Nutzung von Standoff-Markup) daher möglich, mehrere und sogar widersprechende Annotationen zu vergeben und so der Bedeutungsvielfalt der Texte Rechnung zu tragen. Mit der
Build-Query-Funktion lassen sich zudem ganz ohne Kenntnisse der Query Language Schritt für Schritt Abfragen kreieren und Textanalysen durchführen. Die Ergebnisse der Analyse können in verschiedenen Varianten visualisiert und für die literaturwissenschaftliche Interpretation und Argumentation genutzt werden. Die sechste Version des Tools integriert gemäß der im Projekt 3DH (http://threedh.net) formulierten Kriterien einer
Dynamic Data Visualisation and Exploration for Digital Humanities Research ein geisteswissenschaftlich orientiertes Visualisierungskonzept. Dieses Konzept nutzt die
Vega Visualization Grammar, die auf die von Wilkinson (2005) formulierte generische
Grammar of Graphics zurückgeht. Schließlich bietet CATMA die Möglichkeit, bereits annotierte Texte zu verarbeiten (z. B. durch den Upload von XML-Dateien) und die in anderen Tools erstellten Annotationen anzuzeigen, mit zu analysieren und damit wissenschaftlich nachzunutzen. Außerdem lassen sich in CATMA auch automatische (z. B. POS für deutschsprachige Texte) und halb-automatische Annotationen generieren.

Manuelles und kollaboratives Annotieren
Die seit Jahrhunderten zu den textwissenschaftlichen Kernpraktiken gehörende Annotation (vgl. Moulin 2010) lässt sich in sog. Highlights, Freitextkommentare sowie taxonomiebasierte Annotation und Textauszeichnung aufteilen, wobei die Übergänge häufig fließend sind (vgl. Jacke 2018, § 9). Während CATMA 6 auch die Möglichkeit für Highlights und Freitextkommentare bietet, ist die taxonomiebasierte Annotation das eigentliche Kerngeschäft des Tools – wobei die Taxonomie prinzipiell undogmatisch erstellt werden kann und die Form von sog. Tagsets annimmt, denen für kollaborative Annotationsprojekte wahlweise eine Annotations-Guideline beigegeben werden kann (vgl. auch Bögel et al).
Im Workshop werden wir den Unterschied von
Document (der eigentliche Text),
Tagset (die aus
Tags – d. h. aus einzelnen Beschreibungsbegriffen – gebildete Taxonomie, mit der Texte annotiert werden) und
Annotation Collection (die nutzerspezifische Sammlung individueller Annotationen zu einem
Document oder einem Korpus) kennenlernen. Diese für CATMA spezifische Dreigliederung bietet mehrere Vorteile:

Taxonomien können projektübergreifend und unabhängig von Texten und Annotationen wiederverwendet werden;
Annotationen können als
Collections nach unterschiedlichen inhaltlichen (z. B. nach Forschungsaspekten) oder auch organisatorischen Gesichtspunkten (z. B. nach Projektmitgliedern) gruppiert und wiederverwendet bzw. erweitert werden;

benutzerspezifische Annotationen werden als sog.
Stand-off Markup gespeichert und können damit wahlweise angezeigt oder ausgeblendet werden. Der eigentliche Text wird hierbei nicht verändert. Arbeitet eine Gruppe von Annotatorïnnen mit der gleichen Taxonomie an einem Text, lassen sich Übereinstimmungen und Widersprüche direkt und einfach erkennen (vgl. Gius und Jacke 2017), um auf interessante oder problematische Textstellen aufmerksam zu werden und die ‘Arbeit am Text’ zugleich kritisch zu reflektieren.

Analyse und Visualisierung
Neben der Annotation sind die Analyse und Visualisierung der Text- und Annotationsdaten das andere wichtige Standbein von CATMA. Hier wird
distant reading mit
close reading zusammengebracht, denn die zuvor manuell erstellten qualitativen Annotationen werden nun in ihrer Quantität, Relationalität und Verteilung hinterfragt. Dies geschieht in Zusammenhang mit „klassischen” DH-Textanalysemethoden wie dem Erstellen einer Wortfrequenzliste, der Analyse von Keywords in Context (KWIC und
DoubleTree) oder der Distribution ausgewählter Wörter (oder eben Annotationen) im Text oder in der Textsammlung.

Neben diesen grundlegenden Funktionen, die alle per Klick ausgeführt werden können, bietet CATMA die sog.
Build-Query-Funktion, ein Wizzard, in dem komplexere Abfragen einfach per Mausklick erzeugt werden können, ohne dass tiefergehende Kenntnisse einer Abfragesprache (sog.
Query Language) verlangt werden. Im Workshop werden wir uns dabei nicht nur den Analysefunktionen widmen, sondern auch die unterschiedlichen Visualisierungsmöglichkeiten zu den einzelnen Abfragen anschauen und hinterfragen.

Im Analysebereich können außerdem halbautomatische Annotationen erstellt werden, d. h. man annotiert wiederkehrende Wörter oder Wortgruppen auf einmal mit einem bestimmten Tag, statt dies manuell und wiederholt im Annotationsmodul zu tun.
Der Wechsel zwischen der Arbeit im Annotations- und Analyse- und Visualisierungs-Modul ist ein iterativer Prozess, der die klassisch-zirkuläre hermeneutische Interpretationsarbeit in der Literaturwissenschaft widerspiegelt (vgl. Gius, im Erscheinen).

Ablauf
Im Workshop werden wir uns in abwechselnden Präsentations- und Hands-on-Phasen der textanalytischen Arbeit in CATMA 6 nähern. Nach einer generellen Einführung in das Tool werden die Teilnehmerïnnen anhand eines vorgegebenen Beispieltextes den gesamten Workflow von der individuellen taxonomiebasierten Textannotation, über die Analyse hin zur Visualisierung und Interpretation der Text- und Annotationsdaten kennenlernen und praktisch erproben können.

Lernziele
Die Teilnehmerïnnen sollen ausgehend vom digitalen Text in die Lage versetzt werden, Annotationen manuell und automatisch unterstützt zu erstellen und in Annotation Collections zu speichern, Tagsets/Taxonomien zu entwickeln und den Text alleine und in Kombination mit den Annotationen zu analysieren und zu visualisieren. Für kritische Reflektionen, Diskussionen sowie individuelle Rückfragen (theoretischer, praktischer und technischer Art) auf jedem Niveau und in Bezug auf die Projekte der Teilnehmerïnnen wird ausreichend Möglichkeit bestehen.

Zeitplan
Im Workshop werden wir anhand von Kafkas Erzählung
Erstes Leid und narratologischen Kategorien der erzählerischen Distanz beispielhaft den Arbeitsablauf der digitalen Texterforschung praktisch kennenlernen (die Teilnehmenden können jedoch auch gerne mit selbst mitgebrachten Texten und Annotationskategorien arbeiten):

analytische Textexploration (ca. 30 Minuten)
manuelle und automatische Annotation und Spezifikation von Annotationskategorien (ca. 40 Minuten)
kombinierte Abfragen von Annotations- und Textdaten (ca. 30 Minuten)
visuelle Darstellungsmöglichkeiten von Abfrageergebnissen (ca. 20 Minuten)

Beitragende (Kontaktdaten und Forschungsinteressen)

Dr. Jan Horstmann