Neue Möglichkeiten der Arbeit mit strukturierten Sprachressourcen in den Digital Humanities mithilfe von Data-Mining

poster / demo / art installation
Authorship
  1. 1. Christian Pölitz

    Fakultät Informatik - Technische Universität Dortmund

  2. 2. Thomas Bartz

    Institut für deutsche Sprache und Literatur - Technische Universität Dortmund

  3. 3. Michael Beißwenger

    Technische Universität Dortmund

  4. 4. Nadja Radtke

    Institut für deutsche Sprache und Literatur - Technische Universität Dortmund

  5. 5. Angelika Storrer

    Institut für deutsche Sprache und Literatur - Technische Universität Dortmund

Work text
This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.

1. Projekthintergrund: Ziele, Methoden, Ressourcen
Strukturierte Sprachressourcen (annotierte Textkorpora, Baumbanken, Wortnetze) bieten neuartige und attraktive Möglichkeiten, linguistische Fragestellungen an authentischen Sprachverwendungsdaten zu untersuchen und quantitativ auszuwerten (vgl. z.B. McEnery et al. 2006, Lüdeling & Kytö 2008/2009). Infrastrukturprojekte wie CLARIN bieten flexible Werkzeuge an, um aus diesen Ressourcen Daten zu gewinnen und auszuwerten. Für sehr viele linguistische Forschungsfragen müssen die automatisch gewonnenen Ergebnisse allerdings noch weiter bearbeitet werden – gerade wenn die Anwender nicht selbst Softwarelösungen für die Datenauswertung entwickeln können, sehen sie sich mit zeitaufwändigen, manuellen Routinearbeiten konfrontiert. Im Verbundprojekt Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining (KobRA) arbeiten Partner aus Informatik, Linguistik und Sprachtechnologie gemeinsam daran, die quantitative Auswertung strukturierter Sprachdaten zu verbessern und zu beschleunigen. Dazu werden im Rahmen korpusbasierter linguistischer Studien, die mit konkreten Forschungsaktivitäten der Projektbeteiligten in Verbindung stehen, Data-Mining-Verfahren (insbesondere Lernverfahren) im Zusammenspiel mit vorhandenen Sprachressourcen erprobt und angepasst. Die Verfahren operieren auf den Suchtrefferlisten bzw. auf großen Korpora und gehen über die reine Suche hinaus, indem sie die Suchergebnisse filtern, sortieren oder strukturieren sowie ggf. die weitere Aufbereitung der Daten für eine konkrete Fragestellung erleichtern. In unserem Vortrag stellen wir den Ansatz des Projekts vor (Abschnitt 2) und berichten über erste Ergebnisse (Abschnitte 3 und 4).

2. Projektarchitektur
Die Data-Mining-Verfahren des Projekts setzen auf der Infrastruktur der Sprachtechnologie-Partner auf. Es gibt einerseits eine Schnittstelle zu den linguistischen Anwendern und andererseits eine interne Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur. Das Schaubild in Abbildung 1 verdeutlicht diese Verzahnung.

Fig. 1: Verzahnung und Schnittstellen zwischen den Projektkomponenten

Einige der im Projekt zu entwickelnden Lernverfahren werden direkt auf den Ergebnislisten (inkl. Annotationen und Metadaten) der von der Berlin-Brandenburgischen Akademie der Wissenschaften, dem Institut für deutsche Sprache (Mannheim) und dem Seminar für Sprachwissenschaft der Universität Tübingen bereitgestellten Sprachressourcen ausgeführt. Andere Verfahren operieren an der Schnittstelle zwischen der Data-Mining-Komponente und der Korpusinfrastruktur.

Zum Einsatz kommen bislang Verfahren der Klassifikation (z.B. Stützvektormethode (SVM), vgl. Joachims 2002) und des Clusterings (v.a. Topic Models, z.B. Latent Dirichlet Allocation (LDA), vgl. Blei et al. 2003; Tomanek & Morik 2011), die die automatische Bereinigung und Disambiguierung bzw. Klassifikation von Treffern (ggf. auf Basis einer möglichst geringen Menge intellektuell analysierter Treffer, z.B. mithilfe von Active Learning, vgl. Tomanek 2010, Tomanek & Morik 2011) ermöglichen. Um die Nutzer bei der Exploration verschiedener strukturierter Datenbestände zu unterstützen, werden auch innovative Formen der Visualisierung für typische sprachbezogene Forschungsfragen erprobt.

3. Fallstudien zu den Bereichen Lexikographie und Diachronische Sprachforschung
Erste Ergebnisse zum Nutzen von Data-Mining-Verfahren für konkrete korpusbasierte Forschungsvorhaben liegen bereits vor. Im Einzelnen wurden Verfahren für folgende Vorhaben angepasst und evaluiert:

a) Studien zu deutschen Stützverbgefügen.

b) Studien zur korpusgestützten lexikographischen Beschreibung von Wörtern mit mehreren Lesarten.

Ad a) Stützverbgefüge sind Konstruktionen aus einem prädikativen Nomen und einem semantisch blassen Stützverb wie z.B. Anwendung findenoderzur Anwendung kommen. Im Rahmen eines Forschungsprojekts der Dortmunder Projektleiterin zur diachronen Entwicklung und Textsortenspezifik von Stützverbgefügen wurden erstmals große Korpusbestände aus unterschiedlichen Textsortenbereichen untersucht (vgl. Storrer 2013a). Weil die formbasierte Suche in den Korpora bislang keine Möglichkeit bietet, automatisch zwischen Vollverb- (etw. finden) oder Stützverbverwendungen (Anwendung/Beachtungfinden) zu unterscheiden, mussten die ermittelten Suchtreffer manuell-intellektuell analysiert werden. Die dabei entstandenen annotierten Daten wurden im KobRA-Projekt genutzt, um ein automatisches Klassifikationsverfahren für Stützverben zu lernen. Bisher wurden SVM-basierte Klassifikationsverfahren (Stützvektormethode, vgl. Joachims 2002; als Merkmale wurden Kontextwörter und syntaktische Strukturen berücksichtigt) evaluiert, die aktuell auf Trefferlisten aus dem DWDS-Kernkorpus des 20. Jh. abhängig von Verb und Textsortenbereich eine Genauigkeit (Precision) von zwischen 70 und 87% sowie eine Ausbeute (Recall) von zwischen 36 und 80% erreichen. An einer Verbesserung der Ausbeute wird derzeit noch gearbeitet. Die Klassifikationsverfahren werden für den korpusgestützten Aufbau eines Wikis zu deutschen Stützverbgefügen genutzt.

Ad b) Ausgangspunkt für die Studien zur korpusgestützten lexikographischen Beschreibung von Wörtern mit mehreren Lesarten ist das Problem, dass strukturierte Sprachressourcen momentan noch nicht in semantisch disambiguierter Form vorliegen. Automatische Frequenzerhebungen beziehen sich deshalb immer nur auf Formeinheiten; für die lexikographische Arbeit ist man aber gerade auch an den Frequenzen zu einzelnen Lesarten homographer bzw. polysemer Wörter interessiert (z.B. für das Wort Leiter: Sprossenstiege, Tonfolge, Verantwortlicher/Vorstehender, Energie übertragender Stoff). Um Wörter wie Leiter adäquat beschreiben zu können, müssen korpusbasiert arbeitende Lexikographen bislang sämtliche Treffer zu einem Suchwort sichten (für Leiter: 6895 Treffer im DWDS-Kernkorpus des 20. Jh.); Werkzeuge zur automatischen Disambiguierung wären deshalb sehr hilfreich. Sie könnten auch statistische Analyse- und Visualisierungswerkzeuge verbessern (z.B. Kookkurrenzanalysen, Wortverlaufsdiagramme), die bislang ebenfalls nicht zwischen Lesarten differenzieren. Aus diesem Grund werden im KobRA-Projekt Clusteringverfahren zur Partitionierung von Suchtrefferlisten nach Lesarten eines gesuchten Wortes evaluiert und angepasst. Beim Clustering von Trefferlisten aus dem DWDS-Kernkorpus des 20. Jh. zu den Wörtern Leiter und zeitnah(zeitgenössisch, zeitkritisch vs. unverzüglich) mithilfe von LDA-Topic-Models (vgl. Blei et al. 2003) konnten bislang F1-Werte (gleich gewichtetes Mittel zwischen Genauigkeit (Precision) und Ausbeute (Recall)) zwischen 74 und 78% erreicht werden. Dabei wurde die Partitionierung zunächst lediglich auf Basis der Kontextwörter (Bags-of-Words) vorgenommen. Aktuell wird auch der Nutzen weiterer Merkmale (Wortarten, Syntax, Textsorte, Erscheinungsdatum) erprobt.

4. Fallstudien zum Bereich Varietätenlinguistik / Internetbasierte Kommunikation
Die Kommunikation auf der Grundlage internetbasierter Kommunikationstechnologien und sozialer Medien stellt ein wichtiges neues Teilgebiet der Digital Humanities dar. Bei der interpersonalen Kommunikation in Genres wie Online-Foren, Weblogs, Chats, Twitter oder sozialen Netzwerken finden sich Produkte schriftlicher Sprachverwendung, deren sprachliche Gestaltung an den Bedingungen dialogischer Kommunikation im sozialen Nähebereich orientiert ist. Typische Merkmale der interaktionsorientierten Schreibhaltung (Storrer 2013b), auf die die Orientierung an der Mündlichkeit in der schriftlichen internetbasierten Kommunikation (IBK) zurückgeführt werden kann, sind u.a. Phänomene geschriebener Umgangssprache wie etwa Verschmelzungs-/Allegroformen (haste, biste, willste, machstes, isses, aufm, aufn), Schwa-Elisionen (ich schreib, ich mach, ich sag), die Verwendung umgangssprachlicher Lexik (moin, Maloche) oder dialektal/regional gebundener Aussprachevarianten (Oida wos wüst < Alter, was willst (du); wech < weg) sowie die häufige Verwendung von Einheiten wie Interjektionen und Abtönungspartikeln. Darüber hinaus bilden sich in der schriftlichen internetbasierten Kommunikation sprachliche Mittel aus, die auf die Unterstützung der interaktiven schriftlichen Kommunikation am Nähepol optimiert sind. Typische Beispiele dafür sind Inflektive (freu, lach, grübel, wink, seufz) und Inflektivkonstruktionen (wildsei, malanmerk, bedenkenhab), Emoticons sowie die Nutzung von Verfahren der Graphemiteration (gaaaaaanz schlecht) und der Großschreibung (mathe mündlich? BRUTAL!!!) für die graphische Nachbildung stimmlicher Kommunikationssignale.

Um die Besonderheiten der Schreibformen und sprachlichen Besonderheiten in der internetbasierten Kommunikation empirisch begründbar in einen sprach- und varietätengeschichtlichen Rahmen einordnen zu können, müssen Ausgangsbedingungen geschaffen werden, die einen Vergleich von Phänomenen konzeptioneller Mündlichkeit in internetbasierter Schriftlichkeit und dem Schreibgebrauch in historischen Korpora ermöglichen. Beim Aufbau von IBK-Korpora stellen sich derzeit noch viele Herausforderungen (vgl. z.B. Beißwenger & Storrer 2008, Storrer 2013b: Abschnitt 4), weil Verfahren und Standards, die sich für die Annotation von Textkorpora bewährt haben (Annotationsstandards, Metadatenschemata, Werkzeuge und Tagsets für die linguistische Analyse), nicht ohne Anpassungen für IBK-Korpora übernommen werden können.

Im KobRA-Projekt werden auf der Grundlage manuell annotierter Trainingsdaten Verfahren zur Klassifizierung und Disambiguierung auf die Behandlung von Phänomentypen (Verschmelzungen, Inflektive, Emoticons) trainiert, die in der Domäne typischerweise auftreten und die von Verarbeitungswerkzeugen, die auf den Umgang mit redigierten Texten trainiert sind, nicht angemessen behandelt werden können. Als Testbett für diese Verfahren dienen Daten aus verschiedenen im Aufbau befindlichen IBK-Korpora, die im Projekt zur Verfügung stehen – u.a. aus dem Wikipedia-Korpus am Institut für deutsche Sprache (Mannheim), dem Projekt „Deutsches Referenzkorpus zur internetbasierten Kommunikation“ (DeRiK, Beißwenger at al. 2013) sowie dem Dortmunder Chat-Korpus (Beißwenger 2013). Die Verfahren sollen in Arbeiten zur Anpassung von Werkzeugen für die automatische Wortartenannotation auf die Verarbeitung von IBK-Daten einfließen. Die Annotation erfolgt auf der Grundlage einer erweiterten Version des STTS-Standards für das POS-Tagging deutscher Sprachdaten, in dessen Erarbeitung die Projektbeteiligten involviert sind (Bartz et al. 2013). Sie ist abgestimmt auf Aktivitäten zur Erarbeitung eines Standards für die Strukturannotation von IBK-Korpora im Rahmen der Text Encoding Initiative (TEI).

References
Bartz, T., Beißwenger, M., Storrer A. (2013): Optimierung des Stuttgart-Tübingen-Tagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge.Journal for Language Technology and Computational Linguistics (Themenheft „Das STTS-Tagset für Wortartentagging – Stand und Perspektiven“).

Beißwenger, M. (2013): Das Dortmunder Chat-Korpus. Zeitschrift für germanistische Linguistik 41/1, 161–164. (Erweiterte Fassung online: http://tinyurl.com/chatkorpus).

Beißwenger, M., Ermakova, M., Geyken, A., Lemnitzer, L., Storrer, A.(2012): A TEI Schema for the Representation of Computer-mediated Communication.Journal of the Text Encoding Initiative (jTEI), Issue 3, jtei.revues.org/476 (DOI: 10.4000/jtei.476).

Beißwenger, M., Ermakova, M., Geyken, A., Lemnitzer, L., Storrer, A.(2013): DeRiK: A German Reference Corpus of Computer-Mediated Communication. In: Literary and Linguistic Computing. tinyurl.com/derik-llc (DOI: 10.1093/llc/fqt038).

Beißwenger, M. and Storrer, A. (2008): Corpora of Computer-Mediated Communication. In Lüdeling, A. und Kytö, M. (eds), Corpus Linguistics. An International Handbook. Volume 1. Berlin, New York: de Gruyter (Handbücher zur Sprache und Kommunikationswissenschaft / Handbooks of Linguistics and Communication Science 29.1), pp. 292–308.

Blei, D. M., Ng, A. Y., Jordan, M. I. (2003): Latent dirichlet allocation. Journal of Machine Learning Research 3, pp. 993–1022.

Geyken, A. (2007): The DWDS corpus: a reference corpus for the German language of the 20th century. In Fellbaum, C. (ed), Idioms and collocations. Corpus-based linguistic and lexicographic studies. London: Continuum, pp. 23– 40.

Joachims, T. (2002): Learning to Classify Text Using Support Vector Machines. Dissertation. Dordrecht: Kluwer.

Krenn, B., Erbach, G. (1994): Idioms and support verb constructions. In Nerbonne, J., Netter, K., Pollard, C. (eds), German in Head-Driven Phrase Structure Grammar. Stanford: CSLI publications, pp. 365–395.

Langer, S. (2004): A linguistic test battery for support verb constructions. Linguisticae Investigationes 27 (2), pp. 171–184.

Lüdeling, A. and Kytö, M.(eds) (2008/9): Corpus Linguistics. An International Handbook. 2 Bände. Berlin, New York: de Gruyter.

Morik, K., Kaspari, A., Wurst, M., Skirzynski, M. (2012): Multi-objective frequent termset clustering.Knowledge and Information Systems 30 (3) (DOI:10.1007/s10115-011-0431-3), pp. 715–738.

McEnery, T., Xiao, R., Tono, Y. (2006): Corpus-Based Language Studies. An Advanced Resource Book (Routledge Applied Linguistics). London, New York: Routledge.

Storrer, A. (2007): Corpus-based investigations on German support verb constructions. In Fellbaum, C. (ed), Idioms and collocations. Corpus-based linguistic and lexicographic studies. London: Continuum Press, pp. 164–188.

Storrer, A. (2013a): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In Deutsche Akademie für Sprache und Dichtung; Union der deutschen Akademien der Wissenschaften (eds), Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter, pp. 171–209.

Storrer, A. (2013b): Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze – empirische Befunde. Sprachverfall? Dynamik – Wandel – Variation. Jahrbuch des Instituts für Deutsche Sprache 2013.

Tomanek, K. (2010): Resource-aware annotation through active learning. Dissertation, TU Dortmund.

Tomanek, K., Morik, K. (2011): Inspecting Sample Reusability for Activ Learning. JMLR Workshop and Conference Proceedings 16, pp. 169–181.

Das Verbundprojekt wird vom Bundesministerium für Bildung und Forschung (BMBF) seit Herbst 2012 im Rahmen des Programms „eHumanities“ gefördert. Informationen zu den Projektbeteiligten und den Ergebnissen unter: http://www.kobra.tu-dortmund.de.

Engl. „support verb constructions“ (vgl. u.a. Langer 2004, Krenn & Erbach 1994, Storrer 2007/2013).

Zu den Korpora im Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS) vgl. Geyken (2007).

Relevant sind hier v.a. die Aktivitäten der Special Interest Group „Computer-Mediated Communication“ (http://www.tei-c.org/Activities/SIG/CMC/); ein erster Entwurf für ein TEI-Schema für die Annotation von Genres internetbasierter Kommunikation ist in Beißwenger et al. (2012) beschrieben.

If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.

Conference Info

Complete

ADHO - 2014
"Digital Cultural Empowerment"

Hosted at École Polytechnique Fédérale de Lausanne (EPFL), Université de Lausanne

Lausanne, Switzerland

July 7, 2014 - July 12, 2014

377 works by 898 authors indexed

XML available from https://github.com/elliewix/DHAnalysis (needs to replace plaintext)

Conference website: https://web.archive.org/web/20161227182033/https://dh2014.org/program/

Attendance: 750 delegates according to Nyhan 2016

Series: ADHO (9)

Organizers: ADHO