Regionalsprachekorpus

bearbeitet von Georg Oberdorfer

Das Regionalsprachekorpus ist ein Gesprächskorpus, das im Rahmen des REDE-Projekts aufgebaut wird. Es handelt sich um eine als Korpus erschlossene Sammlung von Freundesgesprächen (FG) von REDE-Sprechern aus der Informantengruppe 3. Das dafür herangezogene Ortsnetz mit 48 REDE-Orten (vgl. Karte 1) deckt alle großen Dialektgebiete und deren Übergangsgebiete in Deutschland ab. Das Korpus wird online auf der REDE-Plattform für eine interaktive Nutzung zugänglich gemacht werden. Aktuell befindet sich das entsprechende Interface im Aufbau. Mit der Erschließung der freien Gespräche mit Vertrauten (vgl. dazu REDE-Aufnahmesituationen) ergänzt das Regionalsprachekorpus die im REDE SprachGIS bereits vorhandenen Sprachaufnahmen und liefert einen ersten Baustein für ein Referenzkirpus der Regionalsprachen.

Karte 1: Ortsnetz des Regionalsprachekorpus mit 48 REDE-Orten, im REDE SprachGIS erstellt von Salome Lipfert (Legende: blau = Niederdeutsch, grün = Westdeutsch, gelb = Mitteldeutsch, orange = Oberdeutsch; Einteilung in Anlehnung an Lameli 2013, 193f.)

Korpusdaten

Das Korpus setzt sich aus Freundesgesprächen der jungen REDE-Informanten (Gruppe 3) zusammen. Die zweite am Gespräch beteiligte Person ist immer eine bekannte Person aus der gleichen Region. In Ausnahmen wurden auch Gespräche mit zwei weiteren Personen geführt. Das Regionalsprachekorpus fokussiert ortsfeste junge Sprecher in ihrer Alltagssprachlichkeit über ganze Gespräche hinweg. Die freie Gesprächsgestaltung und Interaktion ermöglicht Analysen zur regionalen Diskursgestaltung.

Datenaufbereitung: GAT2 und POS-Tagging

Die Gespräche werden nach dem gesprächsanalytischen Transkriptionssystem GAT2 (Basistranskriptionsregeln mit eigenen Adaptionen; vgl. Selting et al. 2009) im Softwarepaket EXMARaLDA (vgl. Schmidt/Wörner 2014) transkribiert. EXMARaLDA hat sich durch seine Kompatibilität mit verschiedenen Dateiformaten und Programmen, etwa für phonetische Analysen mit PRAAT (Boersma/Weenink 2023), als sehr geeignet für die Verarbeitung von Gesprächsdaten erwiesen. Das GAT2-System wiederum erlaubt eine sehr gute Wiedergabe der Gesprächshaftigkeit und ihren Eigenheiten (im Vergleich zu bspw. orthographischer Transkription) und lässt flexible Anpassungen zu. Neben der Transkription der Gespräche erfolgt parallel die Annotation der Sprachaufnahmen. Dabei wird ein halbautomatisches POS-Tagging nach dem Tagset von Westpfahl zur Erkennung von Wortarten in gesprochener Sprache (Westpfahl 2020) vorgenommen. Damit wird neben der zeichenbasierten Suche im Transkripttext eine Kombinationssuche zur Verfügung gestellt. Da dem POS-Tagging auch eine Normalisierung und Lemmatisierung vorausgeht, ist ebenso eine standardsprachliche wörtliche Suche abgesichert. Die so vorgenommene Annotation soll die Erforschung von sprachlichen Konstruktionen erleichtern, die in der gesprochenen Sprache spezifisch auftreten.

Anwendungen im Regionalsprachekorpus

Das Regionalsprachekorpus wird auf verschiedenen Ebenen durchsuchbar sein. Die Suchmaske basiert auf regulären Ausdrücken (RegEx) und das Wiedergabefeld aus einer KWiC (Keyword in Context)-Darstellung und einem Oszillogramm samt Wiedergabeoptionen. Wie schon in der Erschließung werden die Gespräche zeitaligniert wiedergegeben; dabei sind Segmentnummern und absolute Zeitspannen abfragbar. Durch Voreinstellungen, die globale RegEx-Operationen zusammenfassen (wie case sensitivity, Gruppenbildung, Suchen im Kontext etc.), wird die Datenabfrage erleichtert. Ab der Betaversion ist ein Tutorial angedacht, das Nutzerinnen und Nutzer in die Grundlagen der Korpussuche einführt.

Literatur

Boersma, Paul/Weenink, David (2023). Praat: Doing Phonetics by Computer. Online verfügbar unter http://praag.org (abgerufen am 19.08.2024).

Ganswindt, Brigitte/Kehrein, Roland/Lameli, Alfred (2015). Regionalsprache.de (REDE). In: Kehrein, Roland/Lameli, Alfred/Rabanus, Stefan (Hrsg.). Regionale Variation des Deutschen – Projekte und Perspektiven. Berlin/Boston: De Gruyter, 425–458.

Lameli, Alfred (2013). Strukturen im Sprachraum. Analysen zur arealtypologischen Komplexität der Dialekte in Deutschland. Berlin, Boston: De Gruyter. (Linguistik – Impulse und Tendenzen 54).

Lipfert, Salome (2024). Karte 1 Ortsnetz Regionalsprachekorpus. Online verfügbar unter: www.regionalsprache.de/Map/HquUdoRe.

Schmidt, Jürgen Erich (2017). Vom traditionellen Dialekt zu den modernen deutschen Regionalsprachen. In: Deutsche Akademie für Sprache und Dichtung / Union der deutschen Akademien der Wissenschaften (Hrsg.). Vielfalt und Einheit der deutschen Sprache: Zweiter Bericht zur Lage der deutschen Sprache. Tübingen: Stauffenburg, 105−143.

Schmidt, Thomas/Wörner, Kai (2014). EXMARaLDA In: Durand, Jacques/Gut, Ulrike/ Kristoffersen, Gjert (Hrsg.). The Oxford handbook of corpus phonology (= Oxford handbooks in linguistics). Oxford: Oxford University Press, S. 402–419 (siehe auch exmaralda.org).

Selting, Margret/Auer, Peter/Barth-Weingarten, Dagmar/Bergmann, Jörg/Bergmann, Pia/Birkner, Karin/Couper-Kuhlen, Elizabeth/Deppermann, Arnulf/Gilles, Peter/Günthner, Susanne/Hartung, Martin/Kern, Friederike/Mertzlufft, Christine/Meyer, Christian/Morek, Miriam/Oberzaucher, Frank/Peters, Jörg/Quasthoff, Uta/Schütte, Wilfried/Stukenbrock, Anja/Uhmann, Susanne (Hrsg.) (2009). Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 10, 353–402. Online verfügbar unter http://www.gespraechsforschung-ozs.de/heft2009/px-gat2.pdf (abgerufen am 19.08.2024).

Westpfahl, Swantje (2020). POS-Tagging für Transkripte gesprochener Sprache. Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) (= Studien zur Deutschen Sprache 83). Tübingen.

REDE-Infothek

Inhaltsverzeichnis

LinguRep

Kontakt

REDE

Zitation

Impressum

Korpusdaten

Datenaufbereitung: GAT2 und POS-Tagging

Anwendungen im Regionalsprachekorpus