Das Regionalsprachekorpus ist ein Gesprächskorpus, das im Rahmen des REDE-Projekts entwickelt wird. Es handelt sich um eine Sammlung von Freundesgesprächen (FG) der jungen REDE-Sprecher. Das dafür herangezogene Ortsnetz mit 48 REDE-Orten (vgl. Karte 1; dazu auch alle REDE-Orte) deckt alle großen Dialektgebiete und deren Übergangsgebiete in Deutschland ab (vgl. Schmidt 2017). Das Korpus wird online auf der REDE-Plattform für eine interaktive Nutzung zugänglich gemacht werden (gegenwärtig im Aufbau).
Mit der Analyse freier Gespräche mit Vertrauten (sog. Freundesgespräch, FG; vgl. dazu auch alle REDE-Aufnahmesituationen) ergänzt das Regionalsprachekorpus die vorhandenen sprachlichen Variationsdaten, die auf der REDE-Plattform (vgl. Ganswindt u. a. 2015) bereits interaktiv verfügbar sind. In dieser Hinsicht dient es als Referenzkorpus für die Regionalsprachen, wie sie im REDE-Projekt dokumentiert werden.
Korpusdaten
Das Korpus setzt sich aus Freundesgesprächen zusammen, die von jeweils zwei (in Ausnahmen drei) Personen geführt wurden und von denen mindestens eine alle REDE-Aufnahmesituationen durchlaufen hat. Die zweite am Gespräch beteiligte Person ist immer eine Bezugsperson aus der gleichen Region, um die soziale Vertrautheit der Gesprächspartner sicherzustellen. Das Regionalsprachekorpus fokussiert dialektkompetente junge Sprecher in ihrer Alltagssprachlichkeit über ganze Gespräche hinweg, um den aktuellen Sprachstand zu dokumentieren und mit früheren Generationen vergleichen zu können.
Datenaufbereitung: GAT2 und POS-Tagging
Die Gespräche werden nach dem gesprächsanalytischen Transkriptionssystem GAT2 (und hier nach Basistranskriptionsregeln mit eigenen Adaptionen; vgl. Selting et al. 2009) im Softwarebündel EXMARaLDA (vgl. Schmidt/Wörner 2014) transkribiert. EXMARaLDA hat sich durch seine Kompatibilität mit verschiedenen Dateiformaten und Programmen, etwa für phonetische Analysen mit PRAAT (Boersma/Weenink 2023), als sehr geeignet für die Verarbeitung von Gesprächsdaten erwiesen. Das GAT2-System wiederum erlaubt eine sehr gute Wiedergabe der Gesprächshaftigkeit und ihren Eigenheiten (im Vergleich zu bspw. orthographischer Transkription) und lässt flexible Anpassungen zu. Neben der Transkription eines Grundstocks des Korpus passiert parallel die Annotation der Gespräche. Dabei wird ein halbautomatisches POS-Tagging nach dem Tagset von Westpfahl zur Erkennung von Wortarten in gesprochener Sprache (Westpfahl 2020) verfolgt. Es wird damit neben der induktiv, zeichenbasierten Suche im Transkripttext ebenso eine Kombinationssuche sowie auch einzelne Wortartensuche für Fragen an das Korpus zur Verfügung gestellt. Da dem POS-Tagging auch eine Normalisierung vorausgeht, ist ebenso eine standardsprachliche wörtliche Suche abgesichert. Die so vorgenommene Annotation soll die Erforschung von sprachlichen Konstruktionen erleichtern, die in der gesprochenen Sprache spezifisch auftreten.
Anwendungen im Regionalsprachekorpus
Das Regionalsprachekorpus kann auf verschiedenen Ebenen durchsucht werden. Die Suchmaske basiert auf regulären Ausdrücken (RegEx) und das Wiedergabefeld aus einer KWiC (Keyword in Context)-Darstellung und einem Oszillogramm samt Wiedergabeoptionen. Wie schon in ihrer Aufarbeitung werden Gespräche zeitaligniert wiedergegeben, was neben absoluten Größen wie einer Segmentnummer auch absolute Zeitspannen fassen und abfragen lässt. Durch Voreinstellungen, die globale RegEx-Operationen zusammenfassen wie case sensitivity, Gruppenbildung, Suchen im Kontext etc., wird die Datenabfrage erleichtert. Ab der Betaversion ist ein interaktives Tutorial angedacht, das Nutzerinnen und Nutzer in die Grundlagen der Korpussuche einführt und erste Ergebnisse liefert.
Literatur
Boersma, Paul/Weenink, David (2023). Praat: Doing Phonetics by Computer. Online verfügbar unter http://praag.org (abgerufen am 19.08.2024).
Ganswindt, Brigitte/Kehrein, Roland/Lameli, Alfred (2015). Regionalsprache.de (REDE). In: Kehrein, Roland/Lameli, Alfred/Rabanus, Stefan (Hrsg.). Regionale Variation des Deutschen – Projekte und Perspektiven. Berlin/Boston: De Gruyter, 425–458.
Lipfert, Salome (2024). Karte 1 Ortsnetz Regionalsprachekorpus. Online verfügbar unter: www.regionalsprache.de/Map/HquUdoRe.
Schmidt, Jürgen Erich (2017). Vom traditionellen Dialekt zu den modernen deutschen Regionalsprachen. In: Deutsche Akademie für Sprache und Dichtung / Union der deutschen Akademien der Wissenschaften (Hrsg.). Vielfalt und Einheit der deutschen Sprache: Zweiter Bericht zur Lage der deutschen Sprache. Tübingen: Stauffenburg, 105−143.
Schmidt, Thomas/Wörner, Kai (2014). EXMARaLDA In: Durand, Jacques/Gut, Ulrike/ Kristoffersen, Gjert (Hrsg.). The Oxford handbook of corpus phonology (= Oxford handbooks in linguistics). Oxford: Oxford University Press, S. 402–419 (siehe auch exmaralda.org).
Selting, Margret/Auer, Peter/Barth-Weingarten, Dagmar/Bergmann, Jörg/Bergmann, Pia/Birkner, Karin/Couper-Kuhlen, Elizabeth/Deppermann, Arnulf/Gilles, Peter/Günthner, Susanne/Hartung, Martin/Kern, Friederike/Mertzlufft, Christine/Meyer, Christian/Morek, Miriam/Oberzaucher, Frank/Peters, Jörg/Quasthoff, Uta/Schütte, Wilfried/Stukenbrock, Anja/Uhmann, Susanne (Hrsg.) (2009). Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 10, 353–402. Online verfügbar unter http://www.gespraechsforschung-ozs.de/heft2009/px-gat2.pdf (abgerufen am 19.08.2024).
Westpfahl, Swantje (2020). POS-Tagging für Transkripte gesprochener Sprache. Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) (= Studien zur Deutschen Sprache 83). Tübingen.