Projekte

Dialektsyntax des Schweizerdeutschen

Dialekte unterscheiden sich nicht nur in Aussprache und Wortschatz, sondern auch in der Syntax, d. h. im Aufbau der Sätze. Seit Anfang 2000 erforscht unser Projekt an der Universität Zürich die sprachgeographische Gliederung der deutschen Schweiz im Bereich der Syntax. Ziel ist die Veröffentlichung der Resultate in einem Atlasband.

Durch den mittlerweile abgeschlossenen Sprachatlas der deutschen Schweiz (SDS) ist dies für die Bereiche der Phonologie, der Morphologie und der Lexik bereits geleistet worden. Die Initianten des SDS hatten die Notwendigkeit der Einbeziehung der Syntax durchaus gesehen, sie aber nur mit wenigen Fragen im Fragebuch berücksichtigt, was mit der Schwierigkeit zusammenhängt, Syntaktisches auf die gleiche Weise wie Lautung und Wortschatz systematisch erheben zu können. Im fertigen SDS sind so nur wenige syntaktische Karten enthalten. Mit der Fortführung des SDS im syntaktischen Bereich wird die schweizerdeutsche Dialektologie hier erneut Pionierarbeit leisten, zumal geeignete Erhebungs-, Auswertungs- und Darstellungsverfahren erst entwickelt werden müssen; dies geschieht in Auseinandersetzung mit Erfahrungen von Atlasprojekten in Süddeutschland, Österreich, Italien und den Niederlanden.

Der aktuelle Anlass, die Dialektsyntax zu erforschen, ergibt sich aber nicht nur aus der Notwendigkeit, die genannte Lücke in der Beschreibung der dialektalen Grammatik zu schliessen, sondern auch dadurch, dass sich die allgemeine Syntaxtheorie und die Syntaxtypologie, die in den letzten Jahrzehnten einen Schwerpunkt der sprachwissenschaftlichen Interessen bilden, vermehrt um die Einbeziehung dialektaler Daten bemühen. Dies ermöglicht eine wertvolle Erweiterung des Wissens über die Parameter, nach denen sprachliche Strukturen variieren können, was wiederum für die Beschäftigung mit den Prinzipien des Aufbaus sprachlicher Systeme von grosser Bedeutung ist. Es ist infolgedessen eine wichtige Aufgabe der Dialektologie, eine empirisch zuverlässige Beschreibung der vorkommenden dialektalen syntaktischen Strukturen zu erarbeiten, da die theoretisch und typologisch orientierte Sprachwissenschaft diese Grundlagenforschung selbst nicht leisten kann.

3188 Informanten an 383 Ortspunkten in der ganzen Deutschschweiz bearbeiteten insgesamt vier Serien schriftlicher Fragebögen. Wir arbeiten mit einer Kombination verschiedener Fragetypen, die es erlaubt, auch variative Muster systematisch erheben zu können. Dieses flächendeckende Datengerüst wurde punktuell durch zusätzliche mündliche Befragungen ergänzt und auf seine Validität hin überprüft. Unsere Überblicksdarstellung sozusagen Grundlagenforschung im Bereich der Dialektologie und Sprachwissenschaft und bietet nach ihrer Fertigstellung die Basis für weiterführende Untersuchungen.

Text: Sandro Bachmann, Jan. 2018

Link: Dialektsyntax des Schweizerdeutschen

NOAHs Corpus

Schweizerdeutsch für Computer

Die Computerlinguistik beschäftigt sich mit dem Überschneidungsbereich von Sprachforschung und Informatik. Anwendungsgebiete sind zum Beispiel maschinelle Übersetzung, Sprachgenerierung, Spracherkennung, etc.

Um natürliche (menschliche) Sprache mit einem Computer automatisch zu bearbeiten, braucht es erst einmal Ressourcen wie zum Beispiel ein Korpus, d.h. eine möglichst grosse Sammlung von Texten und einige grundlegende Tools, also kleine Programme, für die jeweilige Sprache.

Vor einigen Jahren ist im Rahmen eines Seminars am Institut für Computerlinguistik an der Universität Zürich die Seminararbeit „Part-of-Speech Tagging für Schweizerdeutsch” entstanden, welche den Anfang des kleinen Projekts markiert. Nach der Abgabe der Seminararbeit haben wir, d.h. Nora Hollenstein und Noëmi Aepli, uns weiterhin damit beschäftigt und zwei wissenschaftliche Arbeiten publiziert. Entstanden ist „NOAH’s Corpus“.

Ein Part-of-Speech-Tagger ist ein Computerprogramm, das jedem Wort in einem Text seine Wortart zuweist. Es ist ein Basis-Werkzeug für Sprachtechnologie und wird für verschiedenste Zwecke gebraucht bzw. ist für viele weitere Anwendungen in der Verarbeitung von natürlicher Sprache ein grundlegendes Tool. Für viele Sprachen existieren sie schon, allerdings gibt es noch viele „wenig beachtete” Sprachen, für welche noch keine Ressourcen aufgebaut wurden. Dies gilt auch für Schweizerdeutsch, als Dialektkontinuum von Dialekten, die sich stark von Standarddeutsch unterscheiden. Trotz den grossen Unterschieden zwischen dem Standard und Dialekten wird der Umweg über Standarddeutsch gewählt wenn in Sprachverarbeitungssystemen mit Schweizerdeutsch gearbeitet wird. Indem Ressourcen für Schweizerdeutsch zusammengestellt werden, kann nicht nur dieser Umweg vermieden sondern es können auch viel bessere Resultate erzielt werden. Ein Korpus und ein Wortartenerkennungssystem sind die ersten Schritte zu einem Ressourcenaufbau.

Wir sammelten schweizerdeutsche Texte und bestimmten manuell für jedes Wort die Wortart. Damit haben wir ein statistisches Wortartenerkennungssystem trainiert, das heisst, das System hat aus unseren manuellen Wortartzuweisungen gelernt, so dass es diese Aufgabe danach übernehmen kann – was es mit einer Genauigkeit von 90% (also 9 von 10 Wörtern korrekt klassifiziert) jetzt auch tut.

Da es für Schweizerdeutsch weder eine offizielle Rechtschreibung noch einen Standard gibt, ist es um so schwieriger, Ressourcen zu entwickeln, um die Dialekte automatisch zu verarbeiten. Das Worterkennungssystem soll als erste Grundlage für die automatische Sprachverarbeitung von Schweizer Dialekten dienen.

Text: Noëmi Aepli, Feb. 2016

Archimob – eine Sammlung von gesprochenem und geschriebenem Schweizerdeutsch

Das KorpusLab (korpuslinguistisches Laboratorium) ist Teil des universitären Forschungsschwerpunktes Sprache und Raum” und dient der Entwicklung und Adaption von Methoden und Ressourcen für die Untersuchung linguistischer Phänomene in Sprachkorpora. Sprachkorpora sind Sammlungen maschinenlesbarer Texte. Diese sind so aufbereitet, dass man mit einem Computer darauf zugreifen und sie analysieren kann. Im KorpusLab extrahieren wir Daten von Sprachkorpora automatisch anhand des sogenannten „Natural Language Processing“. Auf diese Weise können wir linguistische Phänomene im Korpus auszählen und mit statistischen Modellen die Strukturen und Regeln hinter dem beobachteten Sprachgebrauch verstehen.

Ein spezifisches Projekt des KorpusLab widmet sich dem Schweizerdeutschen. Im Sommer 2016 haben wir das erste Release des ArchiMob Korpus online gestellt. Dieses besteht aus Transkriptionen von Interviews mit Schweizer Bürgern, die den zweiten Weltkrieg miterlebt haben und deckt Themen wie politische Streitereien, das damalige Alltagsleben und sogar verbotene Liebschaften während des Krieges ab. Die Interviews, die zwischen ein und zwei Stunden dauern, wurden vom Verein ArchiMob in einem Oral-History-Projekt aufgenommen. Die Informanten kommen aus allen Dialektregionen der Schweiz und repräsentieren beide Geschlechter, verschiedene soziale Hintergründe und unterschiedliche politische Ansichten.

Im Prozess der automatischen Annotation haben wir Tools entwickelt wie zum Beispiel ein Wortartenerkennungssystem und ein Normalisierungssystem, die jetzt auch zur Verarbeitung anderer schweizerdeutscher Texte verwendet werden können. Ein spezielles Merkmal des Korpus ist die Text-zu-Ton-Alignierung von 4-8 Sekunden langen Segmenten. Diese Alignierung eignet sich nicht nur für die detaillierte Erforschung von Phänomenen gesprochener Sprache, sondern auch für das Training eines Sprache-zu-Text Konvertierungsprogramms.

Das Korpus ist in zwei Formen verfügbar: für online Korpus-Abfragen über eine Korpus-Suchmaschine und als herunterladbares XML-Archiv.

Links:

ArchiMob-Korpus Projekt

Language and Space Lab

Universitärer Forschungsschwerpunkt Sprache und Raum

Archimob