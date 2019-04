„Schnëssen“ und „Strips“: So funktioniert moderne Sprachforschung an der Universität Luxemburg.

Luxemburgisch ganz digital

von Birgit Pfaus-Ravida



Im Fach Luxemburgistik an der Universität Luxemburg setzt man ganz auf die Vorteile digitaler Medien: Es gibt eine App, mit der jeder den Forschern sein ganz individuelles Luxemburgisch mitteilen kann. Und es werden luxemburgische Kommentare in den sozialen Medien untersucht. Beide Projekte betreut Peter Gilles, Professor für Linguistik am Institut für luxemburgische Sprach- und Literaturwissenschaft.

Seit Jahren erforscht er das Luxemburgische – und das gerne mithilfe moderner Medien. „Das ist besonders spannend, weil Luxemburgisch im Sprachgebrauch noch nicht vollständig standardisiert ist und überwiegend mündlich existiert“, sagt Peter Gilles. Daher gilt es, die vielfältigen Variationen zu erfassen und Erklärungen für ihren Gebrauch und ihr Entstehen zu finden. Zu den variablen Phänomenen gehören zum einen die regionalen Unterschiede – etwa das bekannte „nik“ im Norden oder das „mär“ des Südens. Andererseits geht es aber auch um die Wahl zwischen einer luxemburgischen und einer französischen Alternative – wie bei „Dreckskëscht“ oder „Poubelle“.

Luxemburgistik-Professor Peter Gilles erforscht die Landessprache mithilfe digitaler Medien. Foto: Lex Kleren

Neuauflage des Sprachatlas

Ein großer Schritt dahin könnte die App „Schnëssen“ sein, die es seit einem Jahr gibt. Sie lebt davon, dass angemeldete Nutzer ihre Varianten von luxemburgischen Wörtern und Sätzen eingeben oder einsprechen. „Die unterschiedlichen Variabilitätsphänomene haben wir in Aufgaben eingebaut und die Leute sprechen uns ihre Variante der Wörter oder Sätze ein“, erklärt Peter Gilles. Die entsprechende App kann sich jeder kostenlos auf seinem Smartphone installieren und dann immer, wenn er Zeit und Lust hat, ein paar Aufgaben erfüllen. Etwa Bilder beschreiben, deutsche oder französische Sätze auf Luxemburgisch übersetzen, Fragen auf Luxemburgisch beantworten oder geschriebene Sätze vorlesen. Von vielen Wörtern und Sätzen ergibt sich dadurch eine Vielzahl von Varianten. Die Tonaufnahmen werden dokumentiert und die linguistischen Phänomene wie etwa Phonetik und Morpho-Syntax systematisch untersucht.

„Zurzeit machen etwa 2 000 Personen mit“, sagt Gilles und zeigt die recht gleichmäßige Verteilung der Teilnehmer auf einer digitalen Landkarte. Bei seiner Anmeldung gibt jeder Alter, Geschlecht, Wohnort, Ort, an dem er aufgewachsen ist, Schulbildung, Geschlecht und Muttersprache an. „Das Alter steuert am meisten die Variation“, hat Gilles bereits herausgefunden. Etwa 220 000 Aufnahmen haben er und sein Team schon gesammelt – neben der „normalen“ Forschungsarbeit. „Die Dokumentation macht aber extrem Spaß“, so der Forscher. Ziel des Projekts: die Überarbeitung und Neuauflage des Luxemburgischen Sprachatlas, der 1963 veröffentlicht wurde.

Das zweite große digitale Projekt heißt „Strips“ (A Semantic Search Toolbox for the Retrieve of Similar Patterns in Luxembourgish Documents) und findet in Kooperation mit der Fachrichtung Computer Science statt. Das Ziel des Projekts: Mithilfe luxemburgischer Texte im Internet – genauer: Kommentare unter Online-Artikeln von RTL –, soll eine Art „Werkzeugkiste“ semantischer Such-Algorithmen für das Luxemburgische entwickelt werden.

Dabei bedienen sich die Linguisten und Experten für künstliche Intelligenz (KI, oder englisch AI) des RTL-Archivs seit dem Jahr 2008. Alle User-Kommentare seit damals sind erhalten. „Die Algorithmen sollen so programmiert werden, dass sie zum Beispiel anhand der Kommentarinhalte herausfinden können, dass es sich um Kommentare zu einer ganz bestimmten Debatte handelt, selbst, wenn das entsprechende Stichwort – wie etwa Haushaltsdebatte – nicht vorkommt“, erläutert Gilles. Und die Algorithmen sollen dabei helfen, die Kommentare wertend zuzuordnen – in positiv-zustimmend, negativ-ablehnend oder etwa neutral. So können Stimmungen herausgefiltert werden.



Das Computermodell wird seit etwa einem Jahr manuell mit Kommentaren „gefüttert“, dann soll das selbstlernende Computermodell „trainiert“ und dadurch perfektioniert werden. Ein mittlerweile klassisches Verfahren im Bereich der künstlichen Intelligenz, aber neu für die Luxemburgistik. Diese bringt linguistisches Wissen ein, also etwa, dass Adjektive oft Stimmungen widerspiegeln; „über solche Zusatzinfos wird das Modell ständig verbessert“, so Gilles.

Interdisziplinarität als täglich Brot

Federführend ist bei „Strips“, zusammen mit Peter Gilles, der Wissenschaftler Christoph Schommer, Associate professor in Artificial Intelligence (AI). Die beiden Forscher hatten diese gemeinsame Idee schon lange im Kopf. Schommer arbeitet bereits seit 1990 im Bereich Künstliche Intelligenz.

„Verstehen von natürlicher Sprache, Verarbeitung natürlicher Sprache oder künstliche Chatbots waren damals schon Themen. Eine Zusammenarbeit mit den Linguisten ist also nicht neu“, erklärt er. Eine fachübergreifende Kollaboration mit Experten anderer Fachrichtungen bedeute immer einen Mehrwert. Und: „Die Computer Science und hier insbesondere Data Science und Künstliche Intelligenz spielen einfach eine immer größere werdende Rolle. Sie wandeln sich zu einem Fundament und integrativen Element für andere Fachbereiche. Eine Interdisziplinarität wird immer mehr tägliches Brot“, betont Schommer.

„Dass wir im Falle von Strips reelle Massendaten verwenden dürfen, um konkrete KI-Probleme bearbeiten zu können, ist natürlich ein absoluter Glücksfall.“ Das Innovative liege zudem darin, dass eine kompetente Fach- und Sachkenntnis im Bereich auf die Kernkompetenz im Bereich des maschinellen Lernens und der Data Science treffe. „Das eine geht nicht ohne das andere: Wir können nicht unsere Lern-Algorithmen anwenden, ohne die Spezifika der luxemburgischen Sprache zu kennen.“

Eine erste Herausforderung sei es, die Ergebnisse so anwenden zu können, dass das Teilziel – nämlich das Identifizieren von Emotionen in Benutzerkommentaren – gelinge. Eine zweite Herausforderung liege in der Frage, inwieweit man diese Komponente in weiterführende Systeme, etwa in einen Chatbot oder in ein natürlichsprachiges Dialogsystem, integrieren könne.