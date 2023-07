An der Universität Luxemburg wird an einem Sprachmodell für Computer gearbeitet, mit dem die Interaktion auf Luxemburgisch ermöglicht werden soll. Der Télécran hat mit Dr. Cédric Lothritz über die Funktionsweise, die Einsatzgebiete und Grenzen des Modells gesprochen.

Dieser Artikel erschien zuerst im „Télécran“ (Ausgabe 29/2023). Hier können Sie das Wochenmagazin abonnieren.

Egal, ob Chatbots, die wie etwa ChatGPT künstliche Intelligenz einsetzen, um mit Menschen in natürlicher Sprache zu schreiben oder auch Sprachassistenten, zu denen etwa Apples Siri oder Amazons Alexa gehören: Ihnen allen liegen Sprachmodelle zugrunde. „Das sind im Grunde mathematische Modelle, in denen Wörter in Zahlen beziehungsweise Zahlenlisten, sogenannte Vektoren, umgewandelt werden. Mit diesen können Computer zuverlässiger arbeiten als mit Wörtern“, erklärt Dr. Cédric Lothritz, Computerwissenschaftler am Interdisciplinary Centre for Security, Reliability and Trust (SnT) der Universität Luxemburg.

Sein Interesse gilt dabei in erster Linie sogenannten BERT-Modellen (Bidirectional Encoder Representations from Transformers), dessen erster Ableger 2018 von Google präsentiert wurde und auf der englischen Sprache basiert. „Seither erschienen weitere BERT-Modelle wie CamemBERT für Französisch oder auch GottBERT für Deutsch“, präzisiert der 32-jährige Forscher aus Luxemburg.

Da die Erstellung und das Training eines solchen Modells viel Zeit, Arbeit und vor allem Daten beansprucht, gab es lange Zeit kein BERT ausschließlich für Luxemburgisch. Immerhin handelt es sich hierbei um eine Nischensprache, die besonders in der digitalen Welt eine untergeordnete Rolle spielt. Zu dieser Feststellung kam 2021 auch Dr. Lothritz, der zu der Zeit noch als Doktorand arbeitete. Daraufhin machte er sich daran, ein entsprechendes BERT-Modell für Luxemburgisch zu entwickeln. Im Zuge der Forschungsarbeit arbeiteten sein Team und er mit BGL BNP Paribas zusammen. Denn die Bank ist unter anderem an der Entwicklung von mehrsprachigen virtuellen Assistenten, also Chatbots, interessiert. Diese sollen das Kundenerlebnis verbessern, indem sie schnell und in der jeweiligen Sprache auf Anfragen reagieren können. Das Resultat: Im November letzten Jahres wurde LuxemBERT erstmals der Öffentlichkeit präsentiert.

Wie Dr. Cédric Lothritz erklärt, wurden sechs Millionen luxemburgische Sätze zum Training von LuxemBERT verwendet. Foto: Christophe Olinger

Das Entscheidende bei LuxemBERT ist, dass das Modell den Kontext eines Satzes versteht und entsprechend die passenden Wörter nutzt. „Die Idee ist, dass jene Wörter, die im selben Kontext gebraucht werden, auch Vektoren erhalten, die sich in Teilen ähneln. So erkennt das Programm Zusammenhänge zwischen verschiedenen Wörtern“, erklärt Dr. Lothritz. Wobei ein solcher Vektor 768 Zahlen lang sein kann. Als Beispiel nennt er Hund und Katze. „Diese sind sich recht ähnlich. Beides sind nicht nur Tiere, sondern auch Haustiere und kommen oft im selben Kontext vor. Etwa ‚Ich streichle einen Hund‘ oder eben ‚Ich streichle eine Katze‘“. Ein anderes Beispiel wären etwa Rom und Paris: Beides sind Hauptstädte und beide liegen in Europa. In diesen Punkten ähneln sie sich somit, was der Computer auch anhand von Teilen des Vektors erkennt.

Das eigentliche Training erfolgt über Lückentexte. „Im Grunde so ähnlich, wie wir Menschen es in der Schule gelernt haben“, merkt der Forscher an. Allerdings wurden diese Lückentexte vom Programm selber erstellt, wobei dieses im Anschluss nicht weiß, welches Wort es zuvor entfernt hat. Der Computer muss nun das fehlende Wort wieder einsetzen oder eines, das im Kontext des Satzes Sinn ergibt. Das könne, um beim Beispiel mit den Haustieren zu bleiben, etwa Hund oder Katze sein. „Die Ergebnisse werden anschließend überprüft. Lag das Programm richtig, entwickelt es sich in die eine Richtung, lag es falsch, in die andere Richtung weiter.“ Die Hoffnung sei es, dass es eine gute Vorstellung von seinem Vokabular hat und diese entsprechend einzusetzen weiß. Vorausgesetzt, die Forscher füttern das Programm mit ausreichend Beispielen.

„Pseudo-Luxemburgisch“ zur Ergänzung

Beim Trainieren eines solchen Modells stellt eben besonders die Datenmenge eine große Herausforderung dar. Wie Dr. Lothritz erklärt, haben er und sein Team dieses mit sechs Millionen Sätzen gefüttert. Das mag auf den ersten Blick viel erscheinen. Wenn man aber bedenkt, dass andere Modelle wie etwa das originale BERT-Modell mit rund 130 Millionen Sätzen trainiert wurde, dann wird deutlich, wie klein die Datenbasis für LuxemBERT ist. „Der Grund hierfür ist, dass es wenig Material auf Luxemburgisch gibt.“ So haben die Forscher den Großteil der Sätze von Wikipedia, von RTL-Artikeln und Kommentaren sowie von alten, anonymisierten Chatroom-Logs bezogen.

Lesen Sie auch:Luxemburgisch hilft weniger als gedacht

Die Forscher haben sich zusätzlich bei Kollegen aus dem Ausland inspirieren lassen, die durch die Verwendung der verwandten Sprache Niederländisch ein Modell für eine Nischensprache – Afrikaans – trainiert haben. Im Fall von Luxemburgisch ist das Deutsch. „Wir haben eine Reihe an Wörtern, sogenannte Funktionswörter, aus dem Deutschen ins Luxemburgische übersetzt, um mit deutschen Sätzen das Modell weiter zu verfeinern. Dazu zählen Hilfsverben, Präpositionen oder auch Pronomen. Sie haben nur eine Bedeutung und kommen vielfach in einem Text vor“, erklärt der Wissenschaftler. Insgesamt handele es sich dabei um rund 800 Wörter. Durch diese „pseudo-luxemburgischen“ Sätze hat das Team den Datensatz, auf dem LuxemBERT aufgebaut ist, von sechs auf zwölf Millionen Sätze erweitert. Die Forscher sprechen hierbei von Daten-Augmentation, also einer künstlichen Erweiterung von Daten. „Die Resultate haben gezeigt, dass dieses Verfahren recht gut funktioniert hat.“

Wie gut, das haben die Forscher in einem Vergleich belegt. Denn mit mBERT (Multilingual BERT) gibt es ein weiteres Sprachmodell, das Luxemburgisch beherrscht. Allerdings auch 103 weitere Sprachen, weshalb dieses nur auf einer kleineren luxemburgischen Datenbasis trainiert wurde. Den beiden BERT-Modellen haben die Forscher neun Aufgabengruppen gestellt. „Diese reichten von Grammatik- über Verständnis-Aufgaben bis hin zu einer ‚Gefühlsanalyse‘. Das Modell muss also erkennen, ob eine Aussage positiv oder negativ ist“, führt Dr. Lothritz aus. In acht von neun Fällen war LuxemBERT besser.

Weiterentwicklung nötig

Laut Dr. Lothritz könnte LuxemBERT auch als Basis für ein System genutzt werden, das E-Mails analysiert und automatisch an die entsprechenden Abteilungen eines Unternehmens weiterleitet. „Wir haben seit Bekanntwerden von LuxemBERT eine ganze Reihe von Anfragen bekommen. Etwa für die Anwendung des Modells im Rahmen eines Übersetzungsprogramms, wofür LuxemBERT im Grunde nicht ausgelegt ist. Dafür müssten wir das Training umstellen und bräuchten außerdem Satzpaare, also etwa von einem Satz in Englisch und in Luxemburgisch, damit das Modell weiß, was die korrekte Übersetzung ist.“ Ohne entsprechende Satzpaare könnten die Forscher dies aber noch nicht tun.

Aktuell sind Dr. Lothritz und sein Team dabei, das Modell weiter zu verbessern. Dabei ist er auf weitere Daten angewiesen. Hierzu könnte etwa das „Chamberbliedchen“ zählen, in dem die Sitzungsberichte des Parlaments veröffentlicht werden. Aber auch andere Quellen sollen erschlossen werden. Welche das sein werden, könne er aber noch nicht sagen. „Wir sind innerhalb unseres Teams dabei zu diskutieren, welche möglich sind“, erklärt er. Dabei wollen die Forscher auch wieder auf Daten-Augmentation setzen. Dieses Mal jedoch mit Französisch, weil der Wortstamm vieler luxemburgischen Wörter französisch ist. Etwa „den Tirrang“, „le tiroir“ oder „d’Suen“, „les sous“. „Der erste Schritt ist mit LuxemBERT getan. Aber es ist wichtig, am digitalen Luxemburgisch weiterzuarbeiten“, betont der Forscher, der sich diesem Thema in Zukunft weiter widmen möchte. Sei es an der Universität oder in der Privatwirtschaft.