Bewertung von Sprachmodellen für brasilianisches Portugiesisch
Diese Studie bewertet die Leistung von Sprachmodellen bei Aufgaben in brasilianischem Portugiesisch.
― 4 min Lesedauer
Inhaltsverzeichnis
In den letzten Bemühungen in der Sprachtechnologie ging's darum, fortgeschrittene Sprachmodelle zu bauen, die in der Lage sind, Text zu verstehen und zu generieren. Diese Modelle, wie BERT, nutzen Deep-Learning-Techniken, um Sprache zu verarbeiten und zu analysieren. Allerdings arbeiten diese Modelle oft auf eine Art und Weise, die nicht leicht erklärbar ist, was es schwierig macht, genau nachzuvollziehen, wie sie zu ihren Schlussfolgerungen oder Vorhersagen kommen. Diese Intransparenz kann ein Problem sein, insbesondere wenn man versucht, diese Modelle auf bestimmte Aufgaben anzuwenden oder verschiedene Modelle zu vergleichen.
In diesem Zusammenhang haben wir uns angeschaut, wie gut Sprachmodelle im brasilianischen Portugiesisch abschneiden, mit Fokus auf ihre Fähigkeit, verschiedene Aspekte der Sprache zu bewältigen, wie Grammatik und mehrwortige Ausdrücke (MWEs). Mehrwortige Ausdrücke sind Phrasen, die nicht den üblichen Regeln der Zusammensetzung folgen, was bedeutet, dass ihre Bedeutung nicht einfach aus den einzelnen Wörtern abgeleitet werden kann. Zum Beispiel ist der Begriff "pão duro" (was "geizige Person" bedeutet) ein gutes Beispiel, da seine Bedeutung nicht direkt mit den Wörtern "pão" (Brot) und "duro" (hart) verbunden ist.
Um zu bewerten, wie gut diese Sprachmodelle mit brasilianischem Portugiesisch umgehen können, haben wir einen speziellen Datensatz für Tests erstellt. Dieser Datensatz ist in zwei Hauptteile unterteilt: einen für mehrwortige Ausdrücke und einen anderen für Grammatische Strukturen. Der grammatische Abschnitt umfasst sechs verschiedene Testarten, die sich auf Aspekte wie Verbübereinstimmung, Subjektübereinstimmung und Bindewörter konzentrieren.
Erstellung des Datensatzes
Wir haben eine Reihe von Sätzen für unsere Aufgaben zusammengestellt, in denen jeweils ein Wort fehlte, und dabei auch einen Kontext bereitgestellt, um die Auswahl einzugrenzen. Für den MWE-Teil unserer Tests haben wir 33 idiomatische Phrasen ausgewählt und fünf Kontextsätze für jeden Ausdruck erstellt. Das ergab insgesamt 165 Sätze für die Tests. Das Ziel war es zu sehen, ob die Modelle das fehlende Wort korrekt identifizieren konnten, wenn sie einen relevanten Kontext hatten.
Für unsere grammatischen Tests haben wir uns spezifische Satzstrukturen angeschaut und Sätze ausgewählt, die dazu gedacht waren, verschiedene grammatische Regeln zu testen. Wir haben gängige Strukturen wie unpersönliche Verben (Verben ohne Subjekt) und die Übereinstimmung von Nomen und Adjektiven in Geschlecht und Zahl einbezogen. Die Tests waren so strukturiert, dass das Modell das fehlende Wort basierend auf dem bereitgestellten Kontext ergänzen musste.
Bewertung der Modelle
Wir haben mehrere bekannte Modelle getestet, darunter zwei Versionen von BERT, die speziell auf Brasilianisches Portugiesisch trainiert wurden. Wir wollten sehen, wie gut diese Modelle die fehlenden Wörter sowohl in den MWE- als auch in den grammatischen Tests vorhersagen konnten.
In den MWE-Tests stellten wir fest, dass das grössere Modell besser abschnitt als die kleinere Version, aber beide Schwierigkeiten hatten, mehrwortige Ausdrücke im Vergleich zu ihrer Gesamtleistung genau vorherzusagen. Die besten Vorhersagen des grösseren Modells waren nur zu etwa 52% richtig, wenn man nur die beste Wahl berücksichtigt, obwohl die Genauigkeit auf etwa 66% stieg, wenn man die zehn besten Vermutungen betrachtete.
Die grammatischen Tests lieferten gemischte Ergebnisse. Aufgaben, bei denen keine Übereinstimmung erforderlich war, wie die Verwendung von Bindewörtern, erzielten hohe Genauigkeitsraten, während Aufgaben, die eine Übereinstimmung erforderten, wie Verb- und Nominalübereinstimmung, weniger beeindruckende Ergebnisse zeigten. Zum Beispiel hatte das Modell eine nahezu perfekte Leistung bei Tests für unpersönliche Verben, während es bei Aufgaben, die ein Zusammenpassen von Nomen und Adjektiven in Geschlecht und Zahl erforderten, mehr Schwierigkeiten hatte.
Erkenntnisse und Einsichten
Aus unseren Bewertungen haben wir festgestellt, dass die Modelle in vielen Bereichen Fähigkeiten zeigten, aber es gab bemerkenswerte Schwächen, besonders bei Aufgaben, die ein gutes Verständnis von Sprachstruktur und Übereinstimmung erforderte. Zum Beispiel schnitten die Modelle schlecht ab, wenn sie mit bestimmten Personalpronomen umgehen sollten und wenn komplexere grammatikalische Strukturen involviert waren.
Die Leistungsunterschiede zwischen den beiden Modellen deuten darauf hin, dass grössere, spezialisierte Modelle tendenziell besser abschneiden, obwohl das kleinere nicht ohne seine Vorzüge war. Die Ergebnisse wiesen auch darauf hin, dass die Modelle dazu neigten, mehr Vertrauen in falsche Antworten zu haben, was auf einen weiteren Verbesserungsbedarf in ihren Trainings- und Bewertungsprozessen hinweist.
Ausblick
In Zukunft planen wir, unseren Ansatz zur Testung von Sprachmodellen weiter zu verfeinern. Wir werden unsere Tests erweitern, um weitere Aspekte der Sprache zu berücksichtigen, wie die Verwendung von Verben im Kontext und die gängigen Phrasen in alltäglichen Gesprächen. Ausserdem wollen wir untersuchen, wie Vorurteile in Trainingsdaten die Leistung des Modells beeinflussen könnten.
Letztlich ist es unser Ziel, klarere Bewertungen von Sprachmodellen zu liefern und ihre Fähigkeit zu verbessern, brasilianisches Portugiesisch genau zu verarbeiten und zu generieren. Durch die Entwicklung eines umfassenden Datensatzes und die Einhaltung standardisierter Bewertungsverfahren hoffen wir, das Verständnis und die Nutzung der Sprachtechnologie in verschiedenen Anwendungen voranzutreiben.
Titel: Assessing Linguistic Generalisation in Language Models: A Dataset for Brazilian Portuguese
Zusammenfassung: Much recent effort has been devoted to creating large-scale language models. Nowadays, the most prominent approaches are based on deep neural networks, such as BERT. However, they lack transparency and interpretability, and are often seen as black boxes. This affects not only their applicability in downstream tasks but also the comparability of different architectures or even of the same model trained using different corpora or hyperparameters. In this paper, we propose a set of intrinsic evaluation tasks that inspect the linguistic information encoded in models developed for Brazilian Portuguese. These tasks are designed to evaluate how different language models generalise information related to grammatical structures and multiword expressions (MWEs), thus allowing for an assessment of whether the model has learned different linguistic phenomena. The dataset that was developed for these tasks is composed of a series of sentences with a single masked word and a cue phrase that helps in narrowing down the context. This dataset is divided into MWEs and grammatical structures, and the latter is subdivided into 6 tasks: impersonal verbs, subject agreement, verb agreement, nominal agreement, passive and connectors. The subset for MWEs was used to test BERTimbau Large, BERTimbau Base and mBERT. For the grammatical structures, we used only BERTimbau Large, because it yielded the best results in the MWE task.
Autoren: Rodrigo Wilkens, Leonardo Zilio, Aline Villavicencio
Letzte Aktualisierung: 2023-06-07 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2305.14070
Quell-PDF: https://arxiv.org/pdf/2305.14070
Lizenz: https://creativecommons.org/licenses/by-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://orcid.org/#1
- https://orcid.org/0000-0003-4366-1215
- https://orcid.org/0000-0002-6101-0814
- https://orcid.org/0000-0002-3731-9168
- https://github.com/rdenadai/BR-BERTo
- https://github.com/UKPLab/linspector/blob/master/intrinsic/data/Polarity/portuguese/dev.txt
- https://huggingface.co/models?filter=en
- https://huggingface.co/models?filter=pt
- https://huggingface.co/Geotrend/bert-base-pt-cased