Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Bewertung von Sprachmodellen mit grösseren Datensätzen

Diese Studie bewertet Sprachmodelle mit neu erstellten Datensätzen für Negation und Rollenwechsel.

― 4 min Lesedauer


Sprachmodelle mitSprachmodelle mitgrösseren DatensätzengetestetRollenwechsel.Modellleistung bei Negation undNeue Datensätze zeigen die
Inhaltsverzeichnis

Sprachmodelle sind Computersysteme, die menschliche Sprache verstehen und generieren können. Forscher testen diese Modelle oft, um zu sehen, wie gut sie bestimmte Sprachaufgaben erfüllen. Wenn die Tests jedoch mit kleinen Datensets durchgeführt werden, können die Schlussfolgerungen nicht ganz korrekt sein. In diesem Artikel wird eine Studie vorgestellt, die grössere Datensätze erstellt, um besser zu bewerten, wie Sprachmodelle mit zwei Aufgaben umgehen: Negation und Rollenwechsel.

Neuigkeiten

In dieser Studie wurden zwei neue Datensätze erstellt: einer für Negation, genannt NEG-1500-SIMP, und ein anderer für Rollenwechsel, genannt ROLE-1500. Die ursprünglichen Datensätze hatten nur wenige Beispiele – 18 für Negation und 44 für Rollenwechsel. Die neuen Datensätze erhöhen die Anzahl der Beispiele erheblich, mit 750 Beispielen für jede Aufgabe. Eine weitere Version des Negationsdatensatzes, genannt NEG-1500-SIMP-TEMP, wurde ebenfalls mit einer anderen Methode erstellt.

Methodik

Die Forscher verwendeten ein Modell namens GPT-3, um die ursprünglichen Datensätze zu erweitern. GPT-3 kann Text basierend auf gegebenen Eingaben generieren. In diesem Fall erstellte es zusätzliche Beispiele für die Aufgaben Negation und Rollenwechsel. Für den Negationsdatensatz besteht jedes Beispiel aus einem bejahenden Satz, wie "Ein Rotkehlchen ist ein Vogel," und seiner negierten Version, wie "Ein Rotkehlchen ist kein Baum." Der Rollenwechseldatensatz enthält Satzpaare, bei denen die Rollen der Wörter vertauscht werden, wie "Die Bibliothekarin dokumentierte, welchen Journalisten die Prominenten gemieden hatten," geändert zu "Die Bibliothekarin dokumentierte, welche Prominenten der Journalist interviewt hatte."

Um Vielfalt zu gewährleisten und Fehler zu reduzieren, kombinierten die Forscher verschiedene Methoden zur Datenerstellung. Eine Methode bestand darin, spezifische Vorlagen zu erstellen, während die andere auf der Fähigkeit von GPT-3 beruhte, Text basierend auf gegebenen Beispielen zu generieren.

Bewertung der Modellleistung

Nachdem die grösseren Datensätze erstellt wurden, war der nächste Schritt, zu bewerten, wie gut verschiedene Sprachmodelle damit arbeiteten. Insgesamt wurden 22 Modelle getestet, darunter GPT-3. Die Forscher fanden heraus, dass bei Verwendung der grösseren Datensätze die Leistung vieler Modelle erheblich sank – einige um bis zu 58% im Vergleich zu ihrer Leistung mit den ursprünglichen, kleineren Datensätzen.

Interessanterweise zeigten viele Modelle zwar eine geringere Genauigkeit, aber sie waren empfindlicher gegenüber Negation. Das bedeutet, dass sie trotz der Schwierigkeiten mit den Aufgaben insgesamt besser erkennen konnten, wann ein Satz negiert wurde, im Vergleich zu ihrer Leistung mit den kleinen Datensätzen.

Ergebnisse zu GPT-3

Eine der bemerkenswerten Entdeckungen war zu GPT-3 selbst. Obwohl dieses Modell für die Erstellung des gesamten Rollenwechseldatensatzes verantwortlich war, konnte es nur etwa 24,6% der Fragen korrekt beantworten, als es evaluiert wurde. Das zeigt, dass GPT-3 zwar Beispiele produzieren kann, aber nicht unbedingt bei den Aufgaben, die mit diesen Beispielen verbunden sind, herausragt. Andere Modelle, wie ALBERT und RoBERTa, schnitten besser im Rollenwechseldatensatz ab, obwohl GPT-3 die Quelle der Beispiele war.

Die Bedeutung grösserer Datensätze

Grössere Datensätze zu erstellen, bietet eine genauere Darstellung der Modellleistung. In dieser Studie beobachteten die Forscher, dass frühere Schlussfolgerungen aus kleineren Datensätzen möglicherweise irreführend waren. Die grössere Datenmenge erlaubte bedeutungsvollere Vergleiche darüber, wie verschiedene Modelle mit den Aufgaben Negation und Rollenwechsel umgehen.

Durch die Verwendung von Modellen wie BERT und ALBERT fanden die Forscher heraus, dass viele Modelle hohe Sensitivität gegenüber Negation zeigten. Das legt nahe, dass frühere Ergebnisse möglicherweise nicht die vollen Fähigkeiten dieser Modelle erfasst haben, weil sie an begrenzten Beispielen getestet wurden.

Herausforderungen

Obwohl die Forscher die Datensätze erfolgreich erweiterten, stiessen sie auf einige Herausforderungen. Zum Beispiel musste ein grosser Teil der Antworten, die mit GPT-3 generiert wurden, während des Reinigungsprozesses verworfen werden. Etwa 62,5% der generierten Negationsdaten bestanden aus Duplikaten, was zu Wiederholungen und reduzierter Vielfalt im Datensatz führen könnte.

Ausserdem waren viele Antworten entweder unvollständig, unsinnvoll oder erfüllten nicht das erforderliche Format. Das erforderte eine sorgfältige manuelle Filterung, um sicherzustellen, dass nur die besten Beispiele in den endgültigen Datensatz gelangten.

Fazit

Diese Studie hebt die Bedeutung der Verwendung grösserer Datensätze bei der Bewertung der Leistung von Sprachmodellen hervor. Durch die Erweiterung der ursprünglichen Datensätze für Negations- und Rollenwechselaufgaben können Forscher ein besseres Verständnis dafür gewinnen, wie gut diese Modelle in realen Szenarien funktionieren. Sie entdeckten, dass viele Modelle, während sie einen Rückgang der Gesamtgenauigkeit zeigten, tatsächlich empfindlicher gegenüber Negation waren, was auf einen Bedarf an umfangreicheren Forschungen in diesem Bereich hinweist.

Da Sprachmodelle wie GPT-3 immer häufiger werden, ist es wichtig, ihre Grenzen und die Qualität ihrer Leistung bei Aufgaben zu bewerten, die menschliches Sprachverständnis nachahmen. Erweiterte Datensätze dienen nicht nur als Testmittel, sondern auch als Grundlage für zukünftige Forschungen im Bereich der Sprachverarbeitung.

Originalquelle

Titel: Larger Probes Tell a Different Story: Extending Psycholinguistic Datasets Via In-Context Learning

Zusammenfassung: Language model probing is often used to test specific capabilities of models. However, conclusions from such studies may be limited when the probing benchmarks are small and lack statistical power. In this work, we introduce new, larger datasets for negation (NEG-1500-SIMP) and role reversal (ROLE-1500) inspired by psycholinguistic studies. We dramatically extend existing NEG-136 and ROLE-88 benchmarks using GPT3, increasing their size from 18 and 44 sentence pairs to 750 each. We also create another version of extended negation dataset (NEG-1500-SIMP-TEMP), created using template-based generation. It consists of 770 sentence pairs. We evaluate 22 models on the extended datasets, seeing model performance dip 20-57% compared to the original smaller benchmarks. We observe high levels of negation sensitivity in models like BERT and ALBERT demonstrating that previous findings might have been skewed due to smaller test sets. Finally, we observe that while GPT3 has generated all the examples in ROLE-1500 is only able to solve 24.6% of them during probing. The datasets and code are available on $\href{https://github.com/text-machine-lab/extending_psycholinguistic_dataset}{Github}$.

Autoren: Namrata Shivagunde, Vladislav Lialin, Anna Rumshisky

Letzte Aktualisierung: 2023-11-14 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2303.16445

Quell-PDF: https://arxiv.org/pdf/2303.16445

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel