Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Bewertung des Wortschatzreichtums in ChatGPT

Eine Studie darüber, wie ChatGPT Sprache und Wortschatzmerkmale nutzt.

― 10 min Lesedauer


Die Sprachbewertung vonDie Sprachbewertung vonChatGPTChatGPT-Einstellungen.Bewertung des Wortschatzes anhand der
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs), wie ChatGPT, werden bei vielen Aufgaben getestet. Diese Aufgaben beinhalten logisches Denken, Mathe und das Beantworten von Fragen zu verschiedenen Themen. Allerdings wird nicht viel Augenmerk darauf gelegt, wie diese Modelle Sprache nutzen. Das ist überraschend, denn das Verständnis ihres Sprachgebrauchs ist entscheidend. Sprachmodelle wie ChatGPT könnten einen grossen Einfluss darauf haben, wie sich Sprachen im Laufe der Zeit verändern. Wenn diese Modelle aufhören, bestimmte Wörter zu verwenden, könnten diese Wörter aus dem allgemeinen Gebrauch verschwinden. Daher ist es wichtig, die sprachlichen Merkmale in den Texten, die sie erzeugen, und wie diese Merkmale mit der Konfiguration der Modelle zusammenhängen, zu betrachten.

Diese Arbeit beinhaltet eine Studie darüber, wie reichhaltig der Wortschatz in den von LLMs generierten Texten ist und welche Faktoren diese Reichhaltigkeit beeinflussen. Eine Methode wird vorgeschlagen, um diese Wortschatzreichhaltigkeit zu bewerten, wobei ChatGPT als Beispiel verwendet wird. Die Ergebnisse zeigen, wie die Wortschatzreichhaltigkeit je nach Version von ChatGPT und dessen Einstellungen, wie der Präsenzstrafe oder der Rolle, die dem Modell zugewiesen wird, variiert. Die in dieser Bewertung verwendeten Werkzeuge und Datensätze sind öffentlich zugänglich, sodass andere die sprachlichen Merkmale von Texten, die von LLMs erstellt wurden, untersuchen können.

Der Aufstieg von ChatGPT und seine Auswirkungen

Als ChatGPT 2022 eingeführt wurde, führte das zu einem schnellen Wachstum in der Nutzung von KI-Tools, die auf grossen Sprachmodellen basieren. Dieser Anstieg hat auch die Entwicklung von LLMs beschleunigt und macht es zu einem wichtigen Fokus für Tech-Unternehmen. Neue Modelle wie Gemini von Google und Grok von xAI sind Beispiele für diesen Trend. Diese Basis-Modelle werden dann feinjustiert, um konversationale Versionen zu erstellen, wie ChatGPT, die Fragen beantworten und Anweisungen befolgen können.

Da die Anzahl der auf LLMs basierenden Tools weiter wächst, wird es entscheidend, zu verstehen, wie gut sie abschneiden. Dieses Verständnis hilft dabei, das richtige Modell für bestimmte Aufgaben auszuwählen und herauszufinden, ob ein Tool für ein bestimmtes Problem geeignet ist. Die Bewertung der Leistung bei verschiedenen Aufgaben ist auch wertvoll, um Schwächen in aktuellen Modellen zu identifizieren und Verbesserungen in zukünftigen Versionen oder neuen Modellen, die von Grund auf neu erstellt werden, zu lenken.

Herausforderungen bei der Bewertung konversationaler LLMs

Die Bewertung konversationaler LLMs bringt Herausforderungen mit sich. Viele Benchmarks sind darauf ausgelegt, die Leistung in einer Vielzahl von Aufgaben und Themen zu messen. Zum Beispiel bewerten umfangreiche Testsets, wie gut diese Modelle Matheprobleme in verschiedenen Fächern mit Tausenden von Fragen lösen. Es gibt auch grosse Benchmarks, die bewerten, wie gut konversationale LLMs verschiedene Themen mit Multiple-Choice-Fragen kennen. Einige Sets decken über 200 unterschiedliche Aufgaben ab. Darüber hinaus gibt es Tests für gesundes Menschenverstand-Argumentation, bei denen Models die beste Option auswählen müssen, um einen Satz zu vervollständigen. In diesen Bewertungen werden die Ergebnisse als Prozentsatz der richtigen Antworten gemessen, wobei die Modelle darauf abzielen, möglichst nahe bei 100% zu landen.

Diese umfassenden Benchmarks können genau messen, wie gut konversationale LLMs bei Aufgaben abschneiden. Allerdings können LLMs mehr als nur Fragen beantworten oder spezifische Probleme lösen; sie werden zunehmend verwendet, um neue Inhalte zu erstellen. Bald könnten KI-generierte Romane oder Lehrbücher wahrscheinlich zur Gewohnheit werden. Diese Texte werden von Menschen gelesen und könnten auch genutzt werden, um neue LLMs zu trainieren, was Auswirkungen auf zukünftige Autoren, sowohl menschliche als auch KI-Autoren, haben könnte. In generativen KI-Modellen wie LLMs kann die Nutzung von KI-generierten Daten für das Training zu Leistungsproblemen führen. Für Menschen formen die Texte, die sie lesen, ihre Sprachfähigkeiten. Daher ist es wichtig zu untersuchen, wie LLMs Sprache und Wortschatz verwenden. Wenn LLMs bestimmte Wörter nicht benutzen, könnten diese Wörter in der Alltagssprache an Frequenz verlieren und schliesslich ganz vergessen werden.

Die Reichhaltigkeit des Wortschatzes in LLMs könnte daher einen erheblichen Einfluss darauf haben, wie sich Sprachen in Zukunft entwickeln.

Schlüsselfragen in der Sprachevaluierung von LLMs

Einige der Schlüsselfragen dazu, wie LLMs Sprache nutzen, wurden von bestehenden Benchmarks nicht angemessen behandelt. Einige Studien haben die sprachlichen Merkmale in Texten untersucht, die von LLMs produziert wurden, und Dinge wie phonologische Verzerrungen analysiert sowie bestimmte Sprachmerkmale oder die Wortschatzreichhaltigkeit zwischen LLMs und menschlichen Autoren verglichen. Allerdings gab es noch keinen umfassenden Versuch, die sprachlichen Merkmale von LLMs in Abhängigkeit von Modelleinstellungen, der Art des generierten Inhalts oder der dem Modell zugewiesenen Rolle zu analysieren.

Zusätzlich gibt es keinen Datensatz, der speziell dafür ausgelegt ist, konversationale LLMs bei der Erstellung verschiedener Textarten zu testen, die ihre sprachlichen Merkmale bewerten könnten. Diese Studie schliesst beide Lücken, indem sie einen einfachen Datensatz erstellt, um die Textgenerierungsfähigkeiten in konversationalen LLMs zu testen und diesen Datensatz verwendet, um zu bewerten, wie die Wortschatzreichhaltigkeit mit verschiedenen LLM-Parametern, wie Temperatur oder Top-Wahrscheinlichkeit, variiert. Die generierten Texte und der Datensatz sind zur öffentlichen Nutzung verfügbar und ermöglichen eine weitere Analyse durch andere Forscher, die sich für die sprachlichen Merkmale von LLM-generierten Inhalten interessieren.

Methodik zur Bewertung der Wortschatzreichhaltigkeit

Um die Wortschatzreichhaltigkeit von ChatGPT zu bewerten, wurde eine Methode namens "Cave Verba" erstellt. Dieser Name stammt von einem lateinischen Satz, der "Hüte dich vor Worten" bedeutet. Er betont die Wichtigkeit von Wörtern in AI-generierten Texten und die Notwendigkeit einer sorgfältigen Untersuchung der Ergebnisse. Der erste Teil dieser Bewertung erklärt das Test-Set, gefolgt von der Testmethode.

Test-Set

Die Tests sind darauf ausgelegt, die Wortschatzreichhaltigkeit umfassend zu bewerten, während angemessene Rechenkosten aufrechterhalten werden. Wichtige Komponenten des Test-Sets beinhalten Aufgaben, Rollen und Parameter.

Aufgaben und Themen

Der erste Schritt im Test-Set besteht darin, die Aufgaben und dazugehörigen Aufforderungen zu definieren. Da der Fokus auf den Merkmalen von LLM-generierten Texten liegt, konzentrieren sich die Tests auf Aufforderungen, die das LLM dazu bringen, neue Inhalte zu erstellen. Ausgewählte Aufgaben für die Tests beinhalten:

  1. Essay Schreiben: Hier wird das LLM gebeten, einen kurzen Aufsatz zu einem gegebenen Thema zu schreiben.
  2. Fragen Beantworten: Das LLM wird aufgefordert, Fragen zu verschiedenen Themen ohne Multiple-Choice-Optionen zu beantworten.

Für das Essay-Schreiben werden zwei verschiedene Sets von Aufforderungen verwendet. Ein Set entspricht den TOEFL Essay-Themen, während das andere aus von The New York Times gesammelten Aufforderungen für argumentative und narrative Schreibaufgaben besteht. Für die Frage-Antwort-Aufgabe werden Teilmengen von 40 Fragen zufällig aus Kategorien wie Medizin, Finanzen und anderen ausgewählt.

Rollen

Um zu untersuchen, wie die dem LLM zugewiesene Rolle die Wortschatzreichhaltigkeit beeinflusst, wurden verschiedene Rollen ausgewählt, von denen erwartet wird, dass sie den Sprachgebrauch und den Wortschatz beeinflussen. Die Rollen wurden basierend auf Faktoren wie Alter, sozialer Klasse und Geschlecht ausgewählt, die den Sprachgebrauch auf verschiedene Weise beeinflussen können.

Die für die Bewertung gewählten Rollen umfassen:

  • Standard: Es wird keine spezifische Rolle zugewiesen.
  • Kind: Antwortet wie ein fünfjähriges Kind.
  • Junger Erwachsener Männlich: Antwortet wie ein junger männlicher Erwachsener.
  • Junge Erwachsene Weiblich: Antwortet wie eine junge weibliche Erwachsene.
  • Älterer Erwachsener Männlich: Antwortet wie ein älterer männlicher Erwachsener.
  • Älterer Erwachsener Weiblich: Antwortet wie eine ältere weibliche Erwachsene.
  • Vermögender Erwachsener Männlich: Antwortet wie ein wohlhabender männlicher Erwachsener.
  • Vermögender Erwachsener Weiblich: Antwortet wie eine wohlhabende weibliche Erwachsene.
  • Niedrigverdienender Erwachsener Männlich: Antwortet wie ein männlicher Erwachsener aus der Unterschicht.
  • Niedrigverdienender Erwachsener Weiblich: Antwortet wie eine weibliche Erwachsene aus der Unterschicht.
  • Gelehrter: Antwortet wie ein hochgebildeter Benutzer der Sprache.

Diese Rollen helfen, aufzuzeigen, wie verschiedene soziale Parameter die Wortschatzreichhaltigkeit von Texten, die von der KI generiert werden, beeinflussen können.

Parameter

Jedes LLM hat einzigartige Hyperparameter, und das Testen muss sich an diese anpassen. In dieser Bewertung lag der Fokus auf gängigen Parametern, die in vielen Modellen, einschliesslich den Produkten von OpenAI, vorkommen. Die wichtigsten über die API zugänglichen Parameter umfassen:

  • Temperatur: Höhere Werte führen zu zufälligeren Ausgaben, während niedrigere Werte zu fokussierteren und vorhersagbareren Generierungen führen.
  • Top-Wahrscheinlichkeit: Dieser Parameter beschränkt die Auswahl auf die wahrscheinlichsten Tokens, basierend auf einer festgelegten Wahrscheinlichkeitsgrenze.
  • Häufigkeitsstrafe: Dieser Parameter bestraft neue Tokens basierend auf ihrer bestehenden Häufigkeit im Text, was hilft, Wiederholungen zu reduzieren.
  • Präsenzstrafe: Ähnlich wie die Häufigkeitsstrafe reduziert dieser Parameter die Wahrscheinlichkeit der Verwendung von Tokens, die bereits im Text aufgetaucht sind.

Zu verstehen, wie diese Parameter die Wortschatzreichhaltigkeit beeinflussen, ist entscheidend für die Bewertung der Sprachverwendung des LLM.

Testverfahren

Der erste Schritt besteht darin, Text mit dem KI-Modell zu generieren, indem ein Skript verwendet wird, um Anfragen an seine Dienste mit den gewünschten Parametern zu stellen. Jede Eingabeaufforderung wird durchgegangen, sodass die Ergebnisse und die verarbeiteten Dateien erfasst werden können, aus denen die Metriken zur Wortschatzreichhaltigkeit berechnet werden.

Die Komponenten, die zur Berechnung der Wortschatzreichhaltigkeit verwendet werden, umfassen vier Metriken. Zwei basieren auf den gesamten Typen und Tokens im Text jeder Kategorie, während die anderen beiden jeden einzelnen Text bewerten und die Ergebnisse mitteln. Die ersten beiden bieten einen breiteren Blick auf die Reichhaltigkeit über das gesamte Textset, während die letzten beiden sich auf individuelle Antworten konzentrieren, um die Einzigartigkeit der Wortschatznutzung hervorzuheben.

Durch die Verwendung des Root Type-Token Ratio (RTTR) und Maas-Metriken helfen diese Berechnungen, die gesamte Wortschatzreichhaltigkeit über alle Texte in einer Kategorie zu bewerten. Die anderen beiden Metriken, Moving Average TTR (MATTR) und Measure of Lexical Diversity (MTLD), bewerten jeden Text separat. Dieser Ansatz stellt sicher, dass die Reichhaltigkeit jedes Essays unabhängig gemessen wird.

Wichtige Einsichten aus den Bewertungsergebnissen

Die Ergebnisse der Bewertungen zur Wortschatzreichhaltigkeit zeigen mehrere wichtige Erkenntnisse darüber, wie verschiedene Faktoren den Sprachgebrauch in LLMs beeinflussen. Es wurde festgestellt, dass:

  1. ChatGPT4 eine grössere Wortschatzreichhaltigkeit zeigt als ChatGPT3.5 in vielen Einstellungen.
  2. Höhere Temperaturwerte und Häufigkeitsstrafen zu ungültigen Texten in bestimmten Bereichen führen können. Das bedeutet, dass die produzierten Texte unsinnvoll werden können, wenn die Einstellungen nicht in einem akzeptablen Bereich liegen.
  3. Temperatur hat einen kleinen positiven Effekt auf die Wortschatzreichhaltigkeit.
  4. Die Wortschatzreichhaltigkeit neigt dazu, bei höheren Präsenzstrafen zu steigen, die die Verwendung neuer Wörter fördern.
  5. Die Top-Wahrscheinlichkeit beeinflusst die Reichhaltigkeit minimal, mit leichten Zuwächsen bei Werten, die nahe eins liegen.
  6. Die Rollenzuweisung beeinflusst die Reichhaltigkeit, insbesondere bei Kindern, während weniger Einfluss bei Alter, Geschlecht oder sozialer Klasse sichtbar ist.
  7. Das Essay-Schreiben führt im Allgemeinen zu einem reichhaltigeren Wortschatz im Vergleich zum Fragen beantworten.

Diese Erkenntnisse können den Benutzern helfen, Modelleinstellungen auszuwählen, um die Wortschatzreichhaltigkeit zu steuern, und ihnen helfen zu verstehen, wie unterschiedliche Einstellungen die Qualität der generierten Texte beeinflussen können.

Fazit und zukünftige Forschungsrichtungen

Diese Bewertung hat gezeigt, wie verschiedene Einstellungen die Wortschatzreichhaltigkeit in den von ChatGPT produzierten Texten beeinflussen. Die Entwicklung eines Datensatzes, der verschiedene Aufgaben und Rollen erprobt, hilft, die Beziehung zwischen Modelleinstellungen und Sprachgebrauch in KI-generierten Inhalten zu beleuchten.

Die Ergebnisse heben hervor, dass bestimmte Parameter wie die Präsenzstrafe die Wortschatzreichhaltigkeit positiv beeinflussen können, während andere in bestimmten Bereichen ungültige Ausgaben produzieren können. Insgesamt ist die Wortschatzreichhaltigkeit in Essays grösser als in Antworten auf Fragen.

Ausserdem scheint der Einfluss von Faktoren wie sozialer Klasse, Alter und Geschlecht auf den Sprachgebrauch in vielen Fällen minimal zu sein, es sei denn, man engagiert sich in einer Kinderrolle. Die gemischten Ergebnisse für die gelehrte Rolle deuten auf eine gewisse Komplexität hin, wie verschiedene Arten von Aufforderungen die Sprachreichhaltigkeit beeinflussen können.

Diese Methodik legt den Grundstein für weitere Forschungen zur Wortschatzreichhaltigkeit anderer LLMs und bietet letztlich ein breiteres Verständnis dafür, wie verschiedene Sprachmodelle mit Wortschatz interagieren. Der geteilte Datensatz ermöglicht zukünftige Studien, diese Merkmale weiter zu analysieren, und verbessert unser Verständnis über KI in der Sprachgenerierung.

Originalquelle

Titel: Beware of Words: Evaluating the Lexical Richness of Conversational Large Language Models

Zusammenfassung: The performance of conversational Large Language Models (LLMs) in general, and of ChatGPT in particular, is currently being evaluated on many different tasks, from logical reasoning or maths to answering questions on a myriad of topics. Instead, much less attention is being devoted to the study of the linguistic features of the texts generated by these LLMs. This is surprising since LLMs are models for language, and understanding how they use the language is important. Indeed, conversational LLMs are poised to have a significant impact on the evolution of languages as they may eventually dominate the creation of new text. This means that for example, if conversational LLMs do not use a word it may become less and less frequent and eventually stop being used altogether. Therefore, evaluating the linguistic features of the text they produce and how those depend on the model parameters is the first step toward understanding the potential impact of conversational LLMs on the evolution of languages. In this paper, we consider the evaluation of the lexical richness of the text generated by LLMs and how it depends on the model parameters. A methodology is presented and used to conduct a comprehensive evaluation of lexical richness using ChatGPT as a case study. The results show how lexical richness depends on the version of ChatGPT and some of its parameters, such as the presence penalty, or on the role assigned to the model. The dataset and tools used in our analysis are released under open licenses with the goal of drawing the much-needed attention to the evaluation of the linguistic features of LLM-generated text.

Autoren: Gonzalo Martínez, José Alberto Hernández, Javier Conde, Pedro Reviriego, Elena Merino

Letzte Aktualisierung: 2024-02-11 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2402.15518

Quell-PDF: https://arxiv.org/pdf/2402.15518

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel