Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz

Evaluierung von Sprachmodellen im Connections-Spiel

Eine Studie über die Leistung von grossen Sprachmodellen bei Wortgruppen-Herausforderungen.

― 6 min Lesedauer


LLMs haben Probleme mitLLMs haben Probleme mitdem Verbindungs-Spiel.Wortkategorisierung zu erreichen.menschliches Denken bei derSprachmodelle schaffen es nicht,
Inhaltsverzeichnis

Wortspiele fordern unser Denken und unsere Sprachfähigkeiten heraus. Ein solches Spiel ist Connections, das von der New York Times erstellt wurde. Es fordert die Spieler auf, Wörter basierend auf gemeinsamen Eigenschaften in Kategorien zu gruppieren. Dieses Spiel hat seit seiner Einführung im Juni 2023 an Beliebtheit gewonnen und zieht sowohl Gelegenheitsspieler als auch Liebhaber von Wortpuzzles an.

In dieser Studie schauen wir uns an, wie gut grosse Sprachmodelle (LLMs), die fortschrittliche KI-Systeme sind, in diesem Spiel im Vergleich zu menschlichen Spielern abschneiden. Wir haben Daten aus 200 Connections-Spielen gesammelt, um die Leistung der LLMs mit der von Anfängern (neuen) und Experten (regelmässigen) menschlichen Spielern zu vergleichen.

Was ist das Connections-Spiel?

Connections präsentiert ein Gitter mit 16 Wörtern und fordert die Spieler heraus, vier verschiedene Gruppen mit jeweils vier Wörtern zu finden. Diese Gruppen müssen etwas gemeinsam haben, wie ihre Bedeutung oder Verwendung. Das Spiel stellt die Spieler nicht nur auf einer einfachen Ebene vor Herausforderungen, sondern beinhaltet auch schwierige Kategorien, in denen die Verbindungen nicht sofort offensichtlich sind. Zum Beispiel könnten einige Kategorien Wörter beinhalten, die mehrere Bedeutungen haben, was die Herausforderung erhöht.

Die Spieler müssen kreativ denken und unterschiedliche Arten von Wissen nutzen, um in diesem Spiel erfolgreich zu sein. Wörter können tricky sein, weil manche zwar zusammenpassen scheinen, aber tatsächlich zu verschiedenen Kategorien gehören – diese nennt man rote Heringen. Zum Beispiel könnten die Wörter „Likes“, „Followers“, „Shares“ und „Insult“ zuerst in eine Social-Media-Kategorie zu passen scheinen, aber die wahren Kategorien zu finden, erfordert tieferes Nachdenken.

Bewertung der LLMs

Ziel dieser Forschung ist es, zu bewerten, wie gut LLMs das abstrakte Denken meistern können, das für das Spielen von Connections nötig ist. Wir haben vier hochmoderne LLMs getestet: Gemini 1.5 Pro, Claude 3 Opus, GPT-4o und Llama 3 70B. Um ihre Leistung zu messen, haben wir ihre Punkte mit denen von menschlichen Spielern verglichen.

Trotz ihrer effektiven Sprachverarbeitung haben wir herausgefunden, dass sogar das leistungsstärkste LLM, GPT-4o, nur 8% der Spiele vollständig gelöst hat. Im Gegensatz dazu haben erfahrene menschliche Spieler deutlich mehr Spiele korrekt gelöst. Das zeigt, dass LLMs zwar bestimmte Aufgaben gut erledigen können, aber immer noch Schwierigkeiten mit Aufgaben haben, die mehr abstraktes Denken erfordern, ähnlich wie Menschen denken.

Arten von Wissen, die man zum Spielen braucht

Erfolgreiche Spieler müssen verschiedene Arten von Wissen nutzen, um Wörter in Connections zu kategorisieren. Wir haben die benötigten Wissensarten in mehrere Kategorien unterteilt:

  1. Semantisches Wissen: Das beinhaltet das Verständnis der Bedeutungen von Wörtern und wie sie miteinander in Beziehung stehen. Spieler müssen über Synonyme, den allgemeinen Begriff und spezifische Beispiele sowie über Wörter mit mehreren Bedeutungen Bescheid wissen.

  2. Assoziatives Wissen: Das bedeutet, Verbindungen zwischen Wörtern zu erkennen, die nicht direkt durch ihre Definitionen miteinander verbunden sind. Spieler müssen möglicherweise Wörter basierend auf gemeinsamen Themen oder Konnotationen gruppieren.

  3. Enzyklopädisches Wissen: Manche Wörter erfordern Wissen über einfache Definitionen hinaus; Spieler müssen Referenzen zu realen Entitäten, Ereignissen oder Konzepten verstehen. Zum Beispiel, dass „Jack Black“ sich auf einen Schauspieler bezieht und „Jack Frost“ eine Figur aus der Folklore ist, ist entscheidend.

  4. Multiwortausdrücke: Spieler müssen oft erkennen, dass mehrere Wörter einen gemeinsamen Ausdruck bilden können. Zu verstehen, wie diese Ausdrücke funktionieren, erfordert Vertrautheit mit der Sprachverwendung.

  5. Linguistisches Wissen: Das bezieht sich auf die Regeln und Muster der Sprache selbst, wie Grammatik, Klangmuster oder Wortbildung.

  6. Kombiniertes Wissen: Einige der schwierigsten Kategorien erfordern eine Mischung der oben genannten Wissensarten, was diese Kategorien besonders schwer zu sortieren macht.

Leistung von Menschen vs. LLMs

Um die Effektivität von LLMs besser zu verstehen, haben wir ihre Leistung mit der von Anfängern und Experten menschlichen Spielern verglichen. Wir haben Gruppen von Freiwilligen versammelt, die das Spiel gespielt haben und gebeten wurden, die Wörter genau wie die LLMs zu kategorisieren.

Anfänger

Anfänger menschlicher Spieler konnten in der Lösung der Connections-Spiele etwas besser abschneiden als GPT-4o. Ihre durchschnittliche ungewichtete Clusterpunktzahl war höher, was bedeutet, dass sie Wörter erfolgreicher gruppieren konnten als das Modell.

Experten

Expertenspieler haben sowohl die Anfänger als auch die LLMs deutlich übertroffen. Sie erzielten durchweg höhere Punktzahlen, was zeigt, dass eine tiefere Vertrautheit mit dem Spiel und seinen Herausforderungen die Leistung erheblich steigert. Zum Beispiel konnten Experten über 60% der Spiele vollständig lösen, während GPT-4o nur 5% schaffte.

Herausforderungen für LLMs

Unsere Analyse hat gezeigt, dass LLMs insbesondere mit bestimmten Arten von Denken zu kämpfen haben. Sie schneiden gut bei einfachem semantischen Wissen ab, haben aber Schwierigkeiten, Multiwortausdrücke und kombinierte Wissenskategorien zu erkennen. Das deutet darauf hin, dass sie zwar einzelne Wörter effizient verarbeiten können, das Verständnis des breiteren Kontexts oder tieferer Beziehungen für sie komplexer ist.

Die Rolle der roten Heringe

Connections beinhaltet rote Heringe, die eine zusätzliche Schwierigkeitsebene hinzufügen. Das sind Wörter, die zwar in eine Kategorie zu passen scheinen, es aber nicht tun. Wenn zum Beispiel eine Gruppe von Wörtern scheinbar mit Weihnachten zu tun hat, aber ein Wort in einen anderen Kontext gehört, erfordert das Trennen ein sorgfältiges Nachdenken.

Sowohl LLMs als auch menschliche Spieler haben in Kategorien, in denen rote Heringe vorhanden waren, mehr Fehler gemacht, was darauf hindeutet, dass Fehlleitungen die Leistung erheblich beeinträchtigen können. Besonders LLMs hatten oft Schwierigkeiten, die richtigen Verbindungen zu finden, wenn rote Heringe enthalten waren.

Denken und Begründungen

Im Rahmen unserer Bewertung haben wir auch geprüft, wie gut LLMs ihr Denken erklären konnten. Für bestimmte erfolgreiche Gruppierungen gaben sie manchmal trotzdem falsche oder unklare Gründe für ihre Entscheidungen an.

Zum Beispiel könnte ein LLM Wörter korrekt gruppieren, aber nicht erklären, warum sie zusammenpassen. Diese Lücke zeigt, wie wichtig es ist, nicht nur zu verstehen, wie man Wörter kategorisiert, sondern auch, warum diese Kategorisierungen Sinn machen.

Zukünftige Richtungen

Um LLMs besser auf Aufgaben wie Connections vorzubereiten, schlagen wir vor, dass sie von gezielterem Training profitieren könnten. Strategien wie das Identifizieren von Wörtern, die nicht zu anderen passen (rote Heringe), und das Erhalten von Echtzeit-Feedback zu Gruppierungen könnten ihre Leistung verbessern.

Zusätzlich könnte das Training mit synthetischen Daten, die das Spiel nachahmen, die Kluft zwischen menschlichen Experten und LLMs überbrücken. Indem wir die Spielumgebung simulieren und LLMs gegen sich selbst spielen lassen, könnten wir die Leistungsergebnisse steigern.

Fazit

Bei der Bewertung von LLMs im Vergleich zu menschlichen Spielern mit dem New York Times Connections-Spiel stellen wir fest, dass diese Modelle zwar leistungsstarke Werkzeuge zur Sprachverarbeitung sind, ihre Fähigkeiten im abstrakten Denken jedoch noch unzureichend sind. Die Tiefe des Wissens und die verschiedenen Arten von Denken, die erforderlich sind, um im Spiel erfolgreich zu sein, zeigen Verbesserungsbedarf.

Mit mehr Training und besseren Daten könnte es möglich sein, dass LLMs ihre Fähigkeiten in Aufgaben des abstrakten Denkens verbessern. Doch momentan übertreffen erfahrene menschliche Spieler LLMs erheblich, was zeigt, dass Verständnis und Denken komplexe Herausforderungen für künstliche Intelligenz bleiben.

Originalquelle

Titel: Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game

Zusammenfassung: The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 438 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best performing LLM, Claude 3.5 Sonnet, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 18% of the games. Novice and expert players perform better than Claude 3.5 Sonnet, with expert human players significantly outperforming it. We create a taxonomy of the knowledge types required to successfully cluster and categorize words in the Connections game. We find that while LLMs perform relatively well on categorizing words based on semantic relations they struggle with other types of knowledge such as Encyclopedic Knowledge, Multiword Expressions or knowledge that combines both Word Form and Meaning. Our results establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in AI systems.

Autoren: Prisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan

Letzte Aktualisierung: 2024-10-13 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2406.11012

Quell-PDF: https://arxiv.org/pdf/2406.11012

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel