Die Bewertung von ChatGPTs Leistung in Textspielen
Das Testen von ChatGPTs Fähigkeiten durch das klassische Textspiel Zork zeigt wichtige Einschränkungen auf.
― 6 min Lesedauer
Inhaltsverzeichnis
Kürzlich haben grosse Sprachmodelle (LLMs) wie ChatGPT gezeigt, dass sie ziemlich gut mit Menschen quatschen können. Wir wollten aber mal schauen, wie gut sie bei Textspielen sind. In diesen Spielen müssen die Spieler ihre Umgebung verstehen und auf verschiedene Situationen durch Text reagieren.
In unseren Tests haben wir festgestellt, dass ChatGPT besser abschneidet als ältere Systeme, aber bei Textspielen nicht wirklich intelligent ist. Zum Beispiel hat es Schwierigkeiten, ein Weltmodell basierend auf dem Spiel oder sogar dem Handbuch zu erstellen. Oft nutzt es das Wissen, das es schon hat, nicht gut und kann die Ziele jeder Aktion während des Spiels nicht herausfinden.
Warum sind Spiele wichtig für KI?
Spiele spiegeln das echte Leben in vielerlei Hinsicht wider. Sie beinhalten das Setzen von Zielen, Entscheidungen treffen, Herausforderungen überwinden und mit der Welt interagieren. Wegen dieser Ähnlichkeiten sind Spiele super, um den Fortschritt in der künstlichen Intelligenz (KI) zu testen. Indem man vergleicht, wie KI-Systeme in Spielen gegen menschliche Spieler abschneiden, können Forscher die Fähigkeiten dieser Systeme sinnvoll bewerten.
In der Geschichte der KI gab es viele bedeutende Momente, die mit Spielen verbunden sind. Einer der bekanntesten ist, als IBMs Schachprogramm Deep Blue 1997 den Weltmeister Garry Kasparov besiegte. Dieses Match war das erste Mal, dass ein Computer gegen einen menschlichen Weltmeister in normalen Zeitkontrollen gewonnen hat.
Ein weiterer wichtiger Moment war 2016, als Googles DeepMind AlphaGo den professionellen Go-Spieler Lee Sedol besiegte. Das war das erste Mal, dass ein Computer einen Spieler auf Top-Niveau ohne Vorteile besiegt hat. Auch Spiele wie Poker und Dota 2 wurden von KI erobert, was ihre wachsenden Fähigkeiten zeigt.
Kürzlich haben Modelle wie ChatGPT und GPT-4 Diskussionen in der Forschungsgemeinschaft angestossen. Manche glauben, dass diese Modelle uns näher an allgemeine künstliche Intelligenz (AGI) bringen, während andere denken, dass sie nur Sprache nachahmen, ohne wirklich zu verstehen. Diese Debatten haben uns dazu angeregt, LLMs zu testen und ihre Grenzen beim Spielen von Textspielen zu betrachten.
Eine Fallstudie: ChatGPT spielt Zork
Um weiter zu untersuchen, haben wir beschlossen, ChatGPT mit dem klassischen Textspiel Zork I zu testen. Dieses Spiel wurde in den 1970er Jahren veröffentlicht und handelt davon, eine fiktive Unterwelt nach Schätzen zu erkunden. Die Spieler geben Textbefehle, um zwischen Orten zu wechseln und mit Objekten zu interagieren. Das Spiel beschreibt, was der Spieler sieht und was passiert, während er Entscheidungen trifft.
In unseren Tests agierte ein menschlicher Spieler als Verbindung zwischen ChatGPT und dem Spiel. Der Spieler übermittelte ChatGPT den aktuellen Stand des Spiels, bat es, eine legale Aktion auszuführen, und schickte ChatGPTs Aktion dann zurück ins Spiel.
Am Anfang gibt das Spiel eine Beschreibung der Umgebung, wie "westlich des Hauses." Von dort aus kann der Spieler zwischen Optionen wie "Briefkasten öffnen", "nördlich", "südlich" oder "westlich" wählen.
Als wir ChatGPT fragten, welche Aktion es durchführen sollte, schlug es vor, den Briefkasten zu öffnen, was eine gute Wahl war. Das zeigte, dass ChatGPT ein gewisses Verständnis für das Spiel hatte. Wir fragten uns jedoch, ob es schon wusste, wie man Zork spielt, da es ein bekanntes Spiel ist.
Als wir nach Zork I fragten, gab ChatGPT eine grundlegende Beschreibung, aber es begann, Details durcheinanderzubringen und falsche Szenarien zu erstellen, als wir es nach einem vollständigen Durchlauf des Spiels fragten. Das deutete darauf hin, dass es zwar ein gewisses Verständnis hatte, das Spiel jedoch nicht vollständig begriff oder sich an die Details erinnerte.
Ein Weltmodell lernen
Als Nächstes wollten wir herausfinden, ob ChatGPT ein Weltmodell entwickeln könnte, indem es den richtigen Durchlauf von Zork liest. Weltmodelle gelten als Schlüssel zur Erreichung von menschenähnlicher Intelligenz.
Wir begannen, den Durchlauf in ChatGPT einzugeben und baten es, eine Karte des Spiels basierend auf den Informationen zu zeichnen. ChatGPT entschuldigte sich dafür, dass es keine visuelle Karte erstellen konnte, bot aber an, während des Spiels Informationen festzuhalten.
Als wir mehr Details über das Spiel teilten, begannen wir, ChatGPT Fragen zu den Orten und möglichen Bewegungen zu stellen. Anfangs beantwortete es einige Fragen richtig. Bei einfachen Fragen schnitt es ganz gut ab, aber bei komplexeren, mehrstufigen Fragen tat es sich schwer.
Zum Beispiel, als es darum ging, wie man Ziele basierend auf der Karte erreicht, stützte es sich oft auf einfaches Memorieren, anstatt das Layout des Spiels zu verstehen.
Ziele ableiten
Wir haben auch getestet, ob ChatGPT Ziele ableiten kann, während es das Spiel spielt. In Spielen kann ein Ziel alles Mögliche sein, von Schätzen sammeln bis Rätsel lösen. Menschen finden diese Ziele normalerweise leicht heraus, während sie das Spiel erkunden.
Als wir fragten, was das aktuelle Ziel im Spiel war, gab ChatGPT oft sofortige Aktionen anstatt das grössere Ziel. Zum Beispiel könnte es vorschlagen, ein Objekt zu untersuchen, anstatt zu sagen, das ultimative Ziel sei, zu erkunden und Gegenstände zu sammeln.
Interessanterweise fiel es ChatGPT schwer, im Laufe des Spiels sinnvolle Ideen für Ziele zu entwickeln. In vielen Fällen waren seine Antworten mehr auf unmittelbare Aktionen ausgerichtet als auf das Gesamtbild. Das zeigt eine Einschränkung seiner Fähigkeit, strategisch über das Spiel nachzudenken.
Zork als Testfeld
Nach unserer Untersuchung von Zork wurde klar, dass dieses Textspiel eine gute Möglichkeit bietet, LLMs zu testen. Sie stehen vor Herausforderungen beim Spielen solcher Spiele, die Verbesserungen in der Intelligenz erfordern, um erfolgreich zu sein.
Um ChatGPT mit anderen Systemen zu vergleichen, haben wir es so eingerichtet, dass es Zork unter einer strukturierten Kommunikationsmethode spielt, was es ChatGPT erleichterte, angemessen zu reagieren. Unsere Tests zeigten, dass ChatGPT ganz vernünftig abschnitt, aber immer noch hinter fortschrittlicheren Systemen zurückblieb, die speziell auf Zork trainiert waren.
In einem Experiment erzielte ChatGPT 10 Punkte, ähnlich wie ein einfaches System, das einfache Regeln ohne jegliches Training in Spieleinteraktionen verwendete. Fortgeschrittenere Systeme übertrafen ChatGPT um ein Vielfaches, da sie den Vorteil hatten, Zork tausende Male gespielt zu haben.
Selbst mit Anleitung tat sich ChatGPT manchmal schwer, gültige Aktionen auszuwählen und machte stattdessen irrelevante Kommentare. Mit Erinnerungen an vorherige Aktionen verbesserte sich allerdings seine Leistung leicht, blieb aber trotzdem weit von ideal entfernt.
Die Zukunft der LLMs in Textspielen
Insgesamt zeigen unsere Tests, dass ChatGPT zwar gut kommunizieren kann und sogar bis zu einem gewissen Grad Spiele spielen kann, es jedoch an einigen der grundlegenden Merkmale von Intelligenz mangelt. Diese Einschränkungen werfen Fragen zur Zukunft der LLMs auf, während sie grösser und fortschrittlicher werden.
Als Forscher sind wir optimistisch, dass in zukünftigen Modellen einige intelligente Eigenschaften entstehen könnten. Benchmarks zu etablieren, um diese Fähigkeiten im Laufe der Zeit zu bewerten, wird helfen, Fortschritte in der KI und ihre Fähigkeit, komplexe Spiele zu spielen, nachzuvollziehen.
Während LLMs weiter wachsen, wird die Nutzung von Textspielen wie Zork ein zuverlässiges Mittel bleiben, um ihre Fähigkeiten zu bewerten und bei der Entwicklung besserer KI-Systeme zu helfen.
Titel: Can Large Language Models Play Text Games Well? Current State-of-the-Art and Open Questions
Zusammenfassung: Large language models (LLMs) such as ChatGPT and GPT-4 have recently demonstrated their remarkable abilities of communicating with human users. In this technical report, we take an initiative to investigate their capacities of playing text games, in which a player has to understand the environment and respond to situations by having dialogues with the game world. Our experiments show that ChatGPT performs competitively compared to all the existing systems but still exhibits a low level of intelligence. Precisely, ChatGPT can not construct the world model by playing the game or even reading the game manual; it may fail to leverage the world knowledge that it already has; it cannot infer the goal of each step as the game progresses. Our results open up new research questions at the intersection of artificial intelligence, machine learning, and natural language processing.
Autoren: Chen Feng Tsai, Xiaochen Zhou, Sierra S. Liu, Jing Li, Mo Yu, Hongyuan Mei
Letzte Aktualisierung: 2023-04-06 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2304.02868
Quell-PDF: https://arxiv.org/pdf/2304.02868
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/simple-noprev.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/chatgpt-know-zork.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/chatgpt-say-walkthrough.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/chatgpt-read-walkthrough.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/world-model-questions.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/navigation-questions.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/infer-goals.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/simple-prev.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/guidance-noprev.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/guidance-prev.pdf