接続ゲームでの言語モデルの評価
大規模言語モデルの単語グルーピング課題におけるパフォーマンスに関する研究。
― 1 分で読む
言葉遊びは、私たちの考え方や言語スキルを試すよね。そんなゲームの一つが「Connections」で、これはニューヨークタイムズが作ったんだ。プレイヤーは、共通の特徴に基づいて言葉をカテゴリーに分けるのが求められる。このゲームは2023年6月に始まって以来人気が出てきて、カジュアルなプレイヤーから言葉パズルが好きな人まで幅広く楽しまれてる。
この研究では、大規模な言語モデル(LLM)がこのゲームでどれだけ人間のプレイヤーと比べてうまくできるかを見ていくよ。200回のConnectionsのデータを集めて、LLMのパフォーマンスと初心者(新しい人)やエキスパート(常連の人)との比較をするんだ。
Connectionsゲームって?
Connectionsは16個の言葉が並んだグリッドを出して、プレイヤーに4つの異なるグループを見つけるよう挑戦するゲームだよ。それぞれのグループには4つの言葉が入ってて、意味や使い方が共通している必要がある。ゲームは簡単なレベルだけじゃなくて、即座には明らかにならないような難しいカテゴリーも含まれてる。例えば、同じ言葉が複数の意味に当てはまる場合もあって、それがまた難しさを増す。
プレイヤーは、創造的に考えたり色々な知識を使ったりしなきゃ成功できないゲームなんだ。言葉にはトリックがあって、見た目に合っているように見えても実は違うカテゴリーに属していることもある-これを「レッドヘリング」って呼ぶよ。例えば、「Likes」「Followers」「Shares」「Insult」って言葉は最初はソーシャルメディアのカテゴリーに見えるかもしれないけど、真のカテゴリーを見つけるにはもっと深い考えが必要なんだ。
LLMの評価
この研究の目的は、LLMがConnectionsをプレイするのに必要な抽象的な論理的思考をどれだけうまく扱えるかを評価することだよ。最先端なLLM、Gemini 1.5 Pro、Claude 3 Opus、GPT-4o、Llama 3 70Bの4つをテストしたんだ。パフォーマンスを測るために、彼らのスコアを人間のプレイヤーと比べたよ。
言語を効果的に処理するように設計されているにもかかわらず、最も優れたLLMであるGPT-4oでも、ゲームを完全に解決できたのはたった8%だった。対照的に、エキスパートの人間プレイヤーはもっと多くのゲームを正しく解決してた。これを見ると、LLMは特定のタスクをうまくこなせるけど、人間のような抽象的な思考を必要とするタスクにはまだ苦労してるってわかるよ。
プレイに必要な知識の種類
成功したプレイヤーは、Connectionsで言葉をカテゴライズするためにいろんな種類の知識を使わなきゃいけない。それをいくつかのカテゴリーに分けてみた:
意味知識:言葉の意味や互いの関係を理解することが含まれてる。プレイヤーはシノニムや一般的な用語と特定のインスタンス、複数の意味を持つ言葉について知ってる必要がある。
関連知識:言葉の定義によって直接関係していない言葉同士のつながりを認識すること。プレイヤーは共通のテーマや含意に基づいて言葉をグループ化することが必要な場合もある。
百科事典的知識:単純な定義を超えた知識が必要な言葉もあって、実世界の実体、出来事、概念への言及を理解しなきゃいけない。例えば、「Jack Black」は俳優を指し、「Jack Frost」は民話のキャラクターだってことを知っておくことが重要だよ。
複数語の表現:プレイヤーは複数の言葉が共通のフレーズを作れることを理解しなきゃいけない。それらのフレーズがどう機能するかを理解するには、言語の使い方に慣れておく必要がある。
言語知識:これは言語自体のルールやパターン、文法や音のパターン、単語の形成に関することだよ。
複合知識:難しいカテゴリーの中には、上記の知識の混合が必要なものもあって、これが特に難しいカテゴリーになってる。
人間とLLMのパフォーマンス
LLMの効果をより理解するために、彼らのパフォーマンスと初心者とエキスパートの人間プレイヤーの比較をしたよ。ボランティアのグループを集めて、彼らにゲームをプレイしてもらい、言葉をカテゴライズしてもらった。
初心者プレイヤー
初心者の人間プレイヤーは、ConnectionsゲームでGPT-4oより少しだけ良いパフォーマンスを発揮したよ。彼らの平均的な非加重クラスタリングスコアは高くて、モデルより言葉を成功裏にグループ化できたってことになる。
エキスパートプレイヤー
エキスパートプレイヤーは初心者の人間やLLMを大きく上回った。彼らは常に高いスコアを出していて、ゲームやその難しさに対する深い親しみがパフォーマンスを大いに向上させるってことを示してる。例えば、エキスパートプレイヤーは60%以上のゲームを完全に解決できたのに対し、GPT-4oはたった5%だった。
LLMが直面した課題
私たちの分析で、LLMは特定の種類の論理に特に苦労していることがわかった。基本的な意味知識にはうまく対応するけど、複数語の表現や複合知識のカテゴリーを認識するのは難しいみたい。これは、彼らが個々の言葉を効率的に処理できる一方で、広い文脈や深い関係を理解するのはもっと複雑だってことを示してる。
レッドヘリングの役割
Connectionsには難易度を上げるレッドヘリングが含まれてるよ。これらは、カテゴリーに入っているように見えるけど実際にはそうじゃない言葉なんだ。例えば、ある言葉のグループがクリスマスに関連しているように見えても、1つの言葉が別の文脈に属している場合、それを分けるには慎重な考えが必要になるよ。
LLMも人間プレイヤーも、レッドヘリングが存在するカテゴリーでより多くのミスをしていることがわかった。これは、誤った方向に誘導されることでパフォーマンスが大きく妨げられる可能性があることを示唆してる。特にLLMは、レッドヘリングが含まれているときに正しいつながりを見つけるのに苦労することが多かった。
推論と正当化
評価の一環として、LLMがどれだけ自分の推論を説明できるかも見たよ。ある成功したグループ化については、時々正しくないか不明確な理由を提示することがあった。
例えば、LLMが言葉を正しくグループ化することができても、その理由を説明するのがうまくいかないことがある。このギャップは、単に言葉をカテゴライズする方法だけでなく、そのカテゴライズがなぜ意味を持つのかを理解することの重要性を際立たせてる。
今後の方向性
将来的にLLMがConnectionsのようなタスクに備えるためには、より焦点を絞ったトレーニングが役立つかもしれない。例えば、他の言葉と合わない言葉を特定する(レッドヘリング)ことや、グループ化についてリアルタイムでフィードバックを受けることがパフォーマンスを改善する可能性がある。
また、ゲームを模倣した合成データでのトレーニングも、人間のエキスパートとLLMのギャップを埋めるのに役立つかもしれない。ゲーム環境をシミュレートして、LLMが自分同士でプレイできるようにすることで、パフォーマンスを向上させる結果を引き出せるかもしれない。
結論
ニューヨークタイムズのConnectionsゲームを使って、LLMと人間プレイヤーを評価してみると、これらのモデルは言語を処理する強力なツールだけど、抽象的な推論能力にはまだ不足があるってわかるよ。ゲームで成功するために必要な知識の深さや異なる推論の種類が改善が必要な領域を示してる。
もっとトレーニングと良いデータがあれば、LLMが抽象的な推論タスクで能力を向上させる可能性がある。でも今のところ、エキスパートの人間プレイヤーがLLMを大きく上回っていて、理解や推論が人工知能にとって複雑な課題であることを示してる。
タイトル: Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game
概要: The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 438 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best performing LLM, Claude 3.5 Sonnet, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 18% of the games. Novice and expert players perform better than Claude 3.5 Sonnet, with expert human players significantly outperforming it. We create a taxonomy of the knowledge types required to successfully cluster and categorize words in the Connections game. We find that while LLMs perform relatively well on categorizing words based on semantic relations they struggle with other types of knowledge such as Encyclopedic Knowledge, Multiword Expressions or knowledge that combines both Word Form and Meaning. Our results establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in AI systems.
著者: Prisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan
最終更新: 2024-10-13 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.11012
ソースPDF: https://arxiv.org/pdf/2406.11012
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。