思考のグラフで言語モデルの推論を強化する
新しいアプローチが、構造的思考を通じて言語モデルの論理能力を向上させる。
― 1 分で読む
目次
最近の大規模言語モデルの進展、例えばGPT-4は、シンプルな質問にはうまく対応できることが分かってきた。でも、段階的な論理的思考が必要な複雑な問題には苦労してる。この論文では、これらのモデルの論理的能力を向上させる新しい方法について話すよ。
現在の課題
大規模言語モデルは膨大な情報があるから、たくさんの答えを出せるけど、深い推論が必要なタスクでは課題がある。最新のモデルでも多段階の問題ではその限界が目立つ。いくつかの研究は、さまざまなプロンプト技術を使ってこれらの推論スキルを改善しようとしていて、中には他よりもいい結果を出しているものもある。
よく知られている手法の一つが「思考の木」と呼ばれるもので、論理的推論タスクではそこそこ成功してるけど、人間のパフォーマンスにはまだ及ばない。例えば、4つの数字を使って24を計算する人気のゲームでは、最良の方法でも人間の論理力には及ばない。
思考のグラフ
新しい方法の紹介:こうした課題を受けて、新しいアプローチ「思考のグラフ」を提案するよ。この方法は、人間が問題を考えるプロセスからインスパイアされてる。例えば、数学者がゴルドバッハの予想みたいな問題を解くとき、全ての手法をリストアップするんじゃなくて、解に関連する重要なアイデアに焦点を当てる。
このアプローチでは、モデルがアイデアの間でより良い関係を構築できる新しい思考構造を導入する。これには主に3つの革新がある:
グラフ構造:異なるアイデアの関係を点(ノード)として示し、線(エッジ)で繋いだグラフを作る。これにより、モデルは複雑な関係を理解しやすくなる。
チェックメカニズム:正確性を保証するために、候補となる答えを再確認するプロセスを実施する。これには、異なる答えの可能性を推定し、最も信頼性の高いものを選ぶ。
簡単なグラフ更新:モデルが問題を解く過程で、新しい洞察を迅速に思考過程に追加できるようにする。これにより、以前のステップをすべて覚えておく必要が減る。
思考のグラフの仕組み
この方法は、最終目標から始まる。異なるアイデアを表すノードとその接続を含む有向グラフを構築する。いくつかのノードは、すべての道がクリアでないと結果を返さないけど、他のノードは繋がったポイントからでも返すことができる。
グラフを辿る中で、検証された関連する思考を追加していく。解に繋がる新しいアイデアが出てきたら、モデルの理解に組み込まれる。
他の方法との比較
我々の方法は、複雑さが増す3つのタスクでテストした:
24ポイントゲーム:このゲームでは、プレイヤーは4つの数字と基本的な数学演算を使って24に到達する。テストの結果、我々の方法は既存のアプローチを上回る結果を出した。
高次方程式の解法:これらの方程式は複雑で、簡単な解がないことが多い。我々の方法は解を見つけるだけでなく、従来の方法よりも良いアプローチを提供した。
数列の公式導出:このタスクは特定の数列の一般的な公式を見つけることだった。我々の方法は再度強いパフォーマンスを示し、新しい洞察が出るにつれて適応した。
実験結果
さまざまなテストを通じて、我々の新しい方法「思考のグラフ」によってモデルの正確性が大幅に向上したことを観察した。24ポイントゲームでは、我々の方法が人間の論理力に近い結果を出し、複雑な多項式方程式や再帰的な数列についても、チェックがモデルが提供する答えの信頼性を向上させる手助けをした。
結論
この研究では、大規模言語モデルの推論スキルを向上させるための新しい方法「思考のグラフ」を紹介した。構造化されたグラフを使って異なるアイデアのつながりを構築し、結論の正確性を検証するアプローチだ。さまざまなタスクでの結果は大きな改善を示していて、モデルが複雑な問題により効果的に取り組むためのこの新しい方法の有効性を強調している。
タイトル: Boosting Logical Reasoning in Large Language Models through a New Framework: The Graph of Thought
概要: Recent advancements in large-scale models, such as GPT-4, have showcased remarkable capabilities in addressing standard queries. However, when facing complex problems that require multi-step logical reasoning, their accuracy dramatically decreases. Current research has explored the realm of \textit{prompting engineering} to bolster the inferential capacities of these models. Our paper unveils a pioneering prompting technique, dubbed \textit{Graph of Thoughts (GoT)}. Through testing on a trio of escalating challenges: the 24-point game, resolution of high-degree polynomial equations, and derivation of formulas for recursive sequences, our method outperformed GPT-4, achieving accuracy improvements of $89.7\%$, $86\%$, and $56\%$ for each respective task. Moreover, when juxtaposed with the state-of-the-art (SOTA) prompting method, \textit{Tree of Thought (ToT)}, our approach registered an average accuracy boost of $23\%$, $24\%$, and $15\%$.
著者: Bin Lei, pei-Hung Lin, Chunhua Liao, Caiwen Ding
最終更新: 2023-08-16 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.08614
ソースPDF: https://arxiv.org/pdf/2308.08614
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。