MathBenchを紹介するよ:数学におけるLLMの新しいベンチマークだよ。
MathBenchは、さまざまな教育段階でのLLMの数学能力を評価する。
― 1 分で読む
目次
最近の大規模言語モデル(LLM)の進展は、数学を扱う能力が大きく成長したことを示しています。しかし、GSM8kのような従来の数学テストでは、これらの能力の深さを十分に捉えられていません。このギャップを埋めるために、MathBenchという新しく詳細なLLMの数学スキルを評価する方法を紹介します。
MathBenchは数学の多くの分野をカバーしており、理論的理解と実世界の問題解決の両方を徹底的に評価できます。このベンチマークは、基本的な算数から大学レベルの数学まで、さまざまなモデルの知識の深さを測るために、5つのステージに分かれています。
MathBenchの概要
MathBenchは段階的に難易度が上がる複数のステージで構成されています。各ステージでは理論的な質問と実践的な問題が取り上げられ、ユニークなタグ付けシステムで各質問に必要な知識を特定できます。
OpenAIのChatGPTのようなLLMの最近の発展は、テキストを扱い、複雑な数学の問題を解決する能力を際立たせています。しかし、GSM8kのような既存のベンチマークは評価の範囲が限られています。多くの場合、問題解決能力を判断する際に、異なる数学トピック間での難易度の違いを考慮していません。
これに対処するために、MathBenchは数学の内容を教育段階と細かいレベルに分類しています。このセットアップにより、基本的な数学操作から高度な大学レベルのトピックまで、LLMのスキルを広く評価できます。
MathBenchの構造
MathBenchは、基本算数、初等教育、中等教育、高等教育、大学の5つの主要なステージで構成されています。
- 算数ステージ: 足し算、引き算、掛け算、割り算などの基本的な操作を評価します。
- 初等教育ステージ: 初学者に適した数学の基本概念に焦点を当てています。
- 中等教育ステージ: より複雑なトピックと問題解決タスクを紹介します。
- 高等教育ステージ: 高校数学で教えられる高度な概念をカバーしています。
- 大学ステージ: 微積分や統計など、大学レベルで教えられるトピックを含みます。
各ステージには、特定の数学概念の理解を深めるために、科目エリアとトピックという2つの詳細なレベルがあります。
データ収集プロセス
MathBenchチームは、豊富で多様なデータセットを確保するために、さまざまなソースから質問を収集しました。質問は、教科書、オンラインリソース、オープンソースのデータセットから集められました。収集対象は以下の通りです:
- 理論的知識の質問: 数学の基本的な公式や原則をテストします。
- 実践的応用の質問: 理論的知識を用いて実世界の問題を解決する必要があります。
評価中、多くのモデルはオープンエンドの質問で苦労しました。これに対処するために、理論的および実践的な質問は、しばしば4つの選択肢を持つ選択式形式に再構成されました。
質のスクリーニング
MathBenchの質を確保するために、半自動のフィルタリングプロセスが実施されました。この方法では、LLMを使用して質問を評価し、内在的なエラーや問題のある質問を特定しました。初回評価を通過しなかった質問については、手動でレビューが行われ、全体的な質を確保しました。
評価方法論
MathBenchでモデルのパフォーマンスを評価するために、特定の評価プロトコルを使用しました。主に使用された2つの方法は、選択式質問に対するCircularEval(CE)と、基本モデルに対するPerplexity(PPL)です。
GPT-3.5やGPT-4のようなクローズドソースモデルと、さまざまなオープンソースモデルの両方をテストしました。評価は10以上のモデルを対象に行われ、MathBenchでの能力を徹底的に分析できました。
結果
MathBenchからの主要な結果は、GPT-4oが特に難易度の高いステージで最高の平均スコアを達成したことを示しています。オープンソースモデルの中では、Qwen1.5-110B-Chatが同じ仲間の中で最も良い成果を示し、数学において強力な能力を発揮しました。
段階別のパフォーマンス
モデルは一般的に算数と初等教育のステージでうまく機能しましたが、中等教育、高等教育、大学ステージでは効果が大幅に低下しました。これは、多くのモデルが直接計算や基本的な概念に依存するタスクでは優れているものの、より高いレベルで必要とされる複雑な推論には苦しむことを示唆しています。
理論的スコアと応用スコアのギャップ
理論的理解と問題解決能力の間には著しいギャップがありました。モデルは理論的評価ではうまく機能することが多いですが、応用スコアは遅れがちで、特に高度なレベルでの推論力と計算スキルの向上が必要であることを示しています。
バイリンガル評価
MathBenchには、質問に中国語と英語の両方で回答できるバイリンガル評価オプションが含まれていました。すべてのモデルの中で、GPT-4が最高のバイリンガルスコアを獲得し、言語間での強力なパフォーマンスを示しました。
モデルの熟練度向上
理論的概念の理解を深めるための初期探索を実施しました。焦点を当てたのは次の2つの方法です:
- 思考の連鎖(CoT): モデルが問題を段階的に考えるよう促す。
- 知識の注入: 質問を提示する前に関連する知識ポイントを組み込む。
これらの戦略は、一連の質問に対してテストされ、CoTと知識の注入を組み合わせることでモデルのパフォーマンスが大幅に向上することが示されました。
課題
MathBenchにはいくつかの制限があります。一部の質問はデータ汚染の影響を受ける可能性があり、評価の信頼性に影響を与えるかもしれません。また、質問の詳細な推論経路が欠如しているため、モデルのパフォーマンスの複雑さを理解するのが難しいことがあります。
結論
MathBenchは、LLMの数学的能力を評価するための構造化された包括的な方法を提供します。さまざまな数学トピックと教育段階をカバーすることで、LLMの数学スキル向上に取り組む研究者や開発者にとって貴重な洞察を提供します。
徹底的な評価と分析を通じて、MathBenchは現在のモデルの強みと弱みを明らかにし、改善のための道筋を提供します。今後もこのベンチマークを洗練し拡大して、数学における言語モデルの進化する能力をより良く評価できるようにしていくことが目標です。
タイトル: MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark
概要: Recent advancements in large language models (LLMs) have showcased significant improvements in mathematics. However, traditional math benchmarks like GSM8k offer a unidimensional perspective, falling short in providing a holistic assessment of the LLMs' math capabilities. To address this gap, we introduce MathBench, a new benchmark that rigorously assesses the mathematical capabilities of large language models. MathBench spans a wide range of mathematical disciplines, offering a detailed evaluation of both theoretical understanding and practical problem-solving skills. The benchmark progresses through five distinct stages, from basic arithmetic to college mathematics, and is structured to evaluate models at various depths of knowledge. Each stage includes theoretical questions and application problems, allowing us to measure a model's mathematical proficiency and its ability to apply concepts in practical scenarios. MathBench aims to enhance the evaluation of LLMs' mathematical abilities, providing a nuanced view of their knowledge understanding levels and problem solving skills in a bilingual context. The project is released at https://github.com/open-compass/MathBench .
著者: Hongwei Liu, Zilong Zheng, Yuxuan Qiao, Haodong Duan, Zhiwei Fei, Fengzhe Zhou, Wenwei Zhang, Songyang Zhang, Dahua Lin, Kai Chen
最終更新: 2024-05-20 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.12209
ソースPDF: https://arxiv.org/pdf/2405.12209
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://help.aliyun.com/zh/dashscope/create-a-chat-foundation-model?spm=a2c4g.11186623.0.0.581c64d16b7Azw
- https://platform.deepseek.com/api-docs
- https://open.bigmodel.cn/dev/howuse/glm4
- https://www.anthropic.com/news/claude-3-family
- https://github.com/01-ai/Yi
- https://github.com/open-compass/MathBench
- https://www.latex-project.org/help/documentation/encguide.pdf