InfiMM-WebMath-40Bを紹介するよ:マルチモーダル数学的推論のための新しいデータセット。
新しいデータセットは、言語モデルのマルチモーダル推論を強化することを目的としている。
Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
― 1 分で読む
目次
大規模で高品質なデータセットでの事前トレーニングは、特に数学の分野で言語モデルの推論能力を向上させるために重要だよ。でも、現在、マルチモーダルな数学的推論専用の公開データセットは存在しないんだ。このギャップを埋めるために、InfiMM-WebMath-40Bという新しいデータセットを作ったよ。このデータセットには、24億ページのウェブページと400億のテキストトークン、8500万の関連画像が含まれてる。情報はCommonCrawlプロジェクトから収集したんだ。
データを集める過程やチェック方法についてもしっかり説明してるよ。テキストのみの状況とマルチモーダルな状況でモデルを評価することで、少ないトークン数でも他の人気データセットと比べて言語モデルの性能が大きく向上することを示したんだ。新しいデータセットのおかげで、マルチモーダルな数学の評価でトップの結果を達成し、このデータセットの有用性が証明されたんだ。
言語モデルの最近の進展
最近、言語モデルは大きく進歩して、複雑な推論や多段階の数学問題を解くスキルが向上したよ。この進歩は、大規模なトレーニングデータと問題を考えるための新しい戦略、さまざまなトレーニング情報のおかげなんだ。GPT-4やClaude 3.5のような高品質なモデル、Llama 3.1のようなオープンソースの選択肢は、基本的な数学問題から高校レベルのタスクまで、対応能力が大きく改善されたんだ。
数学に特化した小さなモデル、DeepSeekMath-7BやInternLM-Mathも好調だよ。彼らはもっと特定の知識が必要な数学問題を解くことを目指してる。さらに、数学的定理を証明するためのフォーマルなシステム、Alpha-ProofやDeepSeek-Proverも、競技でよく見られる難しい数学の課題に取り組めることを示してるよ。
グラフや図などの視覚的要素は、抽象的な数学の概念を理解するのにも重要なんだ。その重要性を認識して、多くのマルチモーダル言語モデル、G-LLaVAやMath-LLaVAが、テキストと画像を組み合わせて推論スキルを向上させるために開発されてるよ。
マルチモーダルデータセットの必要性
上記の進展にもかかわらず、新しい知識をトレーニング中のモデルに組み込むのは難しいことが多く、時にはエラーや「幻覚」を引き起こすこともあるんだ。大きな予算を持つ企業は高品質なデータを利用できるから、強力な数学的推論能力を持つモデルを作るのに有利なんだ。でも、研究コミュニティには、数学に関連するテキストと画像を組み合わせた公開データセットの需要が高まってる。こうしたリソースがないと、効果的なマルチモーダルモデルの研究開発の進展が妨げられちゃう。
そこで、InfiMM-WebMath-40Bという、マルチモーダル言語モデルにおける数学的推論を向上させるために特化した大規模で公開可能なデータセットを紹介するよ。このデータセットは、オープンソースコミュニティでの大規模データのアクセスが制限されている重要なギャップを埋めるのを助けることを目指してるんだ。
データセットの概要
InfiMM-WebMath-40Bには、数学や科学に焦点を当てた2400万のウェブドキュメントが含まれてる。400億のテキストトークンと8500万の画像URLが入ってて、マルチモーダル言語モデルの推論能力を高めるための豊富なリソースなんだ。このデータセットは、テキストと画像を含む完全なウェブドキュメントを保持するように、CommonCrawlリポジトリからコンテンツをフィルタリングして作成したんだ。
2019年から2023年のCommonCrawlデータのスナップショットから始めたよ。中国語と英語のウェブページをフィルタリングした結果、約572億のウェブドキュメントが残ったんだ。一連の慎重なフィルタリング手順を経て、この大量のセットから我々の興味のある分野に関連する2400万の高品質ドキュメントに絞り込んだんだ。
データ収集プロセス
データセットの可能性を示すために、MathVerseやWe-Mathなどのベンチマークを使って広範な評価を行ったよ。初期の結果は、データセットがマルチモーダルな数学的推論を強化することを示していて、オープンソース研究や広範なAIコミュニティにとっての価値を強調してるんだ。
初期データ抽出
テキスト抽出には、人気のあるウェブスクレイピングライブラリのTrafilaturaを選んだよ。でも、数学関連のコンテンツにはあまり対応してないから、自分たちのニーズに合わせたカスタムツールを開発したんだ。このツールは、数学の方程式や記号に重点を置いて、画像URLも捉えることで、既存の抽出方法を改善したんだ。
数学的コンテンツのフィルタリング
テキストと画像URLを抽出した後、質の高い数学コンテンツを保証するためのフィルタリングアプローチを実施したよ。正のサンプル(数学関連のコンテンツ)と負のサンプル(非数学コンテンツ)をバランスよく持つデータセットを作成し、データ収集をスムーズにするための分類器を訓練したんだ。このプロセスによって、572億から95億サンプルにデータセットを絞り込むことができたよ。
重複除去とさらなるフィルタリング
重複コンテンツがモデルの性能に与える影響を認識して、先進的な重複除去技術を適用して、繰り返しの情報を排除したんだ。その結果、最終的なデータセットは38億のユニークなサンプルになったよ。また、基準に合わないコンテンツを取り除くためにルールベースのフィルタリングも実施して、データセットの質を維持したんだ。
品質保証の方法
品質管理には、fastTextと高級な言語モデルの分類器を使って数学コンテンツにスコアを付けたよ。このスコアリングシステムのおかげで、最高品質のコンテンツがデータセットに含まれるようにしつつ、数学タスクでのモデルのパフォーマンスを最適化することができたんだ。
広範な実験を経て、このデータセットがさまざまな数学的推論ベンチマークでの言語モデルの性能を大きく向上させることが分かったよ。テキストと画像のデータを組み合わせることで、モデルの複雑な数学の概念を理解する力が強化されたんだ。
モデルの評価
我々のデータセットで訓練されたモデルを評価するために、MathVerseやWe-Mathなどの有名なベンチマークを使って複数のテストを行ったよ。我々のモデルは常に他のモデルを上回って、InfiMM-WebMath-40Bデータセットが言語モデルの数学的推論能力を向上させるための貴重なリソースであることを示したんだ。
MathVerseでの結果
MathVerseベンチマークでの我々のモデルのパフォーマンスは素晴らしかったよ。結果は、マルチモーダルアプローチがモデルに視覚情報とテキスト情報の統合が必要なさまざまな質問カテゴリで優れた性能を発揮させたことを示してる。これは、データセットの効果がモデル全体のパフォーマンスを向上させることをはっきり示してるんだ。
We-Mathでの結果
同様に、We-Mathの評価でも、我々のモデルは多様な視覚的数学問題に対処する際に卓越した能力を示したよ。これらの結果はさらに、我々のデータセットがモデルに複雑な数学問題を効果的に解決するための必要なツールを備えていることを確認してるんだ。
今後の方向性
これから、InfiMM-WebMath-40Bデータセットをさらに強化するための多くの機会があると見てるよ。将来の研究では、数学の記号や図、方程式がもたらす独自の課題に特化したエンコーダーを開発することに焦点を当てるつもりだ。それに加えて、数学的文脈での推論スキルを向上させるために強化学習技術の使用も探求するつもりだよ。
我々はまた、より多様なデータソースを取り入れたり、フィルタリング手法を洗練させたりしてデータセットを拡張することにコミットしてる。このようにして、InfiMM-WebMath-40Bが研究者や実務者にとって堅牢なリソースであり続けるようにするんだ。
結論
要するに、InfiMM-WebMath-40Bの導入は、マルチモーダルな数学的推論の分野で重要な前進を示してるよ。大規模で公開可能なデータセットを提供することで、研究コミュニティが高品質で多様なトレーニングデータを求める切実なニーズに応えたいと思ってる。初期結果は、このデータセットが数学タスクにおける言語モデルの性能を向上させる強い影響を持っていることを示してるんだ。
これからも研究を続けて、InfiMM-WebMath-40Bが研究者や開発者によってどのように活用され、マルチモーダルな推論と数学的理解の限界を押し広げることができるか、楽しみにしてるよ。
タイトル: InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
概要: Pre-training on large-scale, high-quality datasets is crucial for enhancing the reasoning capabilities of Large Language Models (LLMs), especially in specialized domains such as mathematics. Despite the recognized importance, the Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source pre-training dataset specifically designed for mathematical reasoning. To address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of interleaved image-text documents. It comprises 24 million web pages, 85 million associated image URLs, and 40 billion text tokens, all meticulously extracted and filtered from CommonCrawl. We provide a detailed overview of our data collection and processing pipeline. To demonstrate the robustness of InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal settings. Our evaluations on text-only benchmarks show that, despite utilizing only 40 billion tokens, our dataset significantly enhances the performance of our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses 120 billion tokens for the same model size. Nevertheless, with the introduction of our multi-modal math pre-training dataset, our models set a new state-of-the-art among open-source models on multi-modal math benchmarks such as MathVerse and We-Math. We release our data at https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
著者: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
最終更新: 2024-09-19 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.12568
ソースPDF: https://arxiv.org/pdf/2409.12568
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。