M3Examで大規模言語モデルを評価する
新しいベンチマークが実際の試験問題を使って言語モデルを評価してるよ。
― 1 分で読む
近年、大規模言語モデル(LLM)がテキストの理解や生成に関するタスクで大きな進展を遂げてきた。これらのモデルはさまざまな質問に応じて高品質な回答を生み出せる。LLMが現実の状況でますます利用されるようになると、その効果を適切に評価することが重要になる。この評価は、単に言語を理解する能力を確認するだけでなく、複雑な問題を解決し、異なる分野の知識をどのように応用するかも評価する必要がある。
より良い評価の必要性
LLMの標準的なテストアプローチはしばしば特定のタスクに合わせた特定のベンチマークを含む。これらのベンチマークは貴重な洞察を提供することもあるが、LLMの全体的な能力を測るには不十分な場合が多い。多くのベンチマークは主に英語に焦点を当てており、他の言語におけるモデルの能力を考慮していない。モデルは複数の言語でコミュニケーションできるため、さまざまな言語や文化でテストされる必要があり、真の潜在能力を評価するべきだ。
さらに、現在の多くの評価はテキストベースの質問だけを含んでいる。しかし、実際の試験では画像や図、その他の視覚情報が含まれることが多い。この省略は、モデルの能力を十分に理解できなくなる原因となる。また、既存のベンチマークは混合レベルの質問で構成されていることが多く、テストされるLLMのスキルを誤って表現する可能性がある。
M3Examの導入
これらの課題に対処するために、M3Examという新しいベンチマークを提案する。これは、LLMを多言語、多モーダル、かつ多レベルの文脈で評価するために設計された。M3Examのユニークな点は、実際の人間の試験から質問を集めており、一般的な知性をより正確に評価できることだ。このベンチマークには主に三つの特徴がある。
多言語性: M3Examはさまざまな国からの質問を含んでおり、複数の言語や文化に関する知識を求める。この特性により、モデルが異なる言語でテキストを処理する能力が評価される。
多モーダル性: 多くの試験問題はテキストを超えており、画像やグラフの理解を必要とする。これらのタイプの質問を組み込むことで、M3Examはモデルのさまざまな形式の情報を処理する能力をテストする。
多レベル構造: M3Examは、重要な教育段階である小学校、中学校、高校からの質問を特徴としている。この多様性により、モデルが異なる難易度の質問にどれだけ対応できるかを徹底的に評価できる。
合計で、M3Examは九つの異なる言語で12,300以上の質問を含んでおり、これらの質問の約23%は正しく回答するために画像処理を必要としている。
モデルのパフォーマンス評価
M3Examのデータセットでいくつかの主要な言語モデルをテストした。結果は、最高のパフォーマンスを示したモデル、たとえばGPT-4でさえも、多言語テキスト、特にリソースが少ない言語やラテン文字以外のスクリプトに対して苦戦していることを示した。また、多モーダル質問に対応するために設計されたモデルも、テキストと画像の両方を必要とする複雑なタスクでうまく機能しなかった。
これは、M3ExamがLLMの強みと弱みを理解するための効果的なツールであることを示唆している。多言語および多モーダルの能力に焦点を当てることで、これらのモデルが時間と共にどのように改善しているかを追跡することができる。
試験問題の重要性
試験は長い間、様々な教育レベルで人間の知性を測るために使用されてきた。言語理解、世界知識、文化的意識、論理的推論など、幅広いスキルを評価する。試験問題がこれらの能力を組み合わせているため、LLMを評価するための優れた手段を提供する。
人間の試験問題を使用する価値にもかかわらず、多くの既存のベンチマークには依然として制限がある。たとえば、ほとんどの評価が英語に焦点を当てており、重要な多言語テストを見落としている。これは、複数の言語が日常的に利用されるグローバルな環境で多くのモデルが使用されるため、特に重要だ。
堅牢なベンチマークを作成するために、M3Examは以下の原則を考慮して開発された。
多言語評価
リソースが少ない言語を含むさまざまな言語でLLMがどれだけうまく機能するかを評価することが重要だ。これは、質問を英語から単純に翻訳するのではなく、さまざまな国から実際の試験データを取得することを意味する。Authenticなデータは、言語のニュアンスを理解するために必要な文化的コンテキストを捉える。
多モーダル評価
人々はしばしばテキストだけでなく、画像や音声も処理する必要がある問題に直面する。M3Examは、正しい回答のために画像分析を必要とする質問を含んでおり、これによりLLMのこれらの分野での能力をテストできる。この多モーダルアプローチにより、モデルがさまざまな形式から情報を統合する能力で評価される。
多レベル評価
世界中の教育システムは、しばしば学習を段階的に区切っている。これらの段階を反映した質問を使用してLLMを評価することで、その能力や教育の各段階で期待される知識レベルについての洞察が得られる。
M3Examのデータ収集
LLMの包括的な評価を確保するために、M3Examには九つの言語が含まれている。これらの言語は、世界中での多様性と重要性に基づいて選ばれた。選ばれた言語は英語、中国語、イタリア語、ポルトガル語、ベトナム語、タイ語、スワヒリ語、アフリカーンス語、ジャワ語だ。
各言語のネイティブスピーカーが公式の試験問題を収集するのに関与し、主に小学校、中学校、高校の卒業試験に焦点を当てた。最も広く受けられている試験を集めて、豊かなデータセットを作成するのが目的だった。
高品質なデータの確保
多くの試験問題は画像としてしか利用できず、特別な処理を必要とする形式だった。これらの画像を編集可能なテキストに変換するために光学文字認識(OCR)技術を使用した。このステップの後、言語の専門家がテキストをレビューしてエラーを修正し、データを均一にフォーマットした。
質問は主に選択肢形式で提供され、これは自動評価を容易にするための形式だ。オープンエンドの質問は除外したが、特定のフォーマットの質問を選択肢形式に適応させた。注釈者には、特定の質問に正しく回答するために必要な文脈情報を追加するよう指示した。
画像を含む質問については、テキスト内でどこに画像が必要かを明示することで明確さを確保した。この方法は、視覚的要素がテキストベースの質問にどう関連しているかを明確に理解するのに役立つ。
M3Examの主要統計
M3Examデータセットは、九つの言語で12,317の質問から構成されている。各質問には文脈、選択肢、正しい答え、および言語や教育レベルなどのメタ情報が含まれる。質問は言語、数学、社会科学、自然科学の4つの科目カテゴリーに整理されている。
データは、さまざまな科目と難易度が公平に表現されるように配置された。データ収集後、一部をさらなるテストのための開発データとして分離し、残りの質問は実験評価のために保存した。
結果のまとめ
複数のLLMの有効性を評価するために、M3Examデータセットでテストを行った。モデルはテキスト専用と多モーダルグループに分類した。テキスト専用モデルにはChatGPTやClaudeのような有名なモデルが含まれ、多モーダルモデルは混合テキストと画像の質問を処理する能力に基づいて選択した。
テキスト専用モデルのパフォーマンス
M3Examでテストしたテキスト専用モデルの大多数は期待を下回るパフォーマンスを示し、特に非英語の質問に対しては特に苦戦した。GPT-4は72.92%の正確さを達成したが、ジャワ語やタイ語に対しては今一つだった。
BLOOMのような多言語モデルは、ランダムな推測よりも悪い結果を示すことがあった。これは、彼らが多言語を扱うように設計されているにもかかわらず、実際のアプリケーションでは必ずしも成功しないことを示している。
多モーダルモデルのパフォーマンス
テストした多モーダルモデルは重大な課題に直面した。たとえば、BLIP-2はデータセット全体で50%未満の正確さを達成した。これらの高度なモデルは複雑な画像の理解に苦しみ、複数の画像が関与すると正確な推論を提供できなかった。
これらの結果は、M3Examデータセットが現在の多モーダルモデルにとって実際の課題を提示していることを示唆しており、より簡単な視覚的質問タスクとは異なる難易度の層を追加している。
パフォーマンストレンドの理解
興味深いことに、M3Examでのモデルパフォーマンスは、難易度が上がるにつれて正確さが低下するという予想されるトレンドに従わなかった。通常、低い教育レベルで優れた成績を収める学生は、高いレベルでもさらに良い成绩を上げることが期待される。しかし、LLMに関してはそうではなく、これはモデルが人間の知性とは異なる学習方法を持っていることを示唆している。
洞察と今後の方向性
実験の結果、特に多言語および多モーダルの文脈におけるLLMの能力に大きなギャップがあることが明らかになった。モデルが引き続き進化する中で、その能力や限界をよりよく理解するために評価手法を洗練することが重要だ。
多言語能力の向上
非ラテン文字やリソースが少ない言語の課題を考慮すると、これらの能力を向上させることが優先事項となる。LLMがグローバルな環境にますます統合されるにつれて、さまざまな言語を理解し、処理できるようにすることが不可欠だ。
多モーダル理解の改善
多モーダルモデルの進展を続けるためには、複雑な画像の理解や視覚データとテキストデータの統合に関するさらなる研究が必要だ。クロスモーダルな推論を強調する新しいトレーニング手法やデータセットが重要な改善につながる可能性がある。
評価基準の拡大
M3Examは主に選択肢形式の質問を使用しているが、将来のバージョンで他の質問形式を探求することで、LLMの能力をより完全に把握できるかもしれない。また、創造的な執筆を必要とする試験を開発することで、モデルの言語生成能力をよりよく理解することができるかもしれない。
結論
M3Examは、多様な多言語、多モーダル、かつ多レベルのアプローチでLLMを評価するうえで重要な一歩を示している。このデータセットは現在のモデルの強みと弱みを際立たせている。実際の試験問題に焦点を当てることで、従来のベンチマークよりも一般的な知性のより正確な測定を提供する。AI技術が進化するにつれて、これらの方法の継続的な評価と洗練が、LLMが現実のアプリケーションで信頼できる効果的なソリューションを提供できるようにするために重要だ。
タイトル: M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models
概要: Despite the existence of various benchmarks for evaluating natural language processing models, we argue that human exams are a more suitable means of evaluating general intelligence for large language models (LLMs), as they inherently demand a much wider range of abilities such as language understanding, domain knowledge, and problem-solving skills. To this end, we introduce M3Exam, a novel benchmark sourced from real and official human exam questions for evaluating LLMs in a multilingual, multimodal, and multilevel context. M3Exam exhibits three unique characteristics: (1) multilingualism, encompassing questions from multiple countries that require strong multilingual proficiency and cultural knowledge; (2) multimodality, accounting for the multimodal nature of many exam questions to test the model's multimodal understanding capability; and (3) multilevel structure, featuring exams from three critical educational periods to comprehensively assess a model's proficiency at different levels. In total, M3Exam contains 12,317 questions in 9 diverse languages with three educational levels, where about 23\% of the questions require processing images for successful solving. We assess the performance of top-performing LLMs on M3Exam and find that current models, including GPT-4, still struggle with multilingual text, particularly in low-resource and non-Latin script languages. Multimodal LLMs also perform poorly with complex multimodal questions. We believe that M3Exam can be a valuable resource for comprehensively evaluating LLMs by examining their multilingual and multimodal abilities and tracking their development. Data and evaluation code is available at \url{https://github.com/DAMO-NLP-SG/M3Exam}.
著者: Wenxuan Zhang, Sharifah Mahani Aljunied, Chang Gao, Yew Ken Chia, Lidong Bing
最終更新: 2023-11-09 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.05179
ソースPDF: https://arxiv.org/pdf/2306.05179
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。