多言語LLMの長文コンテキスト能力の評価
5つの言語での長文におけるLLMのパフォーマンス評価。
Ameeta Agrawal, Andy Dang, Sina Bagheri Nezhad, Rhitabrat Pokharel, Russell Scheinberg
― 1 分で読む
大規模言語モデル(LLMs)は、長いテキストを扱うのがかなり上手くなってきたんだ。これらのモデルの多くは、特に英語の長いテキストから情報を覚える能力が優れている。でも、ほとんどの能力テストは英語に焦点を当てていて、長いテキストの中から特定の文を探すだけだった。この研究では、異なる言語で複数の隠れた文を扱うときに、これらのモデルがどれだけうまく機能するかを調べてるよ。調査には英語、ベトナム語、インドネシア語、スワヒリ語、ソマリ語の5つの言語を使ってる。これらの言語はラテン文字を使うけど、異なる言語ファミリーに属していて、利用できるリソースの量も違うんだ。
長文の重要性
長いテキストを扱う能力は、文書の要約や、長いテキストに基づいて質問に答えること、コードを生成することには欠かせない。最近のLLMの改善は、長い文脈を処理する能力を高めることを目指してる。特に多言語モデルは、さまざまな言語の長いテキストデータを使って、より良いアプリケーションを生み出すことができるかもしれない。例えば、Gemini-1.5 Proモデルは、文脈の中で文法マニュアルを使って英語からリソースが少ない言語への翻訳を学べることを示しているんだ。
現在のLLMの長文処理能力の評価方法は主に英語に焦点を当てていて、多言語評価の不足は、さまざまな言語でのモデルの性能を理解するのを制限している。多言語性能の評価が重要なのは、異なるコミュニティに効果的に対応できるモデルを作るため。さらに、研究によると、LLMはリソースが少ない言語で作業する際に、安全性や関連性の低い応答を生成することが多いんだ。残念ながら、異なる言語状況でこれらのモデルがどれだけうまく機能するかを評価するための多言語評価が不足している。
ギャップへの対処
この問題に取り組むために、私たちは多言語環境での長文LLMを評価する包括的な研究を提案するよ。合成タスクに基づいた評価フレームワークを使ってる。これらのタスクは少し人工的だけど、自然に発生するテキストや人間翻訳データを含む新しいデータセットを作成したんだ。これは、実際の状況を反映しつつ、言語間のモデル性能の比較を制御できるようにするためのもの。検索タスクに加えて、モデルが関連アイテムを見つけるだけでなく、それらを比較しながらその情報を長文脈に保持する必要がある新しい推論タスクも導入してる。
私たちの研究では、リソースレベルが異なる5つの言語で6つの異なるLLMを調査してる。私たちの目標は、2つの重要な質問に答えること:(1) LLMの長文能力は、いくつかの言語での検索タスクと推論タスクでどう比較されるのか?(2) 複数の言語を扱うとき、LLMには重要な性能差があるのか?
主な発見
私たちの研究からの重要な発見は以下の通り:
- 文脈の長さが増えると、モデルのパフォーマンスは全言語で急激に低下する傾向がある。
- 高リソース言語からリソースが少ない言語に移行する際にも、パフォーマンスが急激に低下する。
- 推論タスクは、全言語において検索タスクよりも多くの課題を呈する。
- 様々なLLM間でのパフォーマンスにはかなりの差がある。
- 簡単なタスクでも、多言語文脈に直面した現在のモデルの限界を示すことができる。
これらの発見の目標は、異なる言語における長文評価の理解を深め、より良いモデルの開発を促進することだよ。
関連する研究
言語モデルの進展は、広範な文脈から情報を思い出し、推論する能力を改善することに焦点を当ててる。長文のベンチマークが不足しているため、評価はしばしば合成タスクに基づいていて、大規模データセットから特定の情報を思い出す能力が測定される。
Gemini-1.5やClaude-3といった最近のモデルは、特定のタスクで印象的なリコール能力を示しているよ。しかし、パープレキシティが低スコアであることは、モデルが長文を効果的に扱えることを必ずしも示さない。これまでの研究は主に英語テキストに集中していて、いくつかのバイリンガルデータセットは限られた改善しか提供していない。データセットを作成する努力は、利用可能な言語をわずかに制限しているんだ。
選ばれた言語とモデル
私たちの研究では、英語、ベトナム語、インドネシア語、スワヒリ語、ソマリ語の5つの言語を異なるリソースレベルで調査してる。これらの言語はラテン文字を使用していて、モデルがそれらを処理する方法にも影響を与えてる。ラテン文字の言語は、他の文字を持つ言語よりもパフォーマンスが良い傾向があり、その違いは長いテキストになるほど明らかになる。
私たちは、4つのプロプライエタリモデルと2つのオープンソースモデルを評価した。GPT-4、Gemini-1.5、Claude-3がプロプライエタリモデルで、Yarn-7bとLlama-3がオープンソース。これらのモデルは、異なるコンテキストウィンドウのサイズを持っていて、同時に扱えるテキストの量が異なるんだ。
検索と推論のためのタスク
長文モデルは、テキストから関連情報を取得し、その情報を使って人間の指示に従う必要がある。合成タスクはモデルの能力を完全に評価できるわけではないけど、さまざまな言語でモデルが長文をどれだけうまく扱うかを評価する手段にはなる。
私たちが見ているタスクの1つは「干し草の中の針」というもので、このタスクでは特定の文が大きなテキストの中に隠されていて、モデルはその文を見つけなければならない。テキストの量が増えるほど、このタスクは難しくなる。タスクは、ターゲット文(針)、大きなテキスト(干し草)、そして針を見つけるための質問で構成されている。
また、複数の針を扱う別のタスクでは、モデルがいくつかの情報を追跡し、推論する必要がある。このため、テキストの中に複数のターゲット文を配置して、モデルが針に基づいて応答を生成するのをさらに難しくしているんだ。
新しいデータセット:mLongRR
mLongRRという新しいデータセットを作成したよ。これは、選ばれた5つの言語でのBBCニュース記事から成っている。このアプローチは、以前に発表されたエッセイを使用するよりも優れていて、翻訳ミスの可能性を減らしている。新しいデータセットを使うことで、モデルがあまり見たことのない最近の本物のテキストを使用できるようにしてる。
タスクでは、モデルの性能を測るために異なるプロンプトを使ったよ。プロンプトのデザインがモデルの性能に影響を与えることが分かり、いくつかのプロンプトは他のプロンプトよりも効果的に機能することがある。また、英語から他の言語へのフレーズの翻訳を手伝うために、プロの翻訳者を雇ったんだ。
結果と議論
さまざまなモデルで実験を行い、情報を取得し推論する能力を評価した。その結果、英語のモデルは全般的に良いパフォーマンスを示す傾向があった。しかし、モデルはリソースが少ない言語では、特に複雑な推論を要求されると苦労することが分かった。
文脈の長さや針の数が増えると精度が低下する傾向があり、現在のモデルが大量の情報を効果的に処理するのが難しいことを示している。全体的に、Gemini-1.5のようなモデルは、タスク全体でより良い耐性を示したけど、さらに深い文脈や長い文脈では課題にも直面することがあった。
結論
結論として、私たちの研究は、さまざまな言語でLLMが長い文脈とどのように働くかについての重要な洞察を明らかにした。特に長文、複数の文、リソースが少ない言語でのパフォーマンスの著しい低下が見られた。 「干し草の中の針」のような簡単なタスクでも、モデルの性能にかなりの違いがあることがしばしば示される。最終的に、私たちの研究はリソースが少ない言語に効果的に対応するために、より良いモデルやトークン化技術が必要だということを強調している。私たちはラテン文字の言語に焦点を当てたけど、将来的には他の文字や、これらの発見が追加の言語や文脈にどのように適用できるかを探求したいと思っているんだ。
タイトル: Evaluating Multilingual Long-Context Models for Retrieval and Reasoning
概要: Recent large language models (LLMs) demonstrate impressive capabilities in handling long contexts, some exhibiting near-perfect recall on synthetic retrieval tasks. However, these evaluations have mainly focused on English text and involved a single target sentence within lengthy contexts. Our work investigates how LLM performance generalizes to multilingual settings with multiple hidden target sentences. We create a new dataset -- mLongRR -- to comprehensively evaluate several multilingual long-context LLMs on retrieval and reasoning tasks across five languages: English, Vietnamese, Indonesian, Swahili, and Somali. These languages share the Latin script but belong to distinct language families and resource levels. Our analysis reveals a significant performance gap between languages. The best-performing models such as Gemini-1.5 and GPT-4o, achieve around 96% accuracy in English to around 36% in Somali with a single target sentence. However, this accuracy drops to 40% in English and 0% in Somali when dealing with three target sentences. Our findings highlight the challenges long-context LLMs face when processing longer contexts, an increase in the number of target sentences, or languages of lower resource levels.
著者: Ameeta Agrawal, Andy Dang, Sina Bagheri Nezhad, Rhitabrat Pokharel, Russell Scheinberg
最終更新: 2024-10-12 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.18006
ソースPDF: https://arxiv.org/pdf/2409.18006
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/Arize-ai/LLMTest
- https://docs.google.com/document/d/1q2fkQprOIgp7pAF8EuXg8DRDSh-alhU0FsZ0fAxQYEg/edit#heading=h.ghwvd3d9tuux
- https://www.ethnologue.com/
- https://platform.openai.com/docs/models/gpt-4-and-gpt-4-turbo
- https://aistudio.google.com/
- https://www.anthropic.com/news/claude-3-family
- https://huggingface.co/NousResearch/Yarn-Llama-2-7b-128k
- https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct
- https://www.latex-project.org/help/documentation/encguide.pdf