指示に従って情報検索を改善する
新しいデータセットがIRモデルを複雑な指示に適応させて、パフォーマンスを向上させるのに役立つ。
― 1 分で読む
大規模言語モデル(LLM)は複雑な指示に従う能力が上がってきて、多くのタスクを手伝えるようになったけど、ほとんどの情報検索(IR)モデルは基本的なクエリに頼ってて、これらの指示を完全には活用してないんだ。最近のいくつかのモデルはこの面を取り入れ始めてるけど、どうやってるのかはあんまり明確じゃないんだよね。
俺たちの貢献
俺たちは、IRモデルが指示に従う能力を高めるためのデータセットと評価ベンチマークを提案するよ。このデータセットは、文書の関連性を評価するために人間のアノテーターが詳細な指示を使うTREC会議の長い歴史に基づいてる。俺たちの仕事は、IRモデルが変わる指示にどれだけうまく応じるかを測る方法を提供していて、これが機能向上には重要なんだ。
方法論
俺たちの評価ベンチマークは、Robust 2004、Common Core 2017、News 2021という3つのTRECコレクションに基づいてる。アノテーターの指示を少し修正して、関連する文書を再評価するんだ。これにより、IRモデルがこれらの変化にどれだけ適応できるかを新しいペアワイズ評価フレームワークを通じて評価できるんだ。
俺たちの調査結果によれば、既存の多くの検索モデルはこれらの複雑な指示に効果的に従うのが難しいみたい。でも、モデルが改善できる可能性があることもわかったよ。俺たちのデータセットでファインチューニングした後、1つのモデルは指示に従う能力が13%以上改善したんだ。
指示の重要性
柔軟な自然言語の指示を使うことで、専門家が複雑な情報ニーズに合った検索を洗練させる手助けができるんだ。例えば、研究者は特定の基準を満たす論文を探しつつ、そうでないものを避ける必要があるかもしれない。最近の研究はこの領域を探求してるけど、多くはまだ短くて繰り返しの指示を使ってる。
俺たちのデータセットは、IRモデルの指示に従うスキルを明示的に測定して、リアルな例も含んでる。人間のアノテーターに提供される指示には、関連性についての詳細なガイドラインが含まれてて、これによりIRモデルが何を求められてるかをよりよく理解できるようになってるんだ。
評価フレームワーク
指示に従う能力を評価するために、変化した指示に基づいて文書の関連性のランクの変化を測定する新しいフレームワークを開発したよ。分析の結果、多くのモデルは、データセットが大きいか特にこのためにファインチューニングされてない限り、指示を効果的に活用してないってわかった。
結果
結果は明確な分断を示してる:小さいモデルは通常詳細な指示を扱えなくて、キーワード検索に戻っちゃう。対照的に、大きなモデルや指示に基づいて訓練されたモデルは、新しい関連性の定義に適応するのが成功してるんだ。
結論
俺たちはIRコミュニティにとって貴重なリソースを提供するよ。指示に従う能力を評価するためのベンチマークと、改善されたパフォーマンスを示す新しいモデルが含まれてる。このリソースを使って、指示にうまく適応してユーザーのニーズによりよく応えることができる、もっと能力のある検索モデルの開発を進めることを目指してるんだ。
タイトル: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
概要: Modern Language Models (LMs) are capable of following long and complex instructions that enable a large and diverse set of user requests. While Information Retrieval (IR) models use these LMs as the backbone of their architectures, virtually none of them allow users to provide detailed instructions alongside queries, thus limiting their ability to satisfy complex information needs. In this work, we study the use of instructions in IR systems. First, we introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR repurposes detailed instructions -- also known as narratives -- developed for professional assessors to evaluate retrieval systems. In particular, we build our benchmark from three collections curated for shared tasks at the Text REtrieval Conference (TREC). These collections contains hundreds to thousands of labeled documents per query, making them suitable for our exploration. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements after fine-tuning on our training set.
著者: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini
最終更新: 2024-05-07 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2403.15246
ソースPDF: https://arxiv.org/pdf/2403.15246
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。