Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

コストのかかるデータなしで言語モデルを適応させる

広範なラベリングなしでLLMを適応させる新しい方法。

― 1 分で読む


LLMの適応が簡単になったLLMの適応が簡単になった大規模言語モデルの適応コストを削減する。
目次

大規模言語モデル(LLM)は、大量のデータセットを使って自己教師あり学習を通じてさまざまな情報を学ぶんだ。その後、指示調整というステップを経て、さまざまな質問に正しく答えるのを助ける。ただ、新しい分野、例えば特定の組織や時期に適応させようとすると、データにラベルを付けるために多くの手作業が必要で、これって結構コストがかかるんだよね。この問題を解決するために、我々は「無監督LLM適応による質問応答」という新しいタスクを提案したんだ。

このタスクでは、事前学習済みのLLMと既存の質問応答(QA)データセット、そして対象とする分野のラベルなしの文書を使うんだ。我々の目的は、LLMがこれらのラベルなし文書に関連する質問に答えられるようにすること。

我々は1つの合成データセットと2つの実際のデータセットを作成して、ソースとターゲットデータセットの両方を使って微調整したモデルのテストを行った。いくつかの面白い結果が得られたよ:

  1. 微調整されたモデルは、新しい分野に関する質問に対して、特定の質問を見たことがなくても正しい回答を提供できた。
  2. ただし、文書の真ん中や最後にある情報を見つけるのに苦労していた。
  3. この問題は、トレーニング中にいくつかの入力トークンをランダムなものに置き換えることで、ある程度改善できた。

大量のデータに基づいて事前学習された指示調整された大規模言語モデルは、さまざまなタスクを処理する良い能力を示す。

LLMを調整するための標準的な方法は微調整というプロセスを含んでいて、これにはかなりのコストがかかることが多い。でも、我々のタスクでは、我々が研究している分野から特定のQAペアを使わずにLLMを適応させる方法に焦点を当てているんだ。一般的なQAデータセットを出発点として使用することで、注釈コストを低く抑えることができる。

LLMのトレーニングプロセスは、主に2つの段階で構成される:事前学習と指示調整。事前学習の段階では、モデルは大規模なデータセットから自己教師ありの目的を使って学ぶ。指示調整のフェーズでは、一連のタスクに対して微調整される。我々の作業において、事前学習はラベルなしのデータに対する自己教師あり学習を伴う大規模なトレーニングを指す。

これらのモデルは、QAを通じて事実に基づく知識を取得するのが得意。ここで言う「知識」とは、事実であり、トレーニングされたデータに記載されている情報を指す。指示調整の重要な役割は、モデルが事前学習プロセスからこの知識を抽出するのを助けること。でも、知識はトレーニング期間中に入手可能なデータ、つまりWikipediaや他のソースに限られているから、モデルはトレーニングデータに含まれない分野に関する情報を取得することができないんだ。

新しい分野、例えば特定の組織や科学分野、日々のニュース記事にモデルを適応させようとすると、モデルは日々変わるさまざまな文書を通じて提示された新しい情報を学ぶ必要がある。ただし、指示調整のために各新しい分野ごとにトレーニングデータを常に集めるには多くのリソースが必要だ。だから、LLMが高価なトレーニングデータなしで新しい分野に適応できたらいいと思う。

この課題に対処するために、我々は無監督のLLM適応による質問応答という新しいタスクを提案する。事前学習済みのLLM、一般的な指示調整データセット、そして新しい情報を含むラベルなしの文書へのアクセスがあると仮定する。これらの文書は、単にQAマークなしの文のコレクションだ。ソースデータは、LLMの質問への回答能力を保つことを目的とし、ターゲットデータはテスト中にクエリされるものとなる。

我々は、ターゲット文書に見つかる知識に関する質問に正しく応答できるようにLLMをトレーニングしたいと考えている。この作業は、LLMを特定の領域に適応させるためのコスト効率の良い解決策を提供するだけでなく、これらのモデルがラベルなしの文書から知識を保存し、必要に応じてそれを抽出できるかどうかを明らかにすることを目指している。

過去の研究も見てみたけど、LLMが事実の知識をどのように記憶するかを調査した研究がいくつかある。ある研究では、LLMが指示調整段階で似たような質問に触れた場合に質問に答えられるかどうか、または事前学習中に学んだ情報を本当に抽出できるかどうかを確認している。彼らは、広範なデータ拡張が事前学習中に行われれば、LLMは新しいエンティティに関する質問に答えられることを発見した。

我々の作業では、新しい分野のための特定のQAペアが必要ない知識の保存と抽出の能力に焦点を当てている。他の研究では、通常、既存の事実を編集することに焦点を当てて、LLMの知識を変更する方法を見てきた。我々の興味は、新しい知識を追加して利用する方法にあり、これには単純な文よりも広い文脈が必要となることが多い。

特定の分野、例えば医療知識に対する微調整アプローチが存在するが、我々の方法は高額なラベル付きデータに大きく依存せずに適応を達成する方法を模索している。無監督ドメイン適応(UDA)も自然言語処理(NLP)のさまざまなタスクで研究されてきた。我々は、質問応答タスクのための無監督LLM適応に焦点を当て、微調整されたLLMがラベルなしの文書から知識を保存し、抽出できるかどうかを調べる最初のものとなる。

新しい分野に関する質問に答えるオプションには、リトリーバル拡張生成(RAG)が含まれていて、モデルが複数の文書を取得して回答を形成する。ただ、RAGは強力なリトリーバルモデルを必要とし、LLMは長い文脈に対処しなければならないので、これが複雑になる可能性がある。だから、リトリーバルを必要としない我々のLLM適応方法は、よりシンプルな解決策なんだ。

ポジショナルバイアスは、LLMの既知の問題なんだ。つまり、LLMはQAタスクのための長いテキストが与えられた場合、しばしば真ん中にある情報を引き出すのに失敗することが多い。回答位置の分布が偏っているトレーニングを受けたモデルも同じように苦しむ。一部の解決策がこのバイアスを処理するために提案されているが、我々の作業は、LLMが長い文脈を必要とせずにトレーニング文書から情報を取得できるかどうかを特にチェックしている。

我々は新しい知識を学ぶLLMの能力をテストするために3つのデータセットを導入した。一つは合成で、二つは実際のデータセットだ。我々は、微調整されたLLMが新しい分野に対する特定のQAデータを見ていないにもかかわらず、事実を抽出できるかどうかに注目している。

合成伝記データセットは、特定の人物に関するさまざまな特性(誕生日、生まれた場所、学校など)を説明する文を含んでいる。モデルに学習した情報に基づいて特定の特性について尋ねる形でセットアップした。

Paper2023データセットは、最近の会議からの論文タイトルと要約のペアで構成されている。ここでは、実世界の文書が何らかの構造に従うと仮定している。たとえば、科学論文は目次をセクションタイトルでリストする。したがって、我々は主要なテーマに基づいて内容が整理されたデータセットを作成した。

最後に、News2023データセットとして、数ヶ月にわたりさまざまなトピックをカバーした記事を取得した。我々は、モデルが構造化された文書と非構造化された情報をどのように扱うかを調べることを目指した。

我々のテストから、無監督の微調整されたLLMは質問に正しく答えることができるが、一般的に、回答が文書の冒頭にある場合により良く機能することがわかった。モデルは、トレーニング方法のために真ん中や終わりにある情報にアクセスするのに苦労していた。

ランダムトークン置換(RTR)は、モデルのポジショナルバイアスに関する頑健性を向上させるのに効果的であることが証明された。トレーニング中に特定のトークンを置き換えることで、モデルは不完全な情報でも回答を予測できるようになり、リアルな問い合わせシナリオを模倣することができる。

我々の貢献を要約すると:

  1. 無監督LLM適応による質問応答の新しいタスクを提案し、モデルのパフォーマンスを評価するためのデータセットを作成した。
  2. 我々の発見は、LLMが特定のQAデータなしで文書から情報を取得できることを示している。
  3. LLMが文書に基づく質問への応答時にポジショナルバイアスを示す傾向があるという課題を特定した。RTR技術はこの問題を軽減するのに役立つ。

我々はまた、モデルのサイズや外部QAデータセットの種類がパフォーマンスにどのように影響するかについても探求した。

関連研究のセクションでは、LLMが事実を記憶する方法や、知識の抽出能力がどのように研究されているかをレビューした。多くのモデルがポジショナルバイアスに対処する際に苦労していることにも言及した。

我々は、LLMの学習と情報取得能力をテストするために3つの新しいデータセットを作成した:合成伝記データセット、科学論文のPaper2023データセット、ニュース記事のNews2023データセット。それぞれのデータセットは、モデルがさまざまなタイプの情報に適応する能力を明らかにするために役立ちます。

調査を通じて、微調整されたLLMが正確な情報を取得するのが得意で、特にその情報が文書の早い段階に見つかる場合に優れていることがわかった。しかし、文書の中間や終わりにある情報は苦手だ。

さらに、我々のランダムトークン置換の方法がポジショナルバイアスを減少させることに寄与するという重要な発見もあった。この研究は、コスト効率の良い方法でモデルの注釈を付けるための新しい道を開く。

広範囲な影響のセクションでは、我々の作業が効率的な機械学習の分野を大いに向上させる可能性があることを強調した。我々の研究から直接的な社会的影響は常に考えられるが、今後の発展の際にはこれらの側面を考慮することが重要だ。

最後に、我々の作業中に貴重な洞察を提供してくれた人々への感謝を述べる。この研究は多くの支援機関によって支えられ、膨大な計算リソースが利用された。

最後のセクションでは、データセット作成に関わるプロセスを概説し、テスト中に使用された実験方法の詳細を述べた。合成データセットの収集手順は、架空の個人とそれに関連する説明を生成することを含み、実世界のデータセットはプロの会議や最近の時事から編纂された。

結論として、我々の発見は、多くの注釈コストをかけずにLLMを新しい分野に適応させるための貴重な洞察を提供し、機械学習技術の効率向上に向けた一歩を示すものとなる。

オリジナルソース

タイトル: Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction

概要: Large language models require updates to remain up-to-date or adapt to new domains by fine-tuning them with new documents. One key is memorizing the latest information in a way that the memorized information is extractable with a query prompt. However, LLMs suffer from a phenomenon called perplexity curse; despite minimizing document perplexity during fine-tuning, LLMs struggle to extract information through a prompt sentence. In this new knowledge acquisition and extraction, we find a very intriguing fact that LLMs can accurately answer questions about the first sentence, but they struggle to extract information described in the middle or end of the documents used for fine-tuning. Our study suggests that the auto-regressive training causes this issue; each token is prompted by reliance on all previous tokens, which hinders the model from recalling information from training documents by question prompts. To conduct the in-depth study, we publish both synthetic and real datasets, enabling the evaluation of the QA performance w.r.t. the position of the corresponding answer in a document. Our investigation shows that even a large model suffers from the perplexity curse, but regularization such as denoising auto-regressive loss can enhance the information extraction from diverse positions. These findings will be (i) a key to improving knowledge extraction from LLMs and (ii) new elements to discuss the trade-off between RAG and fine-tuning in adapting LLMs to a new domain.

著者: Kuniaki Saito, Kihyuk Sohn, Chen-Yu Lee, Yoshitaka Ushiku

最終更新: 2024-05-23 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2402.12170

ソースPDF: https://arxiv.org/pdf/2402.12170

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事