Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 人工知能# 計算と言語

言語モデルの改善:新しいトレーニング方法

新しい戦略が言語モデルの知識を正確に引き出す能力を高めてる。

― 1 分で読む


言語モデルのトレーニングを言語モデルのトレーニングを見直す得を改善する。新しいトレーニング方法がモデルの知識の取
目次

言語モデルはずいぶん進化したよね。賢くて一貫性のあるテキストを生成できる。でも、まだ大きな問題が残ってる。事実を間違えたり、作り話をしたりすることが多いんだ。この問題は「幻覚」と呼ばれていて、モデルがトレーニングデータにない間違った情報を提供する時に起こる。特に正確な情報が重要な分野ではこれが心配なんだ。

幻覚につながる主要な問題の一つは「逆転呪い」っていうやつ。これはトレーニングでの単語の並びが、後にモデルが情報を取り出す能力に影響を与えるってこと。例えば、モデルが「パリはフランスの首都です」と学んだとしたら、「フランスの首都は何ですか?」には答えられるかもしれないけど、「パリはどの国の首都ですか?」には苦労するかもしれない。同じことを聞いているのに、単語の並びがモデルの返答能力に違いをもたらすんだ。

逆転呪いを解決するために、多くの研究者がトレーニングデータを変更して、トークンの順序を逆にした例を含めることを試みている。つまり、モデルをオリジナルと逆のフレーズの両方でトレーニングするってこと。この文章では、モデルの学習タスクの設定方法に焦点を当てた別のアプローチを探る。

因数分解の呪いを理解する

逆転呪いに対処するために、因数分解の呪いという概念を導入する。このアイデアは、なぜ一部の言語モデルが情報を取り出すのに苦労するのかを説明するのに役立つ。因数分解の呪いは、モデルが入力を次に来るものを予測するための部分に分解する方法を説明している。この分解が厳しすぎると、同じ情報の異なる配列から学ぶ能力が制限されてしまうんだ。

モデルが文中の前の単語から次の単語を予測することを主に学んでいると、その理解は単語の順序だけに基づいてしまう。そのため、情報が異なる形で提示されると苦労する。基本的に、トレーニング中に特定の並びを見た場合、異なる形で提示された同じ事実を認識できなくなるかもしれない。

新しいアプローチ:因数分解に依存しないトレーニング

因数分解の呪いがもたらす課題を考慮して、我々は因数分解に依存しないトレーニングという代替策を提案する。このトレーニング方法は、モデルに対してトークンの特定の順序にあまり注意を払わず、全体的な意味を理解させるというもの。これにより、モデルが単語の順序に囚われることなく、情報をよりよく記憶できるかもしれない。

このアイデアを検証するために、さまざまなテストを行って、異なるトレーニング方法がモデルが知識をストックし、取り出す能力にどれだけ影響を与えるかを見てみた。実験では、制御された条件と実世界のデータを使って、これらの異なるアプローチのパフォーマンスを評価した。

因数分解に依存しない戦略での実験

各学習方法がどれだけ機能するかを測るために、制御された取り出しタスクを設定した。このタスクでは、キーとバリューのペアを作った。例えば、「フランスの首都」というキーとその対応するバリュー「パリ」を使ってモデルをトレーニングする。そして、モデルがどれだけバリューからキーを取り出せるかをテストしたり、その逆も行ったりした。

また、単にトークンを逆にするだけではパフォーマンスが向上しない他の関係やシナリオも調査した。代わりに、より柔軟なアプローチを用いた場合、因数分解に依存しない条件でトレーニングされたモデルが、さまざまなタイプの質問に対してより良い性能を示すことが分かった。

Wikipediaの知識を使った現実的な評価

テストにさらに複雑性を追加するために、Wikipediaのデータを使用して実践的な評価セットアップを作った。実際の記事とその関係に基づいてモデルを微調整することで、これらのモデルが適用される実世界の状況を模倣できた。

このセットアップでは、クローズドブックの質問応答に焦点を当てた。これは、モデルが外部のヒントなしにトレーニングだけに依存しなければならないという意味だ。我々は、エンティティとその関係について前方と後方の両方で推論を必要とする質問を考えた。

実験からの洞察

実験を通じて、因数分解に依存しない方法でトレーニングされたモデルが、さまざまなタスクに対してより良く一般化できることが分かった。例えば、モデルに情報を思い出させると、その反応は質問の表現に関係なく正確であることが多かった。これは大きなアドバンテージで、モデルが学んだ方法に制限されることなく、より多様な質問に対応できることを意味する。

また、後方推論タスクの間、従来のトレーニング方法で動作するモデルは苦労しているのも気づいた。その方法の問題は、一般的に前方の順序に焦点を当てていることだ。タスクが逆方向で作業を要求する場合、モデルはしばしば失敗してしまう。

興味深いことに、よりシンプルなセットアップでも情報を分解する方法が明確になることが分かった。同じ情報のさまざまな例から学ぶことで、モデルのパフォーマンスが劇的に向上した。

トレーニング方法の多様性の重要性

我々の研究からの大きな教訓は、トレーニング方法を変えることで全体的な結果が向上する可能性があることだ。固定されたマスキング率やトークンの逆転シーケンスの従来のアプローチは、必ずしも良い結果をもたらすわけではない。それに対して、我々の因数分解に依存しない方法は、同じ情報を異なる方法で解釈するためのさまざまなアプローチをモデルに取り入れることを可能にした。

文脈予測の幅広い配列を許可するトレーニング方法-例えば、順序に関係なく、他の文脈から任意の文脈を推測すること-は、有望な結果を示した。これは、学生が複雑なトピックを理解するのを助けるために、さまざまな角度から主題にアプローチできるようにすることに似ている。

言語モデルの計画能力

我々の研究のもう一つの興味深い結果は、言語モデルの計画能力が向上する可能性があることだ。ある種の計画を必要とするタスクに直面したとき、因数分解に依存しない戦略でトレーニングされたモデルは、その課題に対してより適しているように見えた。これは、これらのモデルが事実を思い出すだけでなく、実際のシナリオでそれを応用できることを示唆している。例えば、道をナビゲートするタスクが与えられた場合、我々の方法でトレーニングされたモデルは、以前の決定を見失うことなく、どの道を取るべきかを効率的に予測できた。これは、予見が必要なタスクを効果的に追従できなかった従来の自己回帰モデルとは対照的だ。

今後の方向性と考慮事項

我々の成果は有望だが、課題も残っている。タスクの全体的な複雑性から、モデルはシンプルなタスクからより複雑なシナリオへと移行するためのより良い方法が必要だ。言語の順序の複雑さに妨げられることなく、モデルが効果的に学ぶことができるようにするためには、さらなる研究が必要だ。

さらに、この研究から得られた洞察は、タスクに基づいてアプローチを調整するトレーニング方法への新たな関心を引き起こすかもしれない。モデルがより広い視点から知識を引き出せるようにする方法を追求し続けることが重要だ。

結論

要するに、言語モデルは一貫した合理的なテキストを生成する上で大きな進歩を遂げた。でも、知識の取り出しや幻覚に関連する課題は、改善されたトレーニング方法の必要性を浮き彫りにしている。因数分解の呪いは、従来のアプローチがモデルの理解や情報の使い方を制限することを強調している。

因数分解に依存しないトレーニングアプローチを採用することで、言語モデルは知識をより良く記憶し、取り出すことができるようになり、質問がどのように表現されても対応できるようになった。この研究は、より信頼性が高く、能力のあるモデルを構築する未来の進展の道を開くものだ。

オリジナルソース

タイトル: The Factorization Curse: Which Tokens You Predict Underlie the Reversal Curse and More

概要: Today's best language models still struggle with hallucinations: factually incorrect generations, which impede their ability to reliably retrieve information seen during training. The reversal curse, where models cannot recall information when probed in a different order than was encountered during training, exemplifies this in information retrieval. We reframe the reversal curse as a factorization curse - a failure of models to learn the same joint distribution under different factorizations. Through a series of controlled experiments with increasing levels of realism including WikiReversal, a setting we introduce to closely simulate a knowledge intensive finetuning task, we find that the factorization curse is an inherent failure of the next-token prediction objective used in popular large language models. Moreover, we demonstrate reliable information retrieval cannot be solved with scale, reversed tokens, or even naive bidirectional-attention training. Consequently, various approaches to finetuning on specialized data would necessarily provide mixed results on downstream tasks, unless the model has already seen the right sequence of tokens. Across five tasks of varying levels of complexity, our results uncover a promising path forward: factorization-agnostic objectives can significantly mitigate the reversal curse and hint at improved knowledge storage and planning capabilities.

著者: Ouail Kitouni, Niklas Nolte, Diane Bouchacourt, Adina Williams, Mike Rabbat, Mark Ibrahim

最終更新: 2024-06-07 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.05183

ソースPDF: https://arxiv.org/pdf/2406.05183

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

情報検索トピカルとテンプラルプロフィールでレコメンデーションシステムを改善する

トピックと時間を組み合わせることで、レコメンデーションの精度がアップする方法を発見しよう。

― 1 分で読む