Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 人工知能# 計算と言語

言語モデルのための多ショット学習の進展

この論文は、言語モデルにおける多様ショット学習の利点をレビューしている。

― 1 分で読む


AIモデルにおけるマニショAIモデルにおけるマニショット学習ーマンスを向上させよう。多ショット学習技術の進展を探って、パフォ
目次

大規模言語モデル(LLM)は、予測を行う時に提供された例を使って新しいタスクを学べることを示してきた。これをインコンテキスト学習(ICL)と呼ぶ。従来、この学習アプローチは少数の例に焦点を当てていて、それを少数ショット学習と言う。でも、最近の advancements により、モデルは一度にもっとたくさんの例を扱えるようになり、これが多数ショット学習と呼ばれるものになった。

この論文では、少数ショットから多数ショット学習に移行することで、さまざまなタスクでのパフォーマンスが向上することについて話す。また、トレーニングのために高品質な人間が作成した例を十分に得るという課題を克服する手法も紹介する。

多数ショット学習の理解

多数ショット学習では、モデルが一度に数百または数千の例から学ぶことができる。このより広範な例のセットは、少数の例よりもタスクをより正確に明確にするのに役立つ。最近のLLMのコンテキストウィンドウの改善により、より多くのデータを処理できるようになったことが、これを可能にした。

多数ショット学習には多くの利点があるけれど、課題もある。一つの大きな課題は、多くの高品質な人間生成の例が必要だということ。この要件は、多数ショット学習の効果を制限することがあり、特に詳細な推論が必要な複雑なタスクでは影響がある。

課題へのアプローチ

多くの人間の入力が必要という制限に対処するために、2つの新しい方法を探った:強化ICLと無監督ICL。

強化ICL

強化ICLでは、人間が作成した例に頼る代わりに、モデル自身が生成した例を使用する。この方法では、モデル生成の理由をタスクと一緒に説明として使用する。これにより、より多くの例を活用でき、結果が改善される可能性がある。

無監督ICL

無監督ICLでは、理由が必要なくて、モデルにはタスクの入力だけが提供される。これにより、モデルがすでにタスクについて十分な知識を持っているときに、タスクだけを考慮して回答を生成できる。この方法は、人間生成の例への依存をさらに減らしつつ、パフォーマンスの水準を維持できる。

多数ショット学習からの結果

さまざまなタスクにわたる実験で、多数ショット学習に移行すると、パフォーマンスが大幅に向上することがわかった。この改善は、数学の問題解決、翻訳、要約など、難しい分野で特に顕著だった。

タスクパフォーマンスの向上

翻訳や要約などのタスクに多数ショット学習を適用すると、モデルは少数ショット設定よりも一貫して良い結果を出した。たとえば、英語からクルド語やタミル語のようなリソースが少ない言語への翻訳では、多くの例を使用することで翻訳の質が明らかに改善された。

さらに、要約タスクでは、多数ショットICLによってモデルは専門のモデルが生成したものに近い要約を生成できるようになった。

推論タスクにおけるパフォーマンス

多数ショット学習は、特に数学的な問題解決の推論タスクでも有益だった。モデルがより多くの例に基づいて応答を生成し利用する能力により、正確さが向上し、複雑な問題を解決する成功率も高まった。

人間が書いた理由なしでの学習

この研究の重要な側面は、モデルが人間が作成した例に依存せずに成功できるかどうかを調査することだった。強化ICLと無監督ICLの両方で、モデルはしばしば人間生成の例を使用したものよりもパフォーマンスが優れている出力を生成した。

パフォーマンス分析

数学の問題解決や複雑な推論のようなタスクでは、強化ICLと無監督ICLは人間が作成した解決策に依存する従来の少数ショット学習法を上回った。これは、モデルが広範囲な人間の入力なしで効果的に問題を解決する能力を活用できることを示している。

事前訓練バイアスの克服

もう一つの重要な発見は、多数ショット学習がモデルが初期訓練中に導入されたバイアスを忘れる手助けをする可能性があることだった。分析の結果、十分な例があれば、モデルは新しいタスク要件に調整し、学習した好みと対立するデータに直面してもより正確に反応できるようになることが示された。

バイアス問題への対処

多数ショット学習設定で多様な例を提供することにより、モデルは以前のバイアスが彼らを迷わせる可能性がある状況を扱うのが上手くなった。例の数が増えるにつれて、モデルはタスクのコンテキストにより密接に一致する出力を生成でき、以前の条件付けを効果的に克服することができた。

非言語タスクの学習

多数ショット学習は、数学の関数や分類問題などの非言語タスクにも効果的であることが証明された。LLMが数値データを扱い、高次元空間でうまく機能する能力は、これらのモデルがテキストベースのタスクに限定されないことを示している。

数値入力でのテスト

評価では、モデルは高次元データの複雑なパターンを特定するタスクを与えられた。その結果、多数ショットICLが実際に幅広い入力に適応でき、少数ショットシナリオで通常困難なタスクで印象的な正確さを達成できることが示された。

例の順序に対するモデルの感度

言及する価値があるのは、多数ショットプロンプト内の例の順序がパフォーマンスに大きな影響を与えることだ。少数ショット学習と多数ショット学習の両方で、例の配置が異なれば結果が変わることがある。この感度は、モデルの学習可能性を最大限に引き出すためにプロンプトを設計する際に注意が必要だ。

将来の研究への影響

これらの発見は、さまざまな分野やタスクにおける多数ショット学習の可能性をより広く研究する必要性を示している。モデルが機能とサイズを拡大するにつれて、より多くのデータからどのように学ぶかを理解することは、今後の発展において重要になるだろう。

コンテキストの長さが長い強化されたモデルは、多数ショットICLの可能性をさらに探求し、さまざまな業界におけるAIアプリケーションの大きな進展につながるだろう。

結論

要するに、多数ショットのインコンテキスト学習は、モデルがタスクにアプローチする方法において大きな前進を示している。より多くの例を効果的に活用できる能力を持つモデルは、少数ショット学習だけでは不可能だった方法で学習し、適応できる。

強化ICLと無監督ICLの両方の手法は、人間生成のコンテンツへの依存を減らしつつ、さまざまなタスクで強力なパフォーマンスを達成する可能性を示している。多数ショット学習の可能性を探求し続けることで、AIの能力と応用においてさらに重要な進展が期待できる。

オリジナルソース

タイトル: Many-Shot In-Context Learning

概要: Large language models (LLMs) excel at few-shot in-context learning (ICL) -- learning from a few examples provided in context at inference, without any weight updates. Newly expanded context windows allow us to investigate ICL with hundreds or thousands of examples -- the many-shot regime. Going from few-shot to many-shot, we observe significant performance gains across a wide variety of generative and discriminative tasks. While promising, many-shot ICL can be bottlenecked by the available amount of human-generated examples. To mitigate this limitation, we explore two new settings: Reinforced and Unsupervised ICL. Reinforced ICL uses model-generated chain-of-thought rationales in place of human examples. Unsupervised ICL removes rationales from the prompt altogether, and prompts the model only with domain-specific questions. We find that both Reinforced and Unsupervised ICL can be quite effective in the many-shot regime, particularly on complex reasoning tasks. Finally, we demonstrate that, unlike few-shot learning, many-shot learning is effective at overriding pretraining biases, can learn high-dimensional functions with numerical inputs, and performs comparably to fine-tuning. We also find that inference cost increases linearly in the many-shot regime, and frontier LLMs benefit from many-shot ICL to varying degrees. Our analysis also reveals the limitations of next-token prediction loss as an indicator of downstream ICL performance.

著者: Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Luis Rosias, Stephanie Chan, Biao Zhang, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle

最終更新: 2024-10-17 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2404.11018

ソースPDF: https://arxiv.org/pdf/2404.11018

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事