ダイノサウル: 言語モデルのためのインストラクションチューニングの革新
Dynosaurは指示調整データの作成を自動化して、質とコストのメリットを提供するよ。
― 1 分で読む
インストラクションチューニングは、大規模言語モデル(LLM)が指示を理解して応答する能力を向上させるために重要になってきた。現在の方法は手動アノテーションや既存のLLMを使ってデータを生成することに依存していることが多い。これらの方法は高品質なインストラクションチューニングデータセットを提供することを目指しているが、指示とすでにアノテーションされたデータセットをうまく結びつけることができないという課題に直面している。
Dynosaurって何?
Dynosaurは、インストラクションチューニングデータを自動的に生成することに焦点を当てた新しいアプローチ。既存のデータセットとそのメタデータを使って、関連するデータフィールドを特定し、適切な指示を生成することができる。この方法には、指示生成のコスト削減、高品質なデータ、そして新しいデータが利用可能になるにつれて常に改善できるといういくつかの利点がある。
Dynosaurの利点
コスト効率
Dynosaurは、インストラクションチューニングデータを生成する際のコストを削減する。たとえば、GPT-3.5-turboを使って80万サンプルを生成するのに約11.5ドルかかるのに対して、他の方法で作成された小さなデータセットは約500ドルかかる。
高品質
Dynosaurは高品質なインストラクションチューニングデータも提供する。Dynosaurで訓練されたモデルは、もっと高価なデータセットで訓練されたモデルと比べて、タスクのパフォーマンスが向上した。たとえば、DynosaurでファインチューニングされたT5-3BとLLAMA-7Bモデルは、さまざまなデータセットで訓練された他のモデルよりも明らかなパフォーマンス向上を示した。
継続的改善
新しいアノテーションデータセットがリリースされると、Dynosaurは新たにインストラクションチューニングデータを生成することで適応できる。プラットフォームでは、日平均143.6の新しいデータセットが追加されており、Dynosaurは成長し、モデルのパフォーマンスを時間とともに向上させることができる。
Dynosaurの仕組み
メタデータの収集
Dynosaurデータを作成する最初のステップは、既存のデータセットからメタデータを収集すること。メタデータには、各データセットに関する重要な情報が含まれていて、名前、説明、データフィールド、アノテーションなどがある。このメタデータは、関連するタスクを生成するための基盤となる。
インストラクションチューニングデータの生成
収集したメタデータを使って、LLMが各データセットに関連する複数のタスクを生成する。メタデータを理解することで、LLMは特定の指示を作成し、同時に入力/出力フィールドを指定することができる。たとえば、本の詳細のデータセットから、モデルは「タイトルと著者に基づいて本が出版される年を予測せよ」といった指示を生成するかもしれない。
無効タスクのフィルタリング
LLMによって生成されたタスクは、その有効性を確保するためにフィルタリングされる。特定の基準を満たさないタスク(存在しないデータフィールドや重複する入力/出力フィールドを持つものなど)は、最終データセットから除外される。
データの整理
有効なタスクがフィルタリングされたら、インストラクションデータは、指示、入力フィールド、出力が含まれるフォーマットに整理される。この構造により、モデルがデータを効果的にトレーニング中に使用しやすくなる。
Dynosaurの評価
ベンチマークタスクでのパフォーマンス
Dynosaurは、その効果を評価するためにさまざまなベンチマークタスクでテストされた。Dynosaurデータを使用して訓練されたモデルは、他のインストラクションチューニングデータセットで訓練されたモデルよりも多くの評価で優れたパフォーマンスを示した。たとえば、Dynosaurで訓練されたT5-3BとLLAMA-7Bは、Super-NIとLongFormタスクでより良い結果を示した。
人間による評価
自動評価に加えて、人間の評価者がDynosaurで訓練されたモデルによって生成された出力の質を評価した。フィードバックは、他のデータセットを使用して生成された出力よりもDynosaurデータで生成された出力の方が好まれることを示していた。
Dynosaurによる継続的学習
Dynosaurの動的な特性は、モデルが継続的に学ぶことを可能にする。継続的学習の概念は、新しいタスクに対して訓練を行いながら、以前に学習したタスクを忘れないことに焦点を当てている。これは、より多くのデータが利用可能になるにつれて特に重要だ。
リプレイ戦略
継続的学習では、以前のタスクをリプレイすることで、モデルが新しいタスクを学びながらもそのパフォーマンスを維持できる。リプレイするタスクを選択するためにさまざまな戦略が使用される。たとえば、タスクが新しいタスクにどれだけ似ているかに基づいて選択することができる。実験では、リプレイのために多様なインストラクション表現を使用することでパフォーマンスが向上した。
制限の対処
Dynosaurは有望なアプローチを示しているが、いくつかの制限もある。現在、英語データセットのみを対象としており、多言語データセットはあまり探求されていない。また、Dynosaurデータの全体的な品質は高いが、一部には無効なエントリも残っている。これらの問題に対処し、データの質をさらに向上させるための継続的な作業が行われている。
結論
Dynosaurは、インストラクションチューニングのためのデータキュレーション分野において重要な進展を示している。既存のデータセットとそのメタデータを活用することで、高品質なインストラクションチューニングデータを低コストで効率的に生成できる。新しいデータに適応し成長する能力は、インストラクションを理解し、従う言語モデルのパフォーマンスを向上させるための貴重なツールとなる。NLPの世界が進化し続ける中、Dynosaurのようなイノベーションは、インストラクションチューニングの未来を形作る上で重要だ。
タイトル: Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation
概要: Instruction tuning has emerged to enhance the capabilities of large language models (LLMs) to comprehend instructions and generate appropriate responses. Existing methods either manually annotate or employ LLM (e.g., GPT-series) to generate data for instruction tuning. However, they often overlook associating instructions with existing annotated datasets. In this paper, we propose Dynosaur, a dynamic growth paradigm for the automatic curation of instruction-tuning data. Based on the metadata of existing datasets, we use LLMs to automatically construct instruction-tuning data by identifying relevant data fields and generating appropriate instructions. By leveraging the existing annotated datasets, Dynosaur offers several advantages: 1) it reduces the API cost for generating instructions (e.g., it costs less than $12 USD by calling GPT-3.5-turbo for generating 800K instruction tuning samples; 2) it provides high-quality data for instruction tuning (e.g., it performs better than Alpaca and Flan on Super-NI and Longform with comparable data sizes); and 3) it supports the continuous improvement of models by generating instruction-tuning data when a new annotated dataset becomes available. We further investigate a continual learning scheme for learning with the ever-growing instruction-tuning dataset, and demonstrate that replaying tasks with diverse instruction embeddings not only helps mitigate forgetting issues but generalizes to unseen tasks better. Code and data are available at https://github.com/WadeYin9712/Dynosaur.
著者: Da Yin, Xiao Liu, Fan Yin, Ming Zhong, Hritik Bansal, Jiawei Han, Kai-Wei Chang
最終更新: 2023-10-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.14327
ソースPDF: https://arxiv.org/pdf/2305.14327
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。