Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

AIモデルの長文生成の進展

新しいトレーニング方法で、言語モデルが詳しい長文を作る能力が向上してるよ。

― 1 分で読む


長文用のAIモデル長文用のAIモデルデルを改善する。新しい手法が複雑な文章作成のための言語モ
目次

近年、言語モデルが指示に従って長いテキストを生成する能力を向上させることへの関心が高まってる。ほとんどの研究は短いシンプルなタスクに集中してきたけど、実際のアプリケーションには複雑な要求を扱うモデルが必要なんだ。この記事では、詳細な指示に従って長文を生成するためにモデルを訓練する新しいアプローチについて話すよ。

長文生成の課題

AIで開発された言語モデルは、特に指示に多くの具体的な要件が含まれる場合に、一貫性があって関連性のある長いテキストを生成するのが難しいことが多い。従来のデータセットは短い指示と簡潔な応答を組み合わせているが、包括的なレポートを書くとか、さまざまな制約に従った魅力的なストーリーを作るなど、もっと詳細なタスクを管理できるモデルが求められている。

新しいデータセットの作成

この問題に対処するために、研究者たちは2万の長い人間が書いたテキストの例を含む新しいデータセットを作った。各テキストは、書き方をガイドするための複数の制約を含む形で言語モデルによって生成された指示にリンクされている。長文に対する人間のフィードバックを集めるのは難しいことがあり、新しいトレーニング方法が開発された。

Instructional ORPOメソッド

新しいトレーニング方法であるInstructional ORPO(I-ORPO)は、モデルにフィードバックを提供するために異なるアプローチを使ってる。人間の判断に頼る代わりに、修正された指示を使ってエラーを導入するんだ。これにより、モデルは全体の目標に沿って誤りから学びながら成長できる。

モデルのファインチューニング

この研究で使われた主なモデルはMistral-7B-Instruct-v0.2。このモデルは、新しいデータセットとI-ORPOメソッドを使ってファインチューニングされた。目的は、モデルが与えられた要件を満たしつつ、質を損なうことなく長いテキストを生成できるようにすることだ。

モデルからの結果

ファインチューニングされたモデルは出力の長さを大幅に増加させ、常に4800〜5100トークンの平均的な長さの作品を生成した。これは前のモデルが達成したものよりもずっと長い。研究者たちは、モデルが与えられた制約にどれだけ従っているかを、自動的な評価と人間の判断を通じて評価した。

自動評価

自動テストでは、ファインチューニングされたモデルは、出力の反復が低いレベルに保たれていた。これは長文生成の一般的な問題なんだけど、これらのモデルは多様なアイデアを持った長いテキストを生成できることが示された。

人間の評価

人間の審査員は、I-ORPOモデルの出力を伝統的な監視付きファインチューニングモデルと比較した。I-ORPOモデルがより一貫性があって、魅力的で情報量の多いテキストを生成したと評価された。どちらのモデルにも強みがあったけど、I-ORPOモデルは制約を物語にうまく織り込む能力で一般的に好まれた。

データセットの構成

この研究に使われたデータセットは、ファンフィクション、書籍、インフォーマルな文書など、さまざまなソースからのテキストで構成されている。テキストは質の基準を満たし、指示に従うのに良い例となるように選ばれた。

指示の生成

テキストに関連する指示を作るために、研究者たちは指示バックトランスレーションという技法を使った。これは、人間が書いた作品を取り、それに類似のテキストを書くための潜在的な指示を生成するというもの。元の指示はモデルに明確な目標を提供し、腐敗したバージョンはモデルが適応して改善するのを助けた。

複雑な指示の扱い

この仕事の重要な側面の一つは、モデルが複雑な指示をどれほどうまく扱えるかをテストすることだった。研究者たちは、入力指示の制約が増えるとモデルのパフォーマンスが一般的に向上することを発見した。つまり、より詳細な指示がモデルの正確で満足のいく応答生成を助ける可能性があるってこと。

人間のアノテーターの役割

自動評価が有用な情報を提供する一方で、人間のフィードバックはモデルのパフォーマンスを理解する上で重要だった。アノテーターは、生成されたテキストが与えられた制約をどれだけ満たしているかを評価し、物語の質についての洞察を提供した。彼らは、モデルが印象的な結果を出す一方で、一部の出力は一貫性や完全性に苦しんでいることに気づいた。

結論

要するに、この研究は言語モデルにおける長文生成を改善するための有望なアプローチを示している。新しいデータセットを作成し、I-ORPOトレーニングメソッドを実施することで、モデルは大幅に長く、一貫性のあるテキストを生成できるようになった。この研究は、言語モデルの分野でのさらなる開発の必要性を浮き彫りにしていて、特に詳細で長い応答が求められるさまざまなアプリケーションでの使用が進んでいる。

今後の方向性

今後は、研究者たちはこの成果を他の言語モデルでテストすることを目指している。また、指示の長さや指示の性質など、さまざまな要因がモデルのパフォーマンスにどのように影響を与えるかを調査する計画もある。この研究は、複雑なライティングタスクを扱う言語モデルの能力を向上させるためのさらなる研究の道を開くものだ。

オリジナルソース

タイトル: Suri: Multi-constraint Instruction Following for Long-form Text Generation

概要: Existing research on instruction following largely focuses on tasks with simple instructions and short responses. In this work, we explore multi-constraint instruction following for generating long-form text. We create Suri, a dataset with 20K human-written long-form texts paired with LLM-generated backtranslated instructions that contain multiple complex constraints. Because of prohibitive challenges associated with collecting human preference judgments on long-form texts, preference-tuning algorithms such as DPO are infeasible in our setting; thus, we propose Instructional ORPO (I-ORPO), an alignment method based on the ORPO algorithm. Instead of receiving negative feedback from dispreferred responses, I-ORPO obtains negative feedback from synthetically corrupted instructions generated by an LLM. Using Suri, we perform supervised and I-ORPO fine-tuning on Mistral-7b-Instruct-v0.2. The resulting models, Suri-SFT and Suri-I-ORPO, generate significantly longer texts (~5K tokens) than base models without significant quality deterioration. Our human evaluation shows that while both SFT and I-ORPO models satisfy most constraints, Suri-I-ORPO generations are generally preferred for their coherent and informative incorporation of the constraints. We release our code at https://github.com/chtmp223/suri.

著者: Chau Minh Pham, Simeng Sun, Mohit Iyyer

最終更新: 2024-10-01 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.19371

ソースPDF: https://arxiv.org/pdf/2406.19371

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事