Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能# 機械学習

新しいデータセットがマルチターン会話のための言語モデルを強化する

M2Lingualデータセットは、いろんな言語で指示に従う能力を向上させるよ。

― 1 分で読む


M2Lingualで言語モM2Lingualで言語モデルを強化するな言語でLLMの性能を上げるよ。M2Lingualデータセットは、いろん
目次

大規模言語モデル(LLM)は、質問に答えたり、テキストを要約したり、異なる言語を理解したりするなどの言語に関する多くのタスクに人気のあるツールになってるんだ。このモデルは、特に異なる言語のさまざまな指示でトレーニングされると、ずっと良いパフォーマンスを発揮する。でも、ほとんどのトレーニングデータセットは、英語のようなリソースが豊富な言語に主に焦点を当てていて、資源が少ない言語にはあまり注意が払われてない。

この記事では、LLMが多くの言語で指示を理解して従う能力を向上させることを目指した新しいデータセットについて話すよ。このデータセットは、複数ターンの会話に対応するように特に設計されていて、ユーザーとモデルの間でのやり取りをサポートできるようになってる。それに、幅広い言語やタスクをカバーしてるから、より多用途なんだ。

背景

指示微調整(IFT)は、LLMにユーザーから与えられた指示に従う方法を教えるプロセスなんだ。これは、これらのモデルを実際のアプリケーションで役立たせるために重要。効果的なIFTデータセットを作成するための努力はあったけど、ほとんどは高リソース言語に集中してるから、リソースの少ない言語がトレーニングで十分に表現されてないんだ。それが、これらの言語でモデルがうまく機能する能力を制限してる。

既存の多言語データセットは、大きく分けて人間生成、人間とAIの共同生成、機械翻訳の3つのカテゴリに分かれる。人間生成のデータセットは多様性があっても、作成に時間がかかり費用もかさむ。一方、人間とAIが生成したデータセットはリソースが少なくて済むけど、プライバシーの懸念や低品質なデータの問題がある。機械翻訳のデータセットは時間を節約するけど、各言語の独特な特徴を捉えきれないことが多いんだ。

多くのデータセットはオープンドメインの会話に焦点を当てているため、指示ベースのタスクにはあまり適していない。これが、さまざまな言語で特定の指示に従う必要があるモデルのトレーニングを効果的でなくしてしまうんだ。

新しいデータセット

こうした制限に対処するために、完全に合成のデータセットが作成されたんだ。これは、人間の手を介さずにアルゴリズムによって完全に生成されたことを意味する。このデータセットはM2Lingualと呼ばれ、多くの言語にわたる複数ターンの指示をサポートするように設計されてる。

このデータセットを作成するプロセスは、主に2つのステップから成る。最初のステップは、高品質な指示-応答ペアを含む既存のデータセットから多様な例を集めること。次のステップは、これらの例をより複雑で挑戦的な指示に変えるための特別なルール(分類法)を適用すること。この結果、70の異なる言語にわたって182,000の指示-応答ペアを含むデータセットができたんだ。

シード選択

データセットは、主に2つのソースから取得したシード例から始まる。一つはAyaというデータセットで、ネイティブスピーカーによって作成された一般的な指示-応答ペアが含まれてる。もう一つはAyaの別の部分で、さまざまな言語タスクからの例が含まれてる。このシードが、より複雑な指示セットを作成するための良い基盤を提供してるんだ。

シード例は、幅広いトピックとタスクを表すように慎重に選ばれてる。両方のソースから例を選ぶことで、それぞれの強みを活かし、より包括的なトレーニングセットが得られるんだ。

指示-応答ペアの作成

シードが選ばれたら、新しい指示-応答ペアを作成するために変換プロセスが行われる。これは、指示の複雑さや豊かさを高めるために設計されたルールセットを適用することを含む。このステップは重要で、より挑戦的で異なる言語の独特な側面を捉えた新しい指示を生成できるからだ。

変換プロセスは、より詳細で魅力的なインタラクションを作成するのに役立つ異なるタイプの指示を取り入れてる。こうすることで、データセットは複雑な会話を扱うのにより適した指示を生成できるんだ。

複数ターンの会話

新しい指示-応答ペアが生成されたら、次のステップは複数ターンの会話を作成すること。これは、実生活の会話が往復のやり取りを含むことが多いから重要で、モデルがこれらのインタラクションを効果的に処理できる必要があるんだ。

複数ターンの要素は、AIが自然で魅力的な方法で応答できるようにするためのダイアログバリエーションのセットを通じて導入される。いくつかのフォローアップの質問や応答が含まれていて、会話がスムーズに流れ、さまざまな可能なインタラクションをカバーしてる。

評価

データセットが作成されたら、それが現実のタスクでどれだけ効果的かを評価することが重要だ。新しいデータセットは、様々な多言語ベンチマークを使用してテストされ、質問応答、要約、分類などのタスクを処理する能力が評価される。目標は、このデータセットでトレーニングされたモデルのパフォーマンスを既存の他のデータセットでトレーニングされたモデルと比較することだ。

初期の結果では、M2Lingualでトレーニングされたモデルが、特にリソースの少ない言語に関するタスクで、従来のデータセットでトレーニングされたモデルを大幅に上回ることが示されてる。これは、異なる言語で指示に従うLLMの能力を向上させるデータセットの効果を証明するものだ。

リソースの少ない言語への影響

新しいデータセットの主な目標の一つは、リソースの少ない言語に対する言語モデルのパフォーマンスを向上させることなんだ。これらの言語は、高リソース言語に利用できる広範なトレーニングデータが不足していることが多く、その結果モデルのパフォーマンスが悪くなるんだ。

M2Lingualデータセットは、リソースの少ない言語の指示-応答ペアのバランスの取れた表現を含んでいて、これらの言語が適切な注意を受けることを確保してる。これにより、LLMがこれらの言語の話者にとってよりアクセスしやすく、使いやすくなる手助けをし、言語技術の包括性を促進するんだ。

結論

M2Lingualデータセットの導入は、複数の言語で指示に従う能力を改善するための重要な一歩なんだ。複数ターンの会話に焦点を当て、既存のデータセットの欠点に対処することで、この新しいリソースはLLMの全体的なパフォーマンスを向上させ、特にあまり表現されていない言語での性能を高めるんだ。

言語技術が進化し続ける中で、M2Lingualのようなデータセットの作成は、すべての言語が人工知能の進歩の恩恵を受けることを確保するために不可欠なんだ。この取り組みは、より多くの人々がAI駆動のシステムと関われる新しい機会を開き、最終的には人間と機械の相互作用を豊かにすることにつながるんだ。

オリジナルソース

タイトル: M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models

概要: Instruction finetuning (IFT) is critical for aligning Large Language Models (LLMs) to follow instructions. While many effective IFT datasets have been introduced recently, they predominantly focus on high-resource languages like English. To better align LLMs across a broad spectrum of languages and tasks, we propose a fully synthetic, novel taxonomy (Evol) guided Multilingual, Multi-turn instruction finetuning dataset, called M2Lingual. It is constructed by first selecting a diverse set of seed examples and then utilizing the proposed Evol taxonomy to convert these seeds into complex and challenging multi-turn instructions. We demonstrate the effectiveness of M2Lingual by training LLMs of varying sizes and showcasing the enhanced performance across a diverse set of languages. We contribute the 2 step Evol taxonomy with the guided generation code: https://github.com/ServiceNow/M2Lingual, as well as the first fully synthetic, general and task-oriented, multi-turn, multilingual dataset built with Evol - M2Lingual: https://huggingface.co/datasets/ServiceNow-AI/ M2Lingual - containing 182K total IFT pairs, covering 70 languages and 17+ NLP tasks.

著者: Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan

最終更新: 2024-06-28 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.16783

ソースPDF: https://arxiv.org/pdf/2406.16783

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事