Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

MoE-LPRで言語モデルを改善する

新しい方法が、オリジナルの知識を失うことなく言語モデルの能力を向上させる。

Hao Zhou, Zhijun Wang, Shujian Huang, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Weihua Luo, Jiajun Chen

― 1 分で読む


MoE-LPR:MoE-LPR:言語モデルのソリューションローチ。多言語モデルの性能を向上させる新しいアプ
目次

大規模言語モデル(LLM)は、質問に答えたり、テキストを要約したり、推論を行ったりするための重要なツールになってる。でも、多くのLLMは英語ではうまくいくけど、他の言語では苦労してるのが現状。これは、トレーニングに使われる英語のデータ量が多いからだね。LLMがいろんな言語を理解して生成する能力を向上させるために、研究者たちはいろんな方法を試してるんだけど、時には元々学んだことを忘れちゃうことがある。これを「破滅的忘却」って呼ぶんだ。

この課題に取り組むために、僕たちは「Mixture-of-Experts with Language Priors Routing(MoE-LPR)」という方法を開発した。この方法は、LLMが元の言語の強みを保ちながら、新しい言語での能力も向上させることを目指してる。

現在の方法の問題

研究者がモデルの新しい言語処理能力を向上させようとすると、よく2つの課題に直面する。1つ目は、新しい言語では良い改善ができるけど、元の知識をかなり失うこと。2つ目は、元の知識を保持できるけど、新しい言語での改善がほとんど見られないこと。これが開発者にとって難しいバランスを要求するんだ。

多くの従来のアプローチは、元のパラメータをほとんど変えずに新しい言語でモデルをトレーニングしようとするけど、トレーニング中に両方の知識を効率的に組み合わせるのが難しいんだ。

MoE-LPRの紹介

MoE-LPRは、2段階のトレーニングプロセスとして設計されてる。最初のステップは、元の言語からの入力なしに新しい言語でのモデルの能力を向上させることに焦点を当ててる。2つ目のステップは、モデルが以前の知識を保持できるように元の言語を見直すこと。

ステップ1:Mixture-of-Expertsによるポストプレトレーニング

最初のステップでは、モデルをMixture-of-Experts(MoE)構造に変更する。この構造では、モデルが異なるタスクを処理するために専門家と呼ばれる複数の専門セクションを使えるようになる。このフェーズでは、高品質なテキストで新しい言語の能力を拡張することに集中し、元の言語データは含めてない。元のパラメータは変更されず、モデルのコアな知識が保持されるようになってる。

このプロセスを効果的にするために、負荷バランス損失が使われる。これによって、異なる専門家の活性化を均等に分散させることができ、モデルがどれか1つの専門家に負担をかけずに効果的に学習できるようになってる。

ステップ2:言語プライオリティによるレビュー

2つ目のステップでは、元の言語の知識を見直す。元の言語から少量のデータを使って、モデルがその言語の知識を取り戻せるようにトレーニングする。このフェーズは主にルーティングシステムを更新し、各テキストが最適なパフォーマンスのために正しい専門家に送られるようにする。

このレビュー段階で最も重要なパラメータに焦点を当てることで、モデルは元の強みを保ちながら新しい言語に適応することができ、計算要件の増加を最小限に抑えられるんだ。

実験設定

実験では、多言語に強いベースモデルを使った。あまり話されていない3つの言語、ギリシャ語、ハンガリー語、トルコ語を選んで、モデルが以前に示した弱いパフォーマンスを評価することにした。一方で、元の言語の能力の損失をモニタリングするために、英語、中国語、スペイン語というより一般的な3つの言語も見た。

モデルを効果的にトレーニングするために、いろんなソースから大きなデータセットを集めた。1つ目のステップでは新しい言語の大量のテキストを使い、2つ目のステップでは元の言語から少量のサンプルを選んで、モデルが以前の知識を見直して保持できるようにした。

結果

MoE-LPR法を評価したところ、有望な結果が得られた。モデルは新しい言語で改善できたけど、元の言語での大きな損失はなかった。これは、バランスを維持するのが難しかった従来の方法に比べて、注目すべき成果だった。

他の方法との比較

実験では、MoE-LPRをいくつかの既存の方法と比較した。1つの方法はフルファインチューニングで、全てのパラメータを一緒にトレーニングするもの。これにより元の知識を保持できたけど、新しい言語のパフォーマンスに顕著な低下が見られた。他の方法、例えばLoRAやLLaMA-Proも限界があった。たとえば、LoRAは拡張言語に苦労し、LLaMA-Proは知識を保持するのが得意だけど、もっと計算リソースが必要だった。

MoE-LPRは、拡張された言語と元の言語の両方でこれらの方法を大きく上回った。MoE-LPRの構造は、新しいパラメータを加えながらも計算負荷を増やさず、よりスケーラブルな解決策を提供したんだ。

言語知識のバランス

MoE-LPRの重要な特徴の1つは、新しい言語を学ぶことと古い言語の知識を保持することのバランスを維持できる点だ。2段階のトレーニングプロセスは、元の知識を定期的に見直すことで破滅的忘却の問題を直接解決してる。

モデルが少量の元の言語データから学習するレビュー段階は効果的だった。元のトレーニングデータの1%未満でも、モデルは新しい言語能力を犠牲にすることなく前の強さを大幅に取り戻したんだ。

スケーラビリティと一般化

スケーラビリティもMoE-LPRが優れている分野だ。設計で、専門家の数を調整するのが簡単で、推論時のパフォーマンスに影響を与えない。他の方法のように、レイヤーやコンポーネントを追加すると処理速度が遅くなることはないんだ。

さらに、モデルがトレーニングデータに含まれていない言語での知識を一般化する能力も明らかだ。フランス語やポルトガル語のような言語でも、モデルは強いパフォーマンスを維持していて、MoE-LPRが特定のトレーニング対象言語を超えて能力を効果的に拡張できることを示してる。

結論

まとめると、MoE-LPRは、LLMの多言語能力を向上させながら破滅的忘却を防ぐための革新的な解決策を提供してる。2段階のトレーニング方法で元の言語の知識を保持しつつ、新しい言語でのパフォーマンスを効果的に向上させることができる。有望な結果を出し、優れたスケーラビリティを持つMoE-LPRは、多言語自然言語処理技術の今後の進展のための強い基盤を築いている。このアプローチは、LLMを多言語の世界でより包括的で効果的にすることで、幅広いアプリケーションに利益をもたらすだろう。

オリジナルソース

タイトル: MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing

概要: Large Language Models (LLMs) are often English-centric due to the disproportionate distribution of languages in their pre-training data. Enhancing non-English language capabilities through post-pretraining often results in catastrophic forgetting of the ability of original languages. Previous methods either achieve good expansion with severe forgetting or slight forgetting with poor expansion, indicating the challenge of balancing language expansion while preventing forgetting. In this paper, we propose a method called MoE-LPR (Mixture-of-Experts with Language Priors Routing) to alleviate this problem. MoE-LPR employs a two-stage training approach to enhance the multilingual capability. First, the model is post-pretrained into a Mixture-of-Experts (MoE) architecture by upcycling, where all the original parameters are frozen and new experts are added. In this stage, we focus improving the ability on expanded languages, without using any original language data. Then, the model reviews the knowledge of the original languages with replay data amounting to less than 1% of post-pretraining, where we incorporate language priors routing to better recover the abilities of the original languages. Evaluations on multiple benchmarks show that MoE-LPR outperforms other post-pretraining methods. Freezing original parameters preserves original language knowledge while adding new experts preserves the learning ability. Reviewing with LPR enables effective utilization of multilingual knowledge within the parameters. Additionally, the MoE architecture maintains the same inference overhead while increasing total model parameters. Extensive experiments demonstrate MoE-LPR's effectiveness in improving expanded languages and preserving original language proficiency with superior scalability. Code and scripts are freely available at https://github.com/zjwang21/MoE-LPR.git.

著者: Hao Zhou, Zhijun Wang, Shujian Huang, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Weihua Luo, Jiajun Chen

最終更新: 2024-08-21 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2408.11396

ソースPDF: https://arxiv.org/pdf/2408.11396

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

コンピュータビジョンとパターン認識テキストガイダンスでビジュアル言語モデルを改善する

新しい方法が、機械がテキストを使って画像を分析するのを強化してるよ。

Dawei Yan, Pengcheng Li, Yang Li

― 1 分で読む

類似の記事

計算と言語ニューラル機械翻訳におけるポジショナルエンベディングの切り替え

研究によると、翻訳モデルでの位置埋め込みの効果的な置き換えがわかった。

Varun Gumma, Pranjal A. Chitale, Kalika Bali

― 1 分で読む