Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能# 機械学習

MAP-Neoを紹介するよ:新しいオープンソースのバイリンガルモデルだ!

MAP-NeoはAI言語モデルの透明性とパフォーマンスを目指してるよ。

― 1 分で読む


MAPMAPNeo:オープンバイリンガルモデルを促進してるよ。新しいモデルはAI言語技術の透明性と競争
目次

最近、大規模言語モデル(LLM)は大きく進化したんだ。でも、GPTやGemini、Claudeみたいなトップモデルはプライベートにされてて、研究者がどう作られたのか理解するのが難しいんだよね。LLaMA-3みたいな公開モデルもあるけど、トレーニングデータやコードといった多くの詳細が共有されないことが多い。

そのために、ほんとにオープンソースのモデルを提供して、トレーニングやデータ収集のプロセスについてもっと情報を共有している研究グループがあるんだ。Pythia、Amber、OLMoみたいなモデルが、LLMの強みや弱みについての洞察を提供して、オープンな研究コミュニティに貢献してるよ。

でも、こうした努力にもかかわらず、現在のオープンソースモデルは推論とか知識タスク、コード生成の分野で、最高のプライベートモデルにはまだ追いついてない。そこで、私たちはMAP-Neoを紹介するよ。これは70億のパラメータを持つバイリンガル言語モデルで、質の高いデータの4.5兆トークンでトレーニングされてるんだ。私たちのモデルは、既存のトップモデルに対して競争力のあるパフォーマンスを示す最初の完全オープンソースのバイリンガルLLMなんだ。

MAP-Neoの特徴

オープンさと透明性

MAP-Neoは透明性を重視して設計されてる。モデルを再現するために必要な詳細をすべて共有してるよ。これには、きれいにしたプレトレーニングデータ、データをきれいにするための方法、中間モデルのチェックポイント、トレーニングと評価の枠組みが含まれてる。これらのリソースを提供することで、学術コミュニティを支援し、この分野でのさらなる研究を促進することを目指してるんだ。

パフォーマンス比較

MAP-Neoはベースモデルとチャットモデルの構成で、さまざまなベンチマークで良いパフォーマンスを発揮してるよ。人気のオープンソースモデルや最近の透明なモデルと比較した結果、MAP-Neoは推論、コーディング、知識タスクの分野で優れてることが示されたんだ。

オープンソースモデルの必要性

最近のAIの能力の向上は、GPT-4やClaudeのようなLLMによって推進されてる。これらのモデルは複雑な推論、創造的な執筆、科学教育などができるんだ。でも、最高のモデルはしばしば一般公開されてなくて、学術研究やAI技術の民主化を制限してるんだ。

LLaMAやBLOOMのような過去のオープンソースモデルの試みは役立ったけど、トレーニングデータについての完全な詳細を開示することには失敗してる。OLMoはより多くの詳細を提供することで状況を改善したけど、プライベートモデルに比べてまだパフォーマンスにギャップがある。

MAP-Neoの紹介

このギャップを埋めるために、MAP-Neoは完全オープンソースのバイリンガルモデルで、最高のクローズドソースモデルと同等のパフォーマンスを目指しつつ、透明性を提供することを目指してる。MAP-Neoの構築プロセス全体には、データの詳細なキュレーションパイプライン、包括的なモデルアーキテクチャ、評価方法が含まれてるんだ。

データキュレーションパイプライン

私たちは、英語と中国語のトレーニングデータのために徹底的なデータキュレーションとクリーンプロセスを開発してる。これには安定したOCRシステム、データリコールメカニズム、既存のデータ処理パイプラインの統合、分散処理のサポートが含まれてるよ。

データソース

MAP-Neoのプレトレーニングコーパス、Matrix Data Pileは、Common Crawl、プログラミングコード、学術論文、本など、さまざまなソースで構成されてる。内容は英語と中国語の両方を強調してるんだ。

モデルアーキテクチャ

MAP-Neoはトランスフォーマデコーダーアーキテクチャに基づいてる。標準的なトランスフォーマモデルにいくつかの改善を加えてるよ、たとえば:

  • マルチクエリアテンション
  • ロータリーポジショナルエンベディング(RoPE)
  • 安定性のためのRMSNorm

これらの修正はパフォーマンスを最適化して、MAP-Neoがテキストを理解したり生成したりするのをより効果的にしてる。

MAP-Neoのトレーニングとファインチューニング

MAP-Neoは二段階のトレーニング戦略に従ってる。

プレトレーニングフェーズ

最初のフェーズは、広範なテキストを使って一般的な能力に焦点を当ててる。プレトレーニングフェーズでは1000億トークン以上を処理して、多様な入力に対して堅牢なトレーニングを行ってるよ。

ファインチューニングフェーズ

第二のフェーズでは、コーディング、推論、複雑な言語の理解といったタスクでのパフォーマンスを向上させるために、特定の指示データを使ってモデルの能力を洗練させてる。さまざまなアプリケーションで人間の行動により近づくように、監督付きファインチューニングを適用してるんだ。

パフォーマンス評価

MAP-Neoは多くのベンチマークで評価されて、顕著な改善を示してる。推論、コーディング、世界知識、読解力の指標に基づいてパフォーマンスを評価して、結果の一貫性と信頼性を確保してるよ。

結果

私たちの評価は、MAP-Neoが他のモデルと比較して特にコーディングや数学のタスクで強いスコアを達成することを示している。MAP-Neoは、以前は同様のベンチマークで苦戦していた他のオープンソースモデルを上回ってるんだ。

データ品質の役割

トレーニングデータの質はモデルのパフォーマンスに直接影響する。高品質なデータセットを注意深くキュレーションすることで、MAP-Neoは信頼性の低いデータに依存していた以前のモデルを効果的に上回ることができるんだ。

オープンさの重要性

オープンソースモデルへの移行は、いくつかの理由で重要なんだ:

  1. AIの民主化:オープンソースモデルは、AIの進展が小さな企業や研究者を含むより広いオーディエンスにアクセス可能であることを助ける。

  2. 透明性:詳細なプロセスを共有することで、研究者はモデルの動作を理解できるようになり、改善や信頼がしやすくなる。

  3. コラボレーションとイノベーション:オープンソースは、研究者間でアイデアや改善を共有することを促進し、より早いイノベーションにつながる。

結論

この報告書では、LLMの透明性に向けた重要な進展としてMAP-Neoを紹介したよ。私たちの方法、データ、モデルの詳細を共有することで、AIコミュニティでのさらなる研究と開発を刺激できることを願ってる。私たちの仕事は、高いパフォーマンスのモデルを作りながらも、オープンで透明であることが可能であることを示していて、世界中のAI技術のより包括的な発展の道を切り開いてるんだ。

今後の方向性

MAP-Neoプロジェクトは、LLMの透明性とアクセス可能性を促進するための重要なステップを表してる。今後の取り組みは、他の研究者や機関とのコラボレーションを強化し、データセットを拡大し、パフォーマンスの継続的な改善を確保するためにモデルを洗練させることに焦点を当てるよ。

広範なAIコミュニティと関わることで、残りのパフォーマンスのギャップに対処して、社会全体に利益をもたらす進展を続けていきたいと思ってるんだ。

オリジナルソース

タイトル: MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

概要: Large Language Models (LLMs) have made great strides in recent years to achieve unprecedented performance across different tasks. However, due to commercial interest, the most competitive models like GPT, Gemini, and Claude have been gated behind proprietary interfaces without disclosing the training details. Recently, many institutions have open-sourced several strong LLMs like LLaMA-3, comparable to existing closed-source LLMs. However, only the model's weights are provided with most details (e.g., intermediate checkpoints, pre-training corpus, and training code, etc.) being undisclosed. To improve the transparency of LLMs, the research community has formed to open-source truly open LLMs (e.g., Pythia, Amber, OLMo), where more details (e.g., pre-training corpus and training code) are being provided. These models have greatly advanced the scientific study of these large models including their strengths, weaknesses, biases and risks. However, we observe that the existing truly open LLMs on reasoning, knowledge, and coding tasks are still inferior to existing state-of-the-art LLMs with similar model sizes. To this end, we open-source MAP-Neo, a highly capable and transparent bilingual language model with 7B parameters trained from scratch on 4.5T high-quality tokens. Our MAP-Neo is the first fully open-sourced bilingual LLM with comparable performance compared to existing state-of-the-art LLMs. Moreover, we open-source all details to reproduce our MAP-Neo, where the cleaned pre-training corpus, data cleaning pipeline, checkpoints, and well-optimized training/evaluation framework are provided. Finally, we hope our MAP-Neo will enhance and strengthen the open research community and inspire more innovations and creativities to facilitate the further improvements of LLMs.

著者: Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, Raven Yuan, Tuney Zheng, Wei Pang, Xinrun Du, Yiming Liang, Yinghao Ma, Yizhi Li, Ziyang Ma, Bill Lin, Emmanouil Benetos, Huan Yang, Junting Zhou, Kaijing Ma, Minghao Liu, Morry Niu, Noah Wang, Quehry Que, Ruibo Liu, Sine Liu, Shawn Guo, Soren Gao, Wangchunshu Zhou, Xinyue Zhang, Yizhi Zhou, Yubo Wang, Yuelin Bai, Yuhan Zhang, Yuxiang Zhang, Zenith Wang, Zhenzhu Yang, Zijian Zhao, Jiajun Zhang, Wanli Ouyang, Wenhao Huang, Wenhu Chen

最終更新: 2024-07-10 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2405.19327

ソースPDF: https://arxiv.org/pdf/2405.19327

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

参照リンク

著者たちからもっと読む

類似の記事