Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

インディック言語のための言語モデルの進化

多様なインドの言語のために言語モデルを強化する新しいアプローチ。

― 1 分で読む


インディック言語モデルの強インディック言語モデルの強善。言語理解を向上させるためのデータ準備の改
目次

私たちは、インドの複数言語をサポートする大規模な言語モデルを作成するためのデータ準備の新しい方法を開発したんだ。私たちのアプローチは、本やニュース記事、ウィキペディアなど、いろんなソースを使って多様なテキストを集めることに重点を置いてる。特別なツールを作って、データを整理し、質の低いものや重複したコンテンツを取り除いてる。これによって、モデルが最良の例から学ぶことができるようにしてるんだ。

インディック言語の課題

インドには多くの異なる言語があって、インド・アーリア語、ドラヴィダ語、ムンダ語などがある。これらの言語のテキストを提供するリソースはたくさんあるけど、ほとんどの既存の言語モデルはそれをうまくサポートしていないんだ。このサポート不足は、質の高いデータが不足しているため、革新や進展を制限してしまう。EMILLE/CIILやインド語のウィキペディアのような主要なリソースは少し役立つけど、言語モデルの訓練に必要な量や質にはまだ足りてないんだ。

データソースと準備

私たちの言語モデルを作成するために、いくつかのソースからデータを集めたんだけど、特にインディック言語に焦点を当てた。Common Crawlっていう巨大なウェブページのアーカイブからテキストを集めたけど、そのデータのかなりの部分が役に立たなかったり重複してたりした。だから、データをクリーンにして整理するプロセスを実施したんだ。

クリーンアッププロセスでは、重複アイテムを取り除く方法を使ったよ。これはとても重要なんだ。というのも、ウェブページには重複したコンテンツが多いから。重複をフィルタリングすることで、データの質が向上して、モデルの訓練により役立つようになった。

インディック言語のトークナイゼーション

トークナイゼーションは、言語モデルのためにテキストを準備する重要なステップだ。テキストを単語やサブワードのような小さな部分に分解して、コンピュータが理解しやすくするんだ。従来のトークナイゼーション方法は複雑で、特定の言語に合わせてカスタマイズされていることが多いけど、私たちには多くのインディック言語にうまく機能するシンプルなアプローチが必要だった。

私たちは、SentencePieceというトークナイゼーションツールを使ったんだ。これは生のテキストから直接サブワードモデルを作成することができる。このおかげで、事前に定義された単語リストなしでモデルを訓練できるんだ。研究では、異なるトークンボキャブラリーのサイズをテストして、ボキャブラリーのサイズを増やすことでモデルのパフォーマンスが向上することがわかったよ。

高品質なデータの重要性

高品質なデータを持つことは、効果的な言語モデルを開発するために重要なんだ。クリーンで関連性のあるデータだけを使用するために、さまざまなフィルタリング技術を試したよ。このプロセスでは、単語の頻度や全体的な文の質など、さまざまな要素を考慮した。これらの技術を適用することで、モデルの学習結果により良い影響を与える信頼性のあるデータセットができたんだ。

モデルの訓練と結果

クリーンなデータセットができたら、言語モデルの訓練に進んだんだ。 promisingな結果を示した多言語トークナイザーを使って訓練を構築したよ。私たちのカスタムトークナイザーと、OpenAIのTiktokenのような既存のモデルを比較した結果、私たちのトークナイザーはインディック言語に対してより良いパフォーマンスを示したんだ。

分析の結果、私たちのアプローチはエラーが少なく、有意義なトークンの比率が高く、インドの言語の豊かな言語構造により適していることがわかった。これは、これらの言語に対するテクノロジーのサポートを改善する道を開く重要な進展だよ。

結論

要するに、私たちはインディック言語でテキストを理解し生成する大規模な言語モデルを準備し訓練するための包括的なアプローチを作り上げた。データを丹念に集め、クリーンにし、処理することで、これらの多様な言語で効果的に機能する言語モデルの基盤ができたんだ。私たちの仕事は、しばしば見逃されがちな言語のためのテクノロジーを進化させる際に、質の高いデータと革新的な前処理方法の重要性を強調している。

これから先、私たちの発見が言語モデルの改善につながり、特にインドで話されている言語の幅広い範囲にもっとアクセスしやすくなることを期待しているよ。

オリジナルソース

タイトル: Pretraining Data and Tokenizer for Indic LLM

概要: We present a novel approach to data preparation for developing multilingual Indic large language model. Our meticulous data acquisition spans open-source and proprietary sources, including Common Crawl, Indic books, news articles, and Wikipedia, ensuring a diverse and rich linguistic representation. For each Indic language, we design a custom preprocessing pipeline to effectively eliminate redundant and low-quality text content. Additionally, we perform deduplication on Common Crawl data to address the redundancy present in 70% of the crawled web pages. This study focuses on developing high-quality data, optimizing tokenization for our multilingual dataset for Indic large language models with 3B and 7B parameters, engineered for superior performance in Indic languages. We introduce a novel multilingual tokenizer training strategy, demonstrating our custom-trained Indic tokenizer outperforms the state-of-the-art OpenAI Tiktoken tokenizer, achieving a superior token-to-word ratio for Indic languages.

著者: Rahul Kumar, Shubham Kakde, Divyansh Rajput, Daud Ibrahim, Rishabh Nahata, Pidathala Sowjanya, Deepak Kumar

最終更新: 2024-07-17 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2407.12481

ソースPDF: https://arxiv.org/pdf/2407.12481

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

ニューラル・コンピューティングと進化コンピューティング粒子群最適化でニューラルトレーニングを再発明する

新しい方法で神経細胞が独立して働けるようになって、ニューラルネットワークのトレーニングが向上したよ。

― 1 分で読む

類似の記事