アゼルバイジャン語モデルの進展
この記事はアゼルバイジャン語のオープンソースモデルの進展をレビューしてるよ。
― 1 分で読む
目次
最近の多言語大規模言語モデルの進展により、アゼルバイジャン語を理解し生成するツールを作成することが可能になった。ただ、今日利用できるシステムのほとんどはGPT-4のようなクラウドサービスに依存していて、これが多くの人にとっての利用を制限することになっている。アゼルバイジャン語のオープンファンデーションモデルの作成に向けた努力もあったけど、十分なテストや評価が行われていないため、大きな進展は見られなかった。この文章ではアゼルバイジャン語のオープンソースファンデーションモデルを推進するためのさまざまな取り組みについて議論するよ。
オープンファンデーションモデルの重要性
大規模言語モデル(LLM)は、最近いろんな業界で人気を集めている。でも、その成長は世界中で均等じゃなくて、リソースが少ない言語、例えばアゼルバイジャン語(約2400万人の話者がいる)なんかは特にそう。既存の多くのモデルはアゼルバイジャン語を理解する能力が限られていて、オープンAIのような企業の有料モデルが市場である程度受け入れられている。ただ、多言語またはアゼルバイジャン語に特化したオープンソースモデルが開発されているけど、それが広く受け入れられるには至っていない。これには、これらのモデルが何ができるのかについての認知が限られていることも関係しているかもしれない。
アゼルバイジャン語モデリングへの貢献
アゼルバイジャン語のオープンソースファンデーションモデル開発への主な貢献は以下の通り:
- DOLLMA:アゼルバイジャン語の651.1百万単語を含む大規模なテキストコレクションで、LLMのトレーニングに適している。
- aLLMA:このデータセットから開発されたBERTタイプのモデルのシリーズ。
- ベンチマークデータセット:これらのモデルを評価するために作成された3つのラベル付きデータセット:
- AZE-SCI:テキスト分類タスクに焦点を当てている。
- AZE-NSP:次の文を予測するタスク。
- CB-MCQ:クローズドブック形式の質問応答データセット。
- 包括的評価:アゼルバイジャン語をサポートするさまざまなオープンソースモデルのテスト。
言語モデルの概要
言語モデルは何年も前から存在しているけど、トランスフォーマーベースのモデルの登場は大きなシフトを示している。これらのモデルはデータを並列処理する能力によって多くのパラメータを含んでいる。開発は2つのフェーズで行われる:
- 事前トレーニング:膨大な量のテキストデータで行う。
- ファインチューニング:特定のタスクのために小規模で質の高いデータセットでモデルを調整する。
モデルはエンコーダ、デコーダ、またはその両方に分類できる。エンコーダモデルは感情分析のような理解を必要とするタスクを処理し、デコーダモデルはテキスト翻訳のような生成タスクにより適している。この作業は、BERTのような人気モデルに触発されたエンコーダ専用モデルに焦点を当てている。
アゼルバイジャン語のモデリングの課題
ほとんどのLLMは英語や他の主要言語に焦点を当てていて、アゼルバイジャン語をサポートする多言語モデルはごくわずか。進展が遅いのは複数の要因に起因している。まず、アゼルバイジャン語は市場が小さく、投資も少ない。次に、アゼルバイジャン語のデジタルコンテンツはあまり手に入らない。アゼルバイジャン語の電子書籍の多くは実際にはスキャンされた資料。現在のアゼルバイジャン語は2001年に更新されたラテンアルファベットを使用していて、古い文書へのアクセスが難しくなることもある。
もう一つの誤解は、トルコ語向けに開発されたモデルがアゼルバイジャン語にも適用できるということだが、研究によれば、両言語の共通点は一般に考えられているよりも少ないことが示されており、トルコ語モデルはアゼルバイジャン語に関するタスクには不適当だ。
DOLLMAコーパス
効果的な言語モデルをトレーニングするためには大規模なテキストデータセットが必要だ。以前のデータセット、例えばOSCARやC4には相当な量のテキストが含まれていたが、他の言語と混ざっていたり、非公式な言葉が含まれていたりする問題があった。
これらの問題を解決するために、DOLLMAという新しいデータセットが導入された。このデータセットはアゼルバイジャン語のWikipedia、翻訳された英語のWikipedia、ニュース、ブログ、書籍、法律を含んでいて、DOLLMAの総単語数は約651.1百万だ。
DOLLMAのデータソース
- 書籍:相当数の電子書籍を集める努力があったが、ほとんどがスキャンされたテキストだったため、選ばれた手作りの書籍しか使われなかった。
- Wikipedia:アゼルバイジャン語のWikipediaからのダンプデータが利用され、英語のWikipediaの翻訳も専任チームによって行われた。
- ニュース:言語の多様性を維持するために、限られた選択のニュースデータセットが含まれた。
- ブログ:質の高いブログ投稿が内容に基づいて選ばれた。
- 法律:アゼルバイジャンの利用可能な法律がリソースとして追加された。
aLLMAモデルの開発
DOLLMAコーパスを使用して、aLLMAというファンデーション言語モデルのファミリーが作成された。これらのモデルは小型、ベース、ラージの3つのサイズで提供されている。小型とベースのバージョンはトレーニングされてベンチマーク評価に含まれ、ラージバージョンは将来のリリースが予定されている。
これらのモデルを作成する際には、2つの主なアプローチが考慮された:
- 既存の多言語モデルのトレーニングを続けること。
- 新しいファンデーションモデルをゼロからトレーニングすること。
aLLMAモデルは後者のアプローチを採用し、アゼルバイジャン語に特化したモデルの作成を目指した。
モデルの評価
モデルが良いパフォーマンスを発揮するために、さまざまな自然言語理解タスクが設けられた。タスクは主に分類ベースであり、このプロセスの一環として3つの新しいデータセットが開発された。これらのタスクには以下が含まれる:
- テキスト分類:アゼルバイジャンの学術機関で書かれた論文のトピックを使用。
- 次の文予測:モデルが高次の言語理解をどれだけ把握しているかを評価。
- クローズドブック形式の質問応答:テキストにアクセスせずに質問に答えるというより複雑な課題。
比較のための既存データセット
ベンチマーク用にいくつかのオープンソースデータセットが評価された。いくつかは品質が低いために除外されたが、WikiANNや翻訳されたSQuADのようなものはモデルパフォーマンスに関する貴重な洞察を提供した。
テスト結果
初期テストでは数十のファンデーションモデルが関与し、最終的なベンチマークは4つのカテゴリーに分かれた:
- 多言語ファンデーションモデル:複数の言語に対応するように設計された言語モデル。
- アゼルバイジャン語に特化して事前トレーニングされた多言語モデル:アゼルバイジャン語に特に焦点を当てた追加トレーニングを受けたモデル。
- ゼロから事前トレーニングされたモデル:aLLMAモデルはアゼルバイジャン語に完全に焦点を当てた唯一のもの。
- ベースラインモデル:比較のために基本的なモデルが含まれた。
主な発見
テスト結果は、リソースが少ない言語のファンデーションモデルに関するいくつかの重要なポイントを示している:
- ゼロからのスタート:モノリンガルデータセットを使用してモデルをゼロからトレーニングすることで、競争力のある結果が得られる。
- 多言語モデル:アゼルバイジャン語に特化していなくても良いパフォーマンスを発揮できる。
- 既存の英語モデル:モノリンガルな英語モデルであっても、アゼルバイジャン語向けのタスクにファインチューニングすれば役立つことがある。
今後の方向性
ここで述べた作業は、いくつかの重要な方法で拡張できる。例えば、より大規模なモデルをより大きなデータセットでトレーニングすることができるし、追加のベンチマークや特定のタスク向けのDatasetが導入される可能性もある。
要するに、アゼルバイジャン語のファンデーションモデルを開発するためのコミュニティや学術的な努力はあったけど、ここで紹介する作業は将来の研究や開発を強化する新しいアプローチや評価を導入している。進行中の努力は、アゼルバイジャン語の言語モデリング能力を向上させ、さらなる進展のための堅固な基盤を築くことを目指していて、さまざまな利用の扉を開くことになるよ。
タイトル: Open foundation models for Azerbaijani language
概要: The emergence of multilingual large language models has enabled the development of language understanding and generation systems in Azerbaijani. However, most of the production-grade systems rely on cloud solutions, such as GPT-4. While there have been several attempts to develop open foundation models for Azerbaijani, these works have not found their way into common use due to a lack of systemic benchmarking. This paper encompasses several lines of work that promote open-source foundation models for Azerbaijani. We introduce (1) a large text corpus for Azerbaijani, (2) a family of encoder-only language models trained on this dataset, (3) labeled datasets for evaluating these models, and (4) extensive evaluation that covers all major open-source models with Azerbaijani support.
著者: Jafar Isbarov, Kavsar Huseynova, Elvin Mammadov, Mammad Hajili, Duygu Ataman
最終更新: 2024-08-19 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.02337
ソースPDF: https://arxiv.org/pdf/2407.02337
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.ezglot.com/most-similar-languages?l=aze
- https://github.com/interneuron-ai/project-barbarossa
- https://huggingface.co/datasets/allmalab/DOLLMA
- https://www.millikitabxana.az/
- https://www.clb.az/
- https://github.com/ceferisbarov/azwiki
- https://huggingface.co/allmalab/bert-small-aze
- https://huggingface.co/allmalab/bert-base-aze
- https://huggingface.co/allmalab/bert-tokenizer-aze