セルビア語とセルボクロアチア語の新しいテキストコレクション
最新のセルビア語とセルビア・クロアチア語の言語モデル用テキストコレクションをチェックしてみて!
― 1 分で読む
目次
この記事では、セルビア語とセルボ・クロアチア語の新しいテキストコレクションについて話してるよ。このコレクションは、大きな言語モデルのトレーニングに使えるんだ。オンラインで誰でも使えるようになってるよ。論文では、ウェブコレクション、博士論文に基づく高品質テキストコレクション、そしてこれらの論文からの翻訳された要約コレクションの3つの新しいコレクションが強調されてる。これらのコレクションのユニークさは、さまざまな方法で評価されて、その特徴が説明されてるんだ。
利用可能なテキストコレクション
インターネットとデータの成長に伴って、このデータを使って自然言語モデリングのためのコレクションを作ることができることが明らかになったよ。初期の頃は、オンラインデータを既存のコレクションに追加してたけど、今ではほとんどの利用可能なコレクションが著作権の問題が少ないオンラインデータを使用してる。
私たちの研究では、これらのデータセットをその起源に基づいて分類してる。最初の3つのグループは主に人間が書いたテキストだよ。2つ目と3つ目のグループは、キュレーションされたテキストで、公開前に読まれて修正されてるから、より高品質なんだ。機械生成テキストはすぐに作られるけど、しばしば品質が不足してる。
テキストコレクションを分類する別の方法は、形態によるもの。これも私たちの研究で重要な役割を果たしてるよ。
この記事の主な焦点は、セルビア語とセルボ・クロアチア語のテキストコレクションが見つかる3つの主要なオンラインソース、Hugging Face、CLARIN、そしてEuropean Language Gridにあるよ。これらのソースは、さまざまな言語リソースやツールにアクセスを提供してる。他の小さなプロジェクト、例えばGitHubはこの研究には含まれてないんだ。
次のセクションでは、これらのソースから集めたコレクションについて基本的な情報を提供し、新しいコレクションの詳細を説明して、そのユニークさを評価する方法について話すよ。
テキストコレクションの概要
このセクションでは、Hugging Face、CLARIN、European Language Gridで見つかったコレクションをリストアップしてる。コレクションはセルボ・クロアチア語に限定されてて、セルビア語、モンテネグロ語、クロアチア語、ボスニア語が含まれてる。似たような言語を扱うことは、特に翻訳などのタスクで役立つよ。
コレクションはその形態と起源に基づいて整理されてる。プレーンテキストコレクションでは、ウェブコレクションには3000万語、他には300万語の最小要件が求められてる。これらのコレクションのほとんどはウェブベースなので、重複データを削除する研究も行われたよ。アノテーション付きコレクションと並行コレクションには、3000文のサイズ要件が設定されてるんだ。
プレーンテキストコレクション
24のプレーンテキストコレクションを見つけたよ。最初の表はセルビア語専用のコレクションに焦点を当ててるけど、2つ目の表はセルボ・クロアチア語の中の他のコレクションを含めてる。
名称 | 言語 | 起源 | サイズ(百万単位) | 出版者 |
---|---|---|---|---|
srWaC | sr | ウェブ | 493 | ReLDI |
cc100sr | sr | ウェブ | 711 | Conneau |
mC4-sr | sr | ウェブ | 800 | |
OSCAR-sr | sr | ウェブ | 632 | OSCAR proj. |
CLASSLA-sr | sr | ウェブ | 752 | CLASSLA |
2つ目の表は、セルビア語専用ではなく、セルボ・クロアチア語の一部であるプレーンテキストコレクションを示してる。
名称 | 言語 | 起源 | サイズ(百万単位) | 出版者 |
---|---|---|---|---|
meWaC | cnr | ウェブ | 80 | ReLDI |
hrWaC | hr | ウェブ | 1,250 | ReLDI |
bsWaC | bs | ウェブ | 256 | ReLDI |
cc100hr | hr | ウェブ | 2,880 | Conneau |
ほとんどのコレクションはウェブデータから来てて、文学的または混合ソースからのものはごくわずかだよ。srWac, meWac, hrWac, bsWacのように特定の努力に基づくコレクションは、ウェブスクレイピングによって作成されてる。
アノテーション付きコレクション
特にセルビア語のための10のアノテーション付きコレクションを見つけたよ。焦点は、ユニバーサルPOSタグセットを使用しているコレクションにある。コレクションには、固有表現認識や感情アノテーションも含まれてる。
名称 | 言語 | 起源 | アノテーション | サイズ(千単位) | 出版者 |
---|---|---|---|---|---|
SrpKor4Tagging | sr | 混合 | POS | 60 | JeRTeH |
1984 | sr | 文学 | POS | 6.7 | MULTEXT-East |
Intera | sr | 教科書 | POS | 47.5 | META-SHARE |
さらに、他のセルボ・クロアチア語の言語のための10のアノテーション付きコレクションも見つけたよ。これは、それぞれのユニークなリソースや対応物に焦点を当ててる。感情アノテーションや固有表現認識が含まれてるリソースもあるんだ。
並行コレクション
セルビア語のための13の並行リソースが存在してて、翻訳、テキスト要約、パラフレーズ、質問-回答ペアが含まれてる。
名称 | 言語 | 起源 | ペアタイプ | サイズ(千単位) | 出版者 |
---|---|---|---|---|---|
80 jours | sr | 文学 | 翻訳 | 3.7 | JeRTeH |
biblenlp-sr | sr | 文学 | 翻訳 | 31 | eBible |
Intera | sr | 混合 | 翻訳 | 47.5 | META-SHARE |
これらの並行リソースのほとんどは合成的で、機械翻訳を利用して作成されてる。非合成的なリソースには文学の並行翻訳や小規模なキュレーションされたQAセットが含まれてる。
新しいコレクション
この研究では3つの新しいコレクションを紹介してる。最初は、既存のウェブコレクションを一つにまとめた集約ウェブコレクション。これは未来の言語処理タスクに重要だよ。
2つ目のコレクションは、質の高い教育資料へのアクセスを改善するために作られた。セルビア語で利用可能な博士論文に焦点を当ててる。これらの文書は、学術的な厳格さを経ているため、高い品質基準を持ってるんだ。
3つ目のコレクションは、博士論文からの要約の整列コーパス。これは、セルビア語と英語の間の翻訳に役立つリソースで、特に科学言語には重要だよ。
集約ウェブコレクション
新しい集約ウェブコレクションは、この記事で議論してきた既存のウェブリソースからデータを集めてる。過去に集約されたコレクションを使用しないことで、言語抽出の正確さを確保したんだ。
重複を削除してユニークな文書だけを残すクリーニングプロセスが適用されて、言葉のカウントが大幅に減少して、クリーニング後には約186億語の大きなコレクションになったよ。
博士論文コレクション - S.T.A.R.S.
博士論文コレクション(S.T.A.R.S.)は、教科書品質のテキストが不足していることへの回答だよ。これらのテキストは、学術的基準、トピックの多様性、アクセスのしやすさから非常に価値がある。コレクションには11,624以上の論文が含まれていて、560百万語を超えてる。
並行要約コレクション - PaSaž
整列した要約のコレクション(PaSaž)は、並行言語研究のための大規模なリソースを提供してる。博士論文から取られた要約は、セルビア語と英語の両方の情報を含んでるから貴重なんだ。
文書を分析した結果、7,687の並行要約が抽出され、科学分野のメタデータも含まれてる。これは、質の高いセルビア語の並行テキストの可用性に対する重要な貢献だよ。
コレクションの評価
この記事では、コレクションのユニークさに焦点を当てて、どのようにそれらが異なるかを評価してる。ユニークさを評価するために、単語の頻度に基づいた評価が行われたよ。各コレクションからの100万語のサンプルを使用して、最も頻繁に使用される単語が特定されたんだ。
単語の相対頻度を使って特徴ベクトルを作成して、コレクション間の類似性を計算する手助けをしたよ。最も他のコレクションと類似性が少ないものは、最もユニークだと見なされてるんだ。
結論
結論として、この論文はセルビア語とセルボ・クロアチア語の新しいテキストコレクションについての概要を提供してる。私たちは、コレクションをプレーンテキストコレクション、アノテーション付きコレクション、並行コレクションの3つの主要なカテゴリに分類したよ。
調査の結果、ほとんどのプレーンテキストコレクションがウェブデータから来てることがわかった。教科書品質のリソースは限られていて、博士論文に基づく2つの新しいキュレーションコレクションが作成されることになったんだ。
新たに導入された集約ウェブコレクションは、セルビア語のリソースへのアクセスを容易にするよ。今後の作業は、より多くのリソースを取得することと、特にウェブデータに基づく既存のリソースを改善することに焦点を当てるべきだと思うよ。
タイトル: New Textual Corpora for Serbian Language Modeling
概要: This paper will present textual corpora for Serbian (and Serbo-Croatian), usable for the training of large language models and publicly available at one of the several notable online repositories. Each corpus will be classified using multiple methods and its characteristics will be detailed. Additionally, the paper will introduce three new corpora: a new umbrella web corpus of Serbo-Croatian, a new high-quality corpus based on the doctoral dissertations stored within National Repository of Doctoral Dissertations from all Universities in Serbia, and a parallel corpus of abstract translation from the same source. The uniqueness of both old and new corpora will be accessed via frequency-based stylometric methods, and the results will be briefly discussed.
著者: Mihailo Škorić, Nikola Janković
最終更新: 2024-05-15 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.09250
ソースPDF: https://arxiv.org/pdf/2405.09250
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://huggingface.co
- https://www.clarin.eu
- https://live.european-language-grid.eu
- https://www.clarin.si/repository/xmlui/handle/11356/1063
- https://huggingface.co/datasets/cc100
- https://huggingface.co/datasets/allenai/c4
- https://huggingface.co/datasets/oscar-corpus/OSCAR-2301
- https://www.clarin.si/repository/xmlui/handle/11356/1426
- https://www.clarin.si/repository/xmlui/handle/11356/1807
- https://www.clarin.si/repository/xmlui/handle/11356/1752
- https://huggingface.co/datasets/jerteh/SrpKorNews
- https://huggingface.co/datasets/jerteh/SrpELTeC
- https://www.clarin.si/repository/xmlui/handle/11356/1429
- https://www.clarin.si/repository/xmlui/handle/11356/1064
- https://www.clarin.si/repository/xmlui/handle/11356/1062
- https://huggingface.co/datasets/classla/xlm-r-bertic-data
- https://www.clarin.si/repository/xmlui/handle/11356/1809
- https://www.clarin.si/repository/xmlui/handle/11356/1806
- https://www.clarin.si/repository/xmlui/handle/11356/1808
- https://www.clarin.si/repository/xmlui/handle/11356/1180
- https://huggingface.co/datasets/HPLT/hplt_monolingual_v1_2
- https://live.european-language-grid.eu/catalogue/corpus/9295
- https://live.european-language-grid.eu/catalogue/corpus/8185
- https://live.european-language-grid.eu/catalogue/corpus/685
- https://huggingface.co/datasets/classla/reldi_sr
- https://huggingface.co/datasets/classla/setimes_sr
- https://www.clarin.si/repository/xmlui/handle/11356/1794
- https://live.european-language-grid.eu/catalogue/corpus/9485
- https://huggingface.co/datasets/wikiann
- https://huggingface.co/datasets/polyglot_ner
- https://huggingface.co/datasets/Brand24/mms
- https://huggingface.co/datasets/classla/hr500k
- https://huggingface.co/datasets/classla/reldi_hr
- https://www.clarin.si/repository/xmlui/handle/11356/1793
- https://live.european-language-grid.eu/catalogue/corpus/13141
- https://huggingface.co/datasets/bible-nlp/biblenlp-corpus
- https://live.european-language-grid.eu/catalogue/corpus/657
- https://huggingface.co/datasets/Helsinki-NLP/opus-100
- https://huggingface.co/datasets/MaCoCu/parallel_data
- https://live.european-language-grid.eu/catalogue/corpus/9110
- https://huggingface.co/datasets/tapaco
- https://huggingface.co/datasets/alexandrainst/m_mmlu
- https://huggingface.co/datasets/alexandrainst/m_hellaswag
- https://huggingface.co/datasets/draganjovanovich/airoboros-3.0-serbian
- https://huggingface.co/datasets/datatab/open-orca-slim-serbian
- https://huggingface.co/datasets/datatab/ultrafeedback_binarized_serbian
- https://huggingface.co/datasets/datatab/alpaca-cleaned-serbian-full
- https://huggingface.co/datasets/clips/mfaq
- https://huggingface.co/datasets/mhardalov/exams
- https://nardus.mpn.gov.rs/
- https://rodos.edu.rs/
- https://www.pravno-informacioni-sistem.rs/SlGlasnikPortal/reg/viewAct/5f688c8e-4798-470f-9adf-5bc0739c72aa
- https://nardus.mpn.gov.rs/htmlmap