Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

セルビア語とセルボクロアチア語の新しいテキストコレクション

最新のセルビア語とセルビア・クロアチア語の言語モデル用テキストコレクションをチェックしてみて!

― 1 分で読む


セルビア語リソースのアップセルビア語リソースのアップデートグを強化してるよ。新しいコレクションがセルビア語のモデリン
目次

この記事では、セルビア語とセルボ・クロアチア語の新しいテキストコレクションについて話してるよ。このコレクションは、大きな言語モデルのトレーニングに使えるんだ。オンラインで誰でも使えるようになってるよ。論文では、ウェブコレクション、博士論文に基づく高品質テキストコレクション、そしてこれらの論文からの翻訳された要約コレクションの3つの新しいコレクションが強調されてる。これらのコレクションのユニークさは、さまざまな方法で評価されて、その特徴が説明されてるんだ。

利用可能なテキストコレクション

インターネットとデータの成長に伴って、このデータを使って自然言語モデリングのためのコレクションを作ることができることが明らかになったよ。初期の頃は、オンラインデータを既存のコレクションに追加してたけど、今ではほとんどの利用可能なコレクションが著作権の問題が少ないオンラインデータを使用してる。

私たちの研究では、これらのデータセットをその起源に基づいて分類してる。最初の3つのグループは主に人間が書いたテキストだよ。2つ目と3つ目のグループは、キュレーションされたテキストで、公開前に読まれて修正されてるから、より高品質なんだ。機械生成テキストはすぐに作られるけど、しばしば品質が不足してる。

テキストコレクションを分類する別の方法は、形態によるもの。これも私たちの研究で重要な役割を果たしてるよ。

この記事の主な焦点は、セルビア語とセルボ・クロアチア語のテキストコレクションが見つかる3つの主要なオンラインソース、Hugging Face、CLARIN、そしてEuropean Language Gridにあるよ。これらのソースは、さまざまな言語リソースやツールにアクセスを提供してる。他の小さなプロジェクト、例えばGitHubはこの研究には含まれてないんだ。

次のセクションでは、これらのソースから集めたコレクションについて基本的な情報を提供し、新しいコレクションの詳細を説明して、そのユニークさを評価する方法について話すよ。

テキストコレクションの概要

このセクションでは、Hugging Face、CLARIN、European Language Gridで見つかったコレクションをリストアップしてる。コレクションはセルボ・クロアチア語に限定されてて、セルビア語、モンテネグロ語、クロアチア語、ボスニア語が含まれてる。似たような言語を扱うことは、特に翻訳などのタスクで役立つよ。

コレクションはその形態と起源に基づいて整理されてる。プレーンテキストコレクションでは、ウェブコレクションには3000万語、他には300万語の最小要件が求められてる。これらのコレクションのほとんどはウェブベースなので、重複データを削除する研究も行われたよ。アノテーション付きコレクションと並行コレクションには、3000文のサイズ要件が設定されてるんだ。

プレーンテキストコレクション

24のプレーンテキストコレクションを見つけたよ。最初の表はセルビア語専用のコレクションに焦点を当ててるけど、2つ目の表はセルボ・クロアチア語の中の他のコレクションを含めてる。

名称言語起源サイズ(百万単位)出版者
srWaCsrウェブ493ReLDI
cc100srsrウェブ711Conneau
mC4-srsrウェブ800Google
OSCAR-srsrウェブ632OSCAR proj.
CLASSLA-srsrウェブ752CLASSLA

2つ目の表は、セルビア語専用ではなく、セルボ・クロアチア語の一部であるプレーンテキストコレクションを示してる。

名称言語起源サイズ(百万単位)出版者
meWaCcnrウェブ80ReLDI
hrWaChrウェブ1,250ReLDI
bsWaCbsウェブ256ReLDI
cc100hrhrウェブ2,880Conneau

ほとんどのコレクションはウェブデータから来てて、文学的または混合ソースからのものはごくわずかだよ。srWac, meWac, hrWac, bsWacのように特定の努力に基づくコレクションは、ウェブスクレイピングによって作成されてる。

アノテーション付きコレクション

特にセルビア語のための10のアノテーション付きコレクションを見つけたよ。焦点は、ユニバーサルPOSタグセットを使用しているコレクションにある。コレクションには、固有表現認識や感情アノテーションも含まれてる。

名称言語起源アノテーションサイズ(千単位)出版者
SrpKor4Taggingsr混合POS60JeRTeH
1984sr文学POS6.7MULTEXT-East
Interasr教科書POS47.5META-SHARE

さらに、他のセルボ・クロアチア語の言語のための10のアノテーション付きコレクションも見つけたよ。これは、それぞれのユニークなリソースや対応物に焦点を当ててる。感情アノテーションや固有表現認識が含まれてるリソースもあるんだ。

並行コレクション

セルビア語のための13の並行リソースが存在してて、翻訳、テキスト要約、パラフレーズ、質問-回答ペアが含まれてる。

名称言語起源ペアタイプサイズ(千単位)出版者
80 jourssr文学翻訳3.7JeRTeH
biblenlp-srsr文学翻訳31eBible
Interasr混合翻訳47.5META-SHARE

これらの並行リソースのほとんどは合成的で、機械翻訳を利用して作成されてる。非合成的なリソースには文学の並行翻訳や小規模なキュレーションされたQAセットが含まれてる。

新しいコレクション

この研究では3つの新しいコレクションを紹介してる。最初は、既存のウェブコレクションを一つにまとめた集約ウェブコレクション。これは未来の言語処理タスクに重要だよ。

2つ目のコレクションは、質の高い教育資料へのアクセスを改善するために作られた。セルビア語で利用可能な博士論文に焦点を当ててる。これらの文書は、学術的な厳格さを経ているため、高い品質基準を持ってるんだ。

3つ目のコレクションは、博士論文からの要約の整列コーパス。これは、セルビア語と英語の間の翻訳に役立つリソースで、特に科学言語には重要だよ。

集約ウェブコレクション

新しい集約ウェブコレクションは、この記事で議論してきた既存のウェブリソースからデータを集めてる。過去に集約されたコレクションを使用しないことで、言語抽出の正確さを確保したんだ。

重複を削除してユニークな文書だけを残すクリーニングプロセスが適用されて、言葉のカウントが大幅に減少して、クリーニング後には約186億語の大きなコレクションになったよ。

博士論文コレクション - S.T.A.R.S.

博士論文コレクション(S.T.A.R.S.)は、教科書品質のテキストが不足していることへの回答だよ。これらのテキストは、学術的基準、トピックの多様性、アクセスのしやすさから非常に価値がある。コレクションには11,624以上の論文が含まれていて、560百万語を超えてる。

並行要約コレクション - PaSaž

整列した要約のコレクション(PaSaž)は、並行言語研究のための大規模なリソースを提供してる。博士論文から取られた要約は、セルビア語と英語の両方の情報を含んでるから貴重なんだ。

文書を分析した結果、7,687の並行要約が抽出され、科学分野のメタデータも含まれてる。これは、質の高いセルビア語の並行テキストの可用性に対する重要な貢献だよ。

コレクションの評価

この記事では、コレクションのユニークさに焦点を当てて、どのようにそれらが異なるかを評価してる。ユニークさを評価するために、単語の頻度に基づいた評価が行われたよ。各コレクションからの100万語のサンプルを使用して、最も頻繁に使用される単語が特定されたんだ。

単語の相対頻度を使って特徴ベクトルを作成して、コレクション間の類似性を計算する手助けをしたよ。最も他のコレクションと類似性が少ないものは、最もユニークだと見なされてるんだ。

結論

結論として、この論文はセルビア語とセルボ・クロアチア語の新しいテキストコレクションについての概要を提供してる。私たちは、コレクションをプレーンテキストコレクション、アノテーション付きコレクション、並行コレクションの3つの主要なカテゴリに分類したよ。

調査の結果、ほとんどのプレーンテキストコレクションがウェブデータから来てることがわかった。教科書品質のリソースは限られていて、博士論文に基づく2つの新しいキュレーションコレクションが作成されることになったんだ。

新たに導入された集約ウェブコレクションは、セルビア語のリソースへのアクセスを容易にするよ。今後の作業は、より多くのリソースを取得することと、特にウェブデータに基づく既存のリソースを改善することに焦点を当てるべきだと思うよ。

参照リンク

類似の記事