多言語ニュース推薦の課題に対処する
複数の言語でニュース推薦を改善するためのデータセット。
― 0 分で読む
目次
デジタルニュースプラットフォームは、今の人々にとって情報の重要な源だよね。彼らは、読者が自分の興味に合ったニュースを見つけられるようにレコメンデーションシステムを使ってる。でも、ほとんどのシステムは主に英語などの数カ国語にしか焦点を当ててないんだ。多くの人が複数の言語でニュースを読んでいるから、みんなに関連するニュースを提供するのが難しくなってる。
多くの読者は、1つ以上の言語でニュースを消費してる。実際、アメリカやヨーロッパには英語以外の言語を話す人がたくさんいるんだ。この多様性が増しているにもかかわらず、多くのニュースプラットフォームはまだ複数の言語でのレコメンデーションを提供していない。このギャップは、マルチリンガルな読者に対してあまり関連性のない提案につながっちゃう。
この問題に対処するために、マルチリンガルニュースレコメンデーション用に新しいデータセットを作ったよ。このデータセットは、既存のニュース記事を基にしていて、14の異なる言語に翻訳されているんだ。目標は、さまざまな言語を話す読者のためのより良いニュースレコメンデーションをサポートすることだよ。
マルチリンガルレコメンデーションシステムの必要性
インターネットが広がるにつれて、そのユーザーの多様性も増えていく。多くの人がバイリンガルまたはマルチリンガルで、さまざまな言語でニュースを読んだり消費したりしているんだ。でも、ほとんどの既存のレコメンデーションシステムは主に英語といくつかのよく使われている言語に焦点を当てている。こうした主要言語にのみ注目することが、あまり一般的でない言語の貴重なコンテンツを見落とすことにつながっている。
加えて、現在のニュースレコメンデーションシステムは、読者が1つの言語だけでニュースを消費していると仮定することがよくあるけど、これは多くのユーザーの実際の状況を反映してない。だから、これらのシステムはマルチリンガルな読者に対してあまり関連性のない、もしくは面白くないレコメンデーションを提供しちゃうことがあるんだ。
公開されているマルチリンガルデータセットも少なくて、ニュースレコメンデーションシステムを改善するために使えるものがあまりない。ほとんどの既存のデータセットは1つの言語や、広く話されている言語にしか焦点を当てていないから、これが多言語に対応するシステムを作る研究者や開発者の妨げになってる。
マルチリンガルニュースデータセットの紹介
マルチリンガルニュースレコメンデーションのギャップを埋めるために、新しいデータセットを作ったよ。このデータセットには、よく知られた英語のデータセットから14の異なる言語に翻訳されたニュース記事が含まれているんだ。これらの言語は、広く使われている言語とあまり一般的でない言語が混ざっていて、さまざまな地域や言語族をカバーしている。
新しいデータセットは、研究者や開発者がマルチリンガルなオーディエンスに対応したより効果的なニュースレコメンデーションシステムを作るための助けになればいいなと思ってる。さまざまな言語における異なるレコメンデーションモデルの直接比較を可能にしているんだ。
データセットには、130,379の記事があって、各記事には翻訳されたタイトルと要約が含まれている。マルチリンガルな環境でニュースレコメンデーションに取り組む人たちにとって、役立つリソースを提供することが目的なんだ。
ニュースレコメンダーのベンチマーキング
新しいデータセットの効果をテストするために、さまざまなニュースレコメンデーションモデルを使って実験を行ったよ。これらのモデルは、ユーザーの好みに基づいてニュース記事を提案するために異なる技術を使ってる。
このレコメンデーションシステムを、ゼロショット転送と少数ショット転送の2つのシナリオで評価した。ゼロショットのシナリオでは、英語で訓練されたモデルが、他の言語のトレーニングデータなしでどれだけ良く提案できるかをチェックした。
少数ショットのシナリオでは、ターゲット言語の少量のトレーニングデータを含めた。狙いは、ターゲット言語に対する限られた知識がモデルのパフォーマンスを改善するかどうかを見たかったんだ。
実験では、モノリンガルとバイリンガルのニュース消費パターンを両方見たよ。モノリンガルパターンは1つの言語だけでニュースを読み、レコメンデーションを受け取ることを指してる。一方、バイリンガルパターンは2つの言語でニュースを消費することを示してる。
実験結果
ゼロショット転送のパフォーマンス
ゼロショット転送でのモデルのパフォーマンスをチェックしたとき、彼らが苦しんでいることが分かった。英語だけで訓練されたトップパフォーマンスのモデルですら、ターゲット言語で正確なレコメンデーションをするのが難しかったんだ。
いくつかのモデルは、カテゴリに基づいた基本的なレコメンデーション方法と比較すると、少し改善が見られたけど、全体的なパフォーマンスはまだ期待以下だった。内容に依存しないモデルと比較した場合、レコメンデーションの質は低かった。
これは、英語だけで訓練することがマルチリンガルなコンテキストにおいてレコメンデーションモデルをうまく準備できないことを示している。多言語をより効果的に扱える頑丈なシステムを開発するために、もっと研究が必要だってことだね。
少数ショット転送のパフォーマンス
少数ショット転送のシナリオでは、ターゲット言語からのトレーニングデータをいくつか組み込むことでパフォーマンスが向上するのが分かった。ターゲット言語データが少しでもあったモデルは、そうでないモデルより良い結果を示したんだ。
でも、ターゲット言語データの量が少なすぎると、ゼロショットのセットアップに比べてパフォーマンスが落ちちゃう。これは、ターゲット言語での十分なトレーニングデータの確保が、良いパフォーマンスを保証するために重要ってことを示してるね。
特にリソースが少ない言語や、モデルの元のトレーニングデータに含まれていない言語では、改善が目立った。これが、多様なデータからモデルが学ぶことで、より良いレコメンデーションが可能になることを示しているんだ。
バイリンガル消費パターン
バイリンガル消費パターンでモデルのパフォーマンスを評価したとき、ユーザーの履歴におけるターゲット言語の割合が増えるにつれて、パフォーマンスが全般的に低下するのが見られた。これは、混合言語の入力がレコメンデーションプロセスを複雑にする可能性があることを示してる。
すべてのモデルがバイリンガルなユーザー履歴に同じように反応したわけではなくて、英語と他の言語の組み合わせに対してより良い耐性を示したモデルもあった。この違いは、ユーザーの好みを解釈するユーザーエンコーダの設計が、さまざまな言語の入力に対応できるように適応する必要があることを示してるよ。
翻訳の質
このデータセットを作成する上で重要だったのは、翻訳の質だ。元の記事を英語から他の言語にオープンソースの翻訳モデルを使って翻訳したし、商業システムが生成した翻訳とも比較した。
人間のアノテーターが、可読性と正確性に基づいて翻訳の質を評価したんだけど、一般的に許容できるレベルで、多くが明確で元の意味を保っていると見なされた。ただ、あまり一般的でない言語は翻訳の質でスコアが低くなる傾向があったんだ。
翻訳の質に見える違いがあっても、テストしたレコメンデーションシステムは、オープンソースモデルからの翻訳でも商業モデルからのものでも、似たような挙動を見せた。この頑丈さは、翻訳の質が異なっていても、モデルが貴重なレコメンデーションを提供できることを示しているよ。
結論
マルチリンガルニュースデータセットは、多様なニュース読者のニーズに対応するための重要なステップだ。このさまざまな言語を含むリソースを提供することで、マルチリンガルニュースレコメンデーションに関するさらなる研究と開発を刺激したいと思ってる。
現在のレコメンデーションシステムは、バイリンガルやマルチリンガルのユーザーに対して課題を抱えている。でも、新しいデータセットと、マルチリンガルな環境でのモデルのパフォーマンス向上に向けた努力が続くことで、すべての読者にとってより良く、関連性のあるニュース体験を目指せるはずだよ。
実験から得た洞察は、多様なデータセットを使う重要性を強調しているし、マルチリンガルなニュース消費者の数が増えている中で、モデル設計のさらなる改善が必要だってことを示している。これらの分野で進展を遂げていけば、広く話されている言語でも、見落とされがちな言語でも、世界中のユーザーに対するニュースレコメンデーションの大幅な改善が期待できると思うよ。
タイトル: MIND Your Language: A Multilingual Dataset for Cross-lingual News Recommendation
概要: Digital news platforms use news recommenders as the main instrument to cater to the individual information needs of readers. Despite an increasingly language-diverse online community, in which many Internet users consume news in multiple languages, the majority of news recommendation focuses on major, resource-rich languages, and English in particular. Moreover, nearly all news recommendation efforts assume monolingual news consumption, whereas more and more users tend to consume information in at least two languages. Accordingly, the existing body of work on news recommendation suffers from a lack of publicly available multilingual benchmarks that would catalyze development of news recommenders effective in multilingual settings and for low-resource languages. Aiming to fill this gap, we introduce xMIND, an open, multilingual news recommendation dataset derived from the English MIND dataset using machine translation, covering a set of 14 linguistically and geographically diverse languages, with digital footprints of varying sizes. Using xMIND, we systematically benchmark several state-of-the-art content-based neural news recommenders (NNRs) in both zero-shot (ZS-XLT) and few-shot (FS-XLT) cross-lingual transfer scenarios, considering both monolingual and bilingual news consumption patterns. Our findings reveal that (i) current NNRs, even when based on a multilingual language model, suffer from substantial performance losses under ZS-XLT and that (ii) inclusion of target-language data in FS-XLT training has limited benefits, particularly when combined with a bilingual news consumption. Our findings thus warrant a broader research effort in multilingual and cross-lingual news recommendation. The xMIND dataset is available at https://github.com/andreeaiana/xMIND.
著者: Andreea Iana, Goran Glavaš, Heiko Paulheim
最終更新: 2024-03-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2403.17876
ソースPDF: https://arxiv.org/pdf/2403.17876
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.ethnologue.com/
- https://opus.nlpl.eu/GlobalVoices/corpus/version/GlobalVoices
- https://globalvoices.org/
- https://msnews.github.io/
- https://github.com/andreeaiana/xMIND
- https://data.census.gov/table/ACSST1Y2022.S1601?q=language
- https://ec.europa.eu/eurostat/web/products-eurostat-news/-/EDN-20180926-1
- https://w3techs.com/technologies/overview/content_language
- https://cseweb.ucsd.edu/~jmcauley/datasets.html
- https://github.com/andreeaiana/newsreclib
- https://cloud.google.com/translate/docs/languages
- https://cloud.google.com/translate/docs/overview
- https://dl.acm.org/ccs.cfm