Sci Simple

New Science Research Articles Everyday

# コンピューターサイエンス # 計算と言語

文化をつなぐ:言語モデルへの新しいアプローチ

多言語評価における文化的バイアスに対処して、言語モデルのパフォーマンスを向上させる。

Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker

― 1 分で読む


言語モデルにおける文化的偏 言語モデルにおける文化的偏 モデルを見直す。 文化的な課題を克服して精度を高めるために
目次

いろんな言語や文化がある世界で、言語モデルが異なる言語でどれだけうまく機能するかを理解するのはめっちゃ大事なんだ。犬にいろんな言語で吠えるのを教えようとする感じ—めっちゃ難しいよね?言語モデルはその犬みたいなもので、いろんな言語の特性をうまく扱うために文化的なリファレンスも理解しなきゃいけない。このレポートでは、多言語評価における文化的および言語的バイアスの問題を掘り下げて、MMLUという有名なデータセットに焦点を当てるよ。

直面している問題

言語モデルをテストするために使われる多くのデータセットには、大きな問題があるんだ。それが文化的バイアス。つまり、質問がほとんど西洋文化に根ざしているってこと。ピザばっかりのクイズがあるのに、自分のコミュニティは寿司が大好きだったらどうする?寿司については詳しいのに、ピザのクイズはダメだよね!

このバイアスは言語だけじゃなくて、質問を正しく理解するために必要な文化的背景にも関わってる。一つの言語から別の言語に質問を翻訳すると、文化の違いのせいで混乱が生じることがあるんだ。新しい言語を追加しても、多くの質問はまだ西洋のリファレンスに偏っていて、言語モデルを誤解させることがある。

私たちの解決策

これらの問題に対処するために、MMLUデータセットの改善版を作ったよ。この新しいデータセットは文化的な知識を考慮した質問があって、異なる言語でよりバランスの取れた評価ができるんだ。言語モデルが、どの言語や文化でテストされても、うまく公正に機能することを目指してる。

私たちの行ったこと

まず、さまざまな最先端の言語モデルが既存のMMLUデータセットでどう機能するかを大規模に評価したよ。その後、改訂版のデータセットを使ってこれらのモデルを再評価した。特に42の言語を含めて、世界中のもっと多くの人が良い言語技術の恩恵を受けられるようにしたんだ。

文化的バイアスの影響

私たちの研究で、文化的バイアスがモデルのパフォーマンスにどれだけ影響するかが明らかになった。MMLUデータセットの質問の28%が特定の西洋の知識に依存してることがわかったんだ。さらに悪いことに、地理的な知識が必要な質問の84.9%が北アメリカやヨーロッパに集中してる!これは、もし言語モデルが主に西洋の概念に基づいた質問で訓練されていたら、他の文化の質問に直面した時にうまく機能しないかもしれないってことを示してる。

翻訳の質を向上させる

質問をただ翻訳するだけでは問題は解決しないことがわかってるんだ。だから、プロを雇ったりコミュニティのメンバーに翻訳をチェックしてもらったりして、翻訳の質を向上させたよ。特にリソースが少ない言語においては、人間の検証が重要なんだ。これによって、翻訳が質問の本質を捉え、誤解を避けられるようにしてる。

データ収集プロセス

改善したデータセットを作るためには、たくさんの情報を集める必要があったんだ。プロのアノテーターやコミュニティのボランティアと協力して、元のMMLUデータセットから質問を見直し、ラベル付けした。各質問は複数のアノテーターによって見られ、文化的な文脈を豊かに理解できるようにしたよ。

質問の文化的感受性

質問を「文化的にセンシティブ」か「文化的に無関係」かに分類したんだ。文化的にセンシティブな質問は、特定の文化の習慣やイベントについて尋ねることがある。一方、文化的に無関係な質問は、バックグラウンドに関係なく誰でも理解できるものだ。この分類によって、言語モデルが深い文化的洞察を必要とする質問に対してどう機能するかを分析するのに役立ってる。

言語を超えたバイアスの理解

データセットの文化的リファレンスを詳しく見てみると、明らかな傾向が見えてきた:文化的にセンシティブな質問のほとんどが西洋文化、特にアメリカに関連していた。この傾向は、他の地域はどうなの?って疑問を生んでる。私たちの調査で、アフリカやラテンアメリカなど多くの文化がほとんど言及されてないことがわかって、もっと広い代表性が必要だってことが分かったよ。

アイデンティティにおける言語の役割

言語は単なるコミュニケーションの手段じゃなくて、アイデンティティの指標でもある。この事実はもう一つの複雑さを加えてる。自分の言語じゃない言語を使うと、他の人の靴を履いてるみたいに感じることがある。この目標は、その靴がみんなにとってよりフィットするようにして、言語モデルをもっと包括的にすることなんだ。

行動への呼びかけ

文化的にセンシティブなサブセットと文化的に無関係なサブセットの両方を報告する評価を進めることをお勧めするよ。これらの評価を分けることで、モデルが多様な文化とどう相互作用するのかをもっとクリアに理解できるんだ。一つの単調な料理じゃなくて、いろんなコースの料理を楽しむみたいな感じ!

結論

異なる文化や言語で言語モデルがうまく機能するようにする quest は始まったばかりなんだ。これらのモデルがどう学び、適応するかを継続的にモニタリングして評価する必要がある。文化的バイアスに対処して翻訳の質を向上させることで、技術がみんなに公平に役立つようにできる。最終的な目標は、言語モデルが文化の違いをスムーズに橋渡しして、グローバルなコミュニケーションを少しでも簡単に、そしてもっと楽しくできる世界を作ることなんだ!

オリジナルソース

タイトル: Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

概要: Cultural biases in multilingual datasets pose significant challenges for their effectiveness as global benchmarks. These biases stem not only from language but also from the cultural knowledge required to interpret questions, reducing the practical utility of translated datasets like MMLU. Furthermore, translation often introduces artifacts that can distort the meaning or clarity of questions in the target language. A common practice in multilingual evaluation is to rely on machine-translated evaluation sets, but simply translating a dataset is insufficient to address these challenges. In this work, we trace the impact of both of these issues on multilingual evaluations and ensuing model performances. Our large-scale evaluation of state-of-the-art open and proprietary models illustrates that progress on MMLU depends heavily on learning Western-centric concepts, with 28% of all questions requiring culturally sensitive knowledge. Moreover, for questions requiring geographic knowledge, an astounding 84.9% focus on either North American or European regions. Rankings of model evaluations change depending on whether they are evaluated on the full portion or the subset of questions annotated as culturally sensitive, showing the distortion to model rankings when blindly relying on translated MMLU. We release Global-MMLU, an improved MMLU with evaluation coverage across 42 languages -- with improved overall quality by engaging with compensated professional and community annotators to verify translation quality while also rigorously evaluating cultural biases present in the original dataset. This comprehensive Global-MMLU set also includes designated subsets labeled as culturally sensitive and culturally agnostic to allow for more holistic, complete evaluation.

著者: Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker

最終更新: Dec 4, 2024

言語: English

ソースURL: https://arxiv.org/abs/2412.03304

ソースPDF: https://arxiv.org/pdf/2412.03304

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事