言語データ収集における倫理的考慮
多様なコミュニティから言語データを集める際の社会的および倫理的な問題を探る。
Andrew Smart, Ben Hutchinson, Lameck Mbangula Amugongo, Suzanne Dikker, Alex Zito, Amber Ebinama, Zara Wudiri, Ding Wang, Erin van Liemt, João Sedoc, Seyi Olojo, Stanley Uwakwe, Edem Wornyo, Sonja Schmer-Galunder, Jamila Smith-Loud
― 1 分で読む
最近、大規模言語モデル(LLM)がすごく重要になってきたけど、トレーニングに使われるデータのほとんどは英語なんだよね。これって問題で、特に経済的に発展していない地域のコミュニティの言語は、このモデルでほとんど表現されてないんだ。あまり話されていない言語は「リソースが少ない言語」って呼ばれたりするけど、LLMのパフォーマンスはこれらの言語ではかなり低いことが多いんだ。LLMをもっと多くの言語に広げることで、異なるコミュニティ間のコミュニケーションを助けたり、これらの言語を保存するのに役立つかもしれないけど、そのデータを集めるときは公正で尊重のある方法が重要だよ。
植民地化されたり、先住民が話す言語のデータを集めるときは、複雑な社会的・倫理的な問題が出てくる。例えば、同意の問題とか、文化の安全性、データをどう制御するかっていう権利の話もあるし、その言語のユニークな特徴や文化的背景が軽視されがちなんだ。今回の話は、重要な社会的・倫理的な考慮事項を浮き彫りにして、これらのコミュニティから言語データを責任を持って集めるためのおすすめを示すことを目的としてるんだ。
自然言語処理(NLP)の研究は、英語以外の言語のモデリングでいろいろ課題に直面してきた。世界の多くの言語がLLMにあまり取り上げられてないけど、今や人工知能を使った言語タスクに対処する主要な手段になってる。最近は、約7000の世界の言語を広く扱える多言語モデルを開発する努力がなされてる。100言語くらいに対応できる多言語モデルもあるけど、まだ大きなギャップが残ってるよ。
LLMのパフォーマンスが主に英語のタスクに集中していることで、英語以外の言語を効果的に理解したり生成する能力について疑問が生まれてる。つまり、「良い」翻訳って何だろうとか、特定のモデルが新しい言語を正確に反映できるのかが不明なんだ。
利用可能な言語データは、デジタルプラットフォームから多く集められていて膨大なんだけど、翻訳や音声認識、他のNLPの操作に十分な質の高いデータがあることを確認するのが重要なんだ。でも、あまり知られていない言語では、テキストや音声データがかなり不足してるから、効果的なシステムを開発するのに課題があるよ。英語がオンラインコンテンツやトレーニングデータの大部分を占めている一方で、世界中のほとんどの人は英語を話さない。
中国語、ヒンディー語、スペイン語、アラビア語みたいな話者が多い言語もあるけど、それ以外にも技術開発用のリソースが限られている言語がたくさんある。この状況は、データを単なる商品として見る狭い視点を反映していて、デジタルの世界ではデータが石油みたいな資源よりも価値あるものとして扱われがちで、権力の不均衡を助長しているんだ。データへの需要は、こういった情報を処理するために必要な技術の環境への影響についての懸念を生むし、これはオンラインであまり代表されていない脆弱なコミュニティに影響を与えることが多い。
LLMのための言語データセットを改善する努力は重要だけど、このデータを集めるときの方法は倫理的で、関与するコミュニティに配慮する必要がある。以前植民地化されたり先住民の人々が話す多くの言語は、同意やアイデンティティ、権利に関する問題に直面しているんだ。LLMはコミュニケーションを助けたり、言語を保存することができるかもしれないけど、収集されるデータの文化的・歴史的な重要性を認識するのが重要だよ。
言語は単なるデータじゃなくて、それを話す人々の遺産やアイデンティティを持ってる。多くのLLMは、これらの言語を実際に話している人たちを含まない強力な組織によって作られたり管理されたりしているんだ。この多言語モデルを開発するときは、これらのコミュニティの利益や視点を優先することが大事なんだ。
技術者は、言語に関していろんな前提を持っていて、それがデータの集め方や使い方に影響を与えることがある。言語はしばしば単なる規則やシステムの集合として見られて、存在する社会的・文化的背景が無視されがち。これは、言語が生きたもので、コミュニティによって形成される進化する存在であるという事実を見逃すことになるんだ。
歴史的に、特定の言語は植民地主義によって優位に立っていて、いくつかの言語が他の言語を支配するヒエラルキーを生んでいる。この言語の優位性は、あまり話されていない言語の周縁化を助長することがある。この権力のダイナミクスを理解することは、責任ある技術開発にとって重要なんだ。
植民地の歴史が言語に与える影響を考えると、現在の言語状況が過去の不正義に根ざしていることを認識するのが重要だよ。言語データを集めるには、関係するコミュニティと対話し、その特定の文脈を認める必要があるんだ。これらのコミュニティの言語は、権力の公式な言語ではないことが多く、正式なコミュニケーションプロセスでは脇に置かれがち。この排除は、代表されていない言語が認識され、デジタルの場で存在感を持つ機会をさらに制限するんだ。
さらに、植民地勢力によって設定された恣意的な政治的国境は、言語コミュニティを分断していて、彼らが一体となって機能するのを難しくしている。その結果、先住言語が周縁化され、正式なコミュニケーションには植民地の言語に過度に依存することになる。今日、多くのコミュニティは、自分たちの言語をすべての生活の側面で使う権利と認識を求めて闘い続けているんだ。
言語の権利が否定されることは、多くのコミュニティに影響を与える広範な disenfranchisement のパターンの一部だね。人々は市民権を奪われ、場合によっては自分の言語やアイデンティティも奪われている。言語権のための闘いは、言語への尊重を求め、母国語での教育や他のリソースへのアクセスを確保する広範な人権運動と連携しているんだ。
言語の危機を終わらせるのは重要で、先住民や少数言語が絶滅の危機に瀕しているから、これらの言語をサポートすることはコミュニティを力づけたり、文化的アイデンティティを保存するのに役立つ。技術がこの保存に役立つことはあるけど、コミュニティの関与を中心に、彼らの希望を尊重する形で使う必要があるんだ。
多くの場合、技術へのアクセスは不平等で、既存の社会的な不均衡を強化することになる。携帯電話の利用は増えているけど、インターネットアクセスは周縁化されたグループには限られていることが多い。そのため、技術をコミュニティのニーズや願いに合った形で移転するのが重要なんだ。
言語は文化と深く結びついていて、技術開発がこのつながりを考慮しないと、誤解や意味の喪失の可能性が高まる。開発者は、文化の専門家や地域コミュニティと密接に協力して、技術が彼らの現実を反映するようにする必要があるんだ。
言語と文化がどのように相互に影響を与えるかを理解するのは、効果的な言語技術を開発するために必須だね。研究者や技術者は、異なる言語のニュアンスを理解しつつ、それらの社会文化的文脈も認識する必要がある。
多くの先住文化は、言語を土地とその関係から切り離せないものと見なしている。この視点は、言語を理解するには単なる言語学の研究だけではなく、コミュニティやその歴史に関与することが必要だと示唆している。こうした深いつながりを認識しない技術は、目指すモデルの言語を誤解したり歪めたりするリスクを抱えているんだ。
これらの問題に対処するためには、研究者はもっとコミュニティ中心で包括的な方法論を採用する必要がある。関係性倫理は、他者へのつながりや責任を重視し、言語技術の開発を導くことができる。これは、個人主義を重視する伝統的な西洋の倫理とは対照的だね。関係性アプローチを採用することで、開発者は共同のウェルビーイングや共通の価値に焦点を当てることができ、これがコミュニティとの信頼構築には重要なんだ。
こうした原則はさまざまな分野で成功裏に適用されていて、研究者が自分の仕事が人々にどう影響するかを考察し、意思決定プロセスにコミュニティを積極的に関与させるように促している。コミュニティのメンバーを平等なパートナーとして関与させることで、より良い結果や関連のある技術が生まれることがあるんだ。
人権フレームワークを確立することで、倫理的な技術開発を導く助けになる。これらのフレームワークには、言語権の尊重が含まれるべきで、多くの言語コミュニティが直面した歴史的不正義を認識することが求められるんだ。人権アプローチを採用することで、研究者は自分の仕事が社会にポジティブに貢献し、過去の間違いに対処することを保証できるんだ。
コミュニティは、データ集めのプロセスへの参加を拒否する権利も持つべきだよ。この自主性の尊重は、倫理的な関与には重要で、一部のグループは自分たちの言語を技術システムから外しておくことを選ぶかもしれないからね。
データ主権は重要で、コミュニティが自分たちのデータを管理し、使い方を制御できることを意味する。この自主性は、何十年もの間周縁化されてきた言語の文脈において特に重要なんだ。技術開発者は先住民コミュニティと協力して、彼らのデータが公正に管理され、成果から利益を得られるようにするべきだよ。
まとめると、多言語データの収集と使用は、関与するコミュニティの権利とニーズを尊重しながら責任を持って行う必要がある。研究者は、これらのコミュニティと意味のある関係を築き、自分たちの前提を常に振り返りつつ、開発プロセス全体で倫理的考慮を優先する必要があるんだ。
社会的に責任ある言語データ収集のための提案は、技術の発展の中心にコミュニティを置くことの重要性を強調している。言語と文化の複雑さを認識することで、技術者は全ての言語が公平に評価され、代表されるより公平な未来に貢献できるんだ。
タイトル: Socially Responsible Data for Large Multilingual Language Models
概要: Large Language Models (LLMs) have rapidly increased in size and apparent capabilities in the last three years, but their training data is largely English text. There is growing interest in multilingual LLMs, and various efforts are striving for models to accommodate languages of communities outside of the Global North, which include many languages that have been historically underrepresented in digital realms. These languages have been coined as "low resource languages" or "long-tail languages", and LLMs performance on these languages is generally poor. While expanding the use of LLMs to more languages may bring many potential benefits, such as assisting cross-community communication and language preservation, great care must be taken to ensure that data collection on these languages is not extractive and that it does not reproduce exploitative practices of the past. Collecting data from languages spoken by previously colonized people, indigenous people, and non-Western languages raises many complex sociopolitical and ethical questions, e.g., around consent, cultural safety, and data sovereignty. Furthermore, linguistic complexity and cultural nuances are often lost in LLMs. This position paper builds on recent scholarship, and our own work, and outlines several relevant social, cultural, and ethical considerations and potential ways to mitigate them through qualitative research, community partnerships, and participatory design approaches. We provide twelve recommendations for consideration when collecting language data on underrepresented language communities outside of the Global North.
著者: Andrew Smart, Ben Hutchinson, Lameck Mbangula Amugongo, Suzanne Dikker, Alex Zito, Amber Ebinama, Zara Wudiri, Ding Wang, Erin van Liemt, João Sedoc, Seyi Olojo, Stanley Uwakwe, Edem Wornyo, Sonja Schmer-Galunder, Jamila Smith-Loud
最終更新: 2024-09-08 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.05247
ソースPDF: https://arxiv.org/pdf/2409.05247
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。