植民地カリブ新聞におけるバイアスの検証
18世紀と19世紀のカリブ海の新聞における歴史的バイアスの研究。
― 1 分で読む
目次
歴史的文書のバイアスを研究することは、これらのバイアスが現代社会をどう形成してきたかを理解するのに重要だよ。ここでのバイアスは、性別や人種みたいな特性に基づいて特定の人々に対する不公平な態度や信念を指してる。古い新聞を調べることで、これらのバイアスがどのように時間とともに進化してきたかを知ることができるんだ。
歴史的テキストの課題
デジタル歴史文書はしばしば問題があるんだ。主に、昔に作られたもので、スキャンやテキスト変換の過程でエラーが含まれているから。これは光学文字認識(OCR)として知られていて、単語を誤読しちゃうことがあるんだ。さらに、これらの文書に使われてる言語は現代とは違うことが多くて、効果的に分析するのが難しくなることもあるよ。
研究の焦点
この研究は、18世紀と19世紀の植民地時代のカリブ海の新聞に焦点を当ててる。これらの新聞を見ながら、性別や人種に関連するバイアスがどう続いてきたか、または変わってきたかを理解しようとしてるんだ。現代の言語研究手法を使って、特定の単語とこれらのバイアスの関連を分析するよ。
性別と人種のバイアス
分析の中で、性別と人種に関連するバイアスがどう絡み合っているかを見ていく。特定の単語がこれらのバイアスとどう関連しているかを追跡する研究を実施して、これらのバイアスがどう相互に関連しているかを明らかにするんだ。例えば、性別バイアスは白人と他の人種背景の人々に異なる影響を与えることがあるってわかったよ。
歴史的出来事の影響
今回研究している時期は、戦争や反乱といった重要な出来事があった。こういった出来事はカリブ海の社会関係や文化的ダイナミクスに影響を与えたんだ。その言語の変化を歴史的出来事に結びつけることで、この時期に社会的態度がどう変わったかをよりよく理解できるんだ。例えば、1750年頃にカリブ海に白人の労働者移民が来てから、特定のグループの表現が変わったんだ。
言語パターンの分析
歴史的な新聞に使われている言語を分析するために、現代の言語処理技術を使ってる。ノイズやエラーだらけのOCRデータに対して、私たちの手法がどれだけ安定しているかを確認するんだ。研究結果の信頼性と、研究している文書が持つ独特の課題とのバランスを取る必要があるよ。
バイアスに関する発見
私たちの研究は、性別と人種に関連するバイアスが孤立して存在するわけではなく、つながっていることを示してる。例えば、黒人女性のグループを特に見た場合、彼女たちのバイアスの経験は黒人男性や白人女性とは異なることがわかった。これが、彼女たちの経験の複雑さを捉えるために、こういったグループを一緒に研究することの重要性を強調してるんだ。
以前の研究の限界
多くの以前の研究は、性別や人種のバイアスを別々に考察していた。私たちの研究は、両方を同時に見つめることでこのギャップを埋めているんだ。ただ、バイアスの全体像を理解するには、社会的な階級や職業といった他の要因を考える必要があることを認めていて、それは今回は含めていないよ。
分析手法の効果を評価
私たちの作業では、単語の意味や関連性を調べるためにさまざまな手法をテストしてる。これには、歴史的データに対して異なる単語の意味モデルがどれだけうまく機能するかを確認することが含まれてる。特に古い新聞に見られる誤字や古い言葉の取り扱いに注意を払っているよ。
時間を通じた変化の理解
分析を異なる期間に分けることで、新聞に使われている言語がどのように社会的な態度の変化を反映しているかを観察できる。例えば、労働に関連する言葉で、特定の職業が時間と共にどちらかの性別または人種により多く関連付けられるようになっているのが見えるんだ。
言語に反映されたバイアス
新聞で使われている言語は、社会的な信念を見る窓を提供している。特定の単語やフレーズは一般的な認識を反映していて、潜在的なバイアスを明らかにすることができる。単語の使用を分析することで、これらのバイアスを定量化して、歴史的文脈でどのように現れるかのパターンを見ることができるんだ。
データ収集と前処理
私たちの研究は、歴史的な新聞の大きなデータセットを集めることから始まる。OCRエラーを修正して、分析に適したデータになるように慎重に前処理を行うんだ。これには、一般的な誤字を直して、テキストの関連部分だけを含めることが含まれてる。
分析のための単語の関連性の使用
バイアスを評価するために、データセット内の単語の関連性を見ていく。これには、特定の単語が様々な性別や人種の記述にどれだけ密接に関連しているかを測定することが含まれるんだ。これらの関連性を調べることで、歴史的な言語に存在するバイアスについての洞察を得ることができるよ。
主要な用語と定義
私たちの分析では、「バイアス」や「関連性」といった主要な用語を定義して、研究アプローチを明確にしている。バイアスは一つのグループを他のグループよりも優遇する傾向と見なされ、関連性は特定の単語が文脈でどれだけ密接に関連しているかを指すよ。
分析結果
私たちの分析結果は、性別や人種に関連するバイアスがしばしば絡み合っていることを示している。例えば、白人男性はしばしば肯定的な表現で説明される一方で、非白人はより否定的な意味合いを受けることが多い。こういったパターンは様々な歴史的文脈で繰り返されていて、バイアスの複雑な性質を示してるんだ。
言語の時間的変化
私たちの分析は、新聞で使われる言語が時間と共に変化したことを明らかにしている。特定の言葉が特定のグループとより関連付けられるようになり、社会的態度がどう進化したかを示しているんだ。こういった変化を追跡することで、歴史的な出来事が言語の使い方にどのように影響を与えたかを理解できるよ。
新聞の役割の考察
新聞は社会的ダイナミクスを研究するための貴重な資源で、公の論議を反映している。情報を提供するだけでなく、異なる社会的グループについての物語を形作る役割も果たしているんだ。私たちの研究では、この素材を活用して歴史的なバイアスについての洞察を得ようとしてるよ。
倫理的考慮
歴史的な文書、特に疎外されたグループに関連するものを研究することは倫理的な配慮が必要だよ。それらの文書で使われた言語が、今日の現実に影響を持つことを認識しなければならないんだ。歴史的な文脈と、これらのバイアスが現在の社会に与える影響に敏感にアプローチすることが重要だよ。
研究の今後の方向性
私たちの研究は特定のバイアスに焦点を当てているけど、他の社会的要因を探るさらなる研究の必要性を認識しているんだ。これには、現在使っている二元的なカテゴリを超えたアイデンティティの理解を広げることも含まれるよ。
結論
結論として、私たちの研究は歴史的文書におけるバイアスの交差点に光を当てている。植民地時代のカリブ海の新聞を分析することで、性別と人種のバイアスがどのように関連し、時間と共に進化してきたのかを明らかにしているんだ。この分析は、バイアスを研究する際に複数の要因を考慮することの重要性を強調してる。私たちはこの作業を通じて、現代の問題に影響を与え続ける歴史的なダイナミクスの理解を深めることを目指しているよ。
タイトル: Measuring Intersectional Biases in Historical Documents
概要: Data-driven analyses of biases in historical texts can help illuminate the origin and development of biases prevailing in modern society. However, digitised historical documents pose a challenge for NLP practitioners as these corpora suffer from errors introduced by optical character recognition (OCR) and are written in an archaic language. In this paper, we investigate the continuities and transformations of bias in historical newspapers published in the Caribbean during the colonial era (18th to 19th centuries). Our analyses are performed along the axes of gender, race, and their intersection. We examine these biases by conducting a temporal study in which we measure the development of lexical associations using distributional semantics models and word embeddings. Further, we evaluate the effectiveness of techniques designed to process OCR-generated data and assess their stability when trained on and applied to the noisy historical newspapers. We find that there is a trade-off between the stability of the word embeddings and their compatibility with the historical dataset. We provide evidence that gender and racial biases are interdependent, and their intersection triggers distinct effects. These findings align with the theory of intersectionality, which stresses that biases affecting people with multiple marginalised identities compound to more than the sum of their constituents.
著者: Nadav Borenstein, Karolina Stańczak, Thea Rolskov, Natália da Silva Perez, Natacha Klein Käfer, Isabelle Augenstein
最終更新: 2023-05-21 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.12376
ソースPDF: https://arxiv.org/pdf/2305.12376
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.readex.com/products/caribbean-newspapers-series-1-1718-1876-american-antiquarian-society
- https://www2.statsbiblioteket.dk/mediestream/
- https://github.com/tesseract-ocr/tesseract
- https://github.com/tedunderwood/DataMunging
- https://spacy.io/
- https://github.com/Mimino666/langdetect
- https://radimrehurek.com/gensim/models/word2vec.html
- https://huggingface.co/docs/tokenizers
- https://www.nltk.org/howto/wordnet.html
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/copenlu/intersectional-bias-pbw
- https://stcroixsource.com/2017/03/01/