Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 機械学習

歴史的なテキストからのイベント抽出

植民地の新聞広告からイベントを抽出するためのNLPを使った研究。

― 1 分で読む


NLPで歴史を抽出するNLPで歴史を抽出する使う。植民地の新聞広告を分析するためにNLPを
目次

NLPの手法を使うと、歴史家が手作業ではできないテキスト資料をもっと調べられるようになるんだけど、これを作るのは結構難しいんだ。まず、大きなラベル付きの歴史データセットを集めるのが難しくて、正しくラベル付けできるのは専門家だけだから。次に、ほとんどのNLPモデルは現代の言語テキストで訓練されているから、歴史的なテキストに対しては効果が薄い。特にあまり研究されていないタスクや、英語以外の言語の場合は大きな問題になるんだ。

この研究では、あまり研究されていない歴史的テキストからのイベント抽出というタスクに焦点を当てて、これらの課題に取り組んでいるよ。植民地時代の新聞広告で、逃げた奴隷の物語を語る英語、フランス語、オランダ語の新しい多言語データセットを紹介するね。注釈付きデータが不足している中でも、問題を抽出型の質問応答タスクとして扱うことで、現代の言語の既存のデータセットやモデルを使えば良い結果が得られることが分かったんだ。リソースが限られた言語での学習は難しいけど、歴史的なデータセットを必要な言語に翻訳すると、実際には最も良い結果が得られるんだ。

大きな歴史的文書を見てみると、過去の出来事についての重要な洞察が得られるんだ。個人の生活から広いグローバルなプロセスまで。歴史家は通常、テキストを詳しく分析するけど、NLPツールを使えば研究プロセスが早くなって、発見の意味を理解することにもっと集中できるんだよね。

歴史的なテキスト用のNLPモデルを作るのは独自の課題があるんだ。まず、大きなラベル付きの歴史データセットを集めるのが難しくて、信頼できるのは専門家だけ。これが、標準的な教師あり学習の方法を歴史的なテキストに対して実用的ではなくしてる。加えて、ほとんどの使えるNLPモデルは現代のテキストで訓練されていて、歴史的な文書には多くのエラーが含まれていることがあるし、書き方もすごく違うからパフォーマンスが悪くなっちゃう。これは特に、あまり知られていないタスクや英語以外の言語にとって厳しいんだ。

このあまり知られていないタスクの一つが、歴史的テキストからのイベント抽出なんだ。このタスクは、大量の資料から複雑な出来事に関する情報を集めるのに役立つ。ここでは、逃げた奴隷に関する植民地の新聞広告からのイベント抽出に焦点を当ててるんだ。これらの広告を分析することで、初期の植民地時代、特に大西洋奴隷貿易と初期の大量印刷時代における人種的問題がどのように表現されていたかについての洞察が得られるんだ。

イベント抽出のためのリソースが少ない学習方法を調べていて、これまであまり研究されていないトピックなんだ。私たちの知る限り、これが多言語の文脈で歴史的なイベント抽出を調査する初めての研究だよ。

注釈付きデータセット「イギリスの逃亡奴隷」の例を提供するよ。それぞれのサンプルには広告のスキャン、抽出されたテキスト、広告からの属性のリストと関連するメタデータが含まれている。

貢献

この研究にはいくつかの重要な貢献があるよ:

  1. 英語、フランス語、オランダ語の新しい多言語データセットを作成した。このデータセットは、逃げた奴隷についての広告から構成されている。
  2. 歴史的テキストからのイベント抽出を抽出型質問応答として枠付けした。このアプローチは、限られた注釈付きデータでも驚くほど良い結果を得ることができるんだ。
  3. リソースが少ない言語での学習がとても難しいことを示した。そして、歴史的なデータセットを目的の言語に翻訳することが、実際には最も効果的な方法であることが多いんだ。

関連研究

歴史的テキストのNLP
以前の研究は主に、歴史的テキストにおけるOCR(光学文字認識)やテキスト正規化に取り組んできた。歴史家が大量のテキストを分析する手助けをする試みがあったけど、大きな注釈付きの歴史データセットを得ることの難しさや、現代モデルの素晴らしい結果を歴史的テキストに再現することの難しさが多くの研究で指摘されてる。これにより、多くの研究者が主に英語の一言語データセットに集中し、リソースが少ない言語を無視してきた。

この研究では、歴史的NLPの中であまり探求されていないタスクである多言語イベント抽出の課題に取り組んでる。

イベント抽出
イベント抽出は、自然言語のテキストを構造化されたイベントに整理するプロセスで、特定の時間と場所で発生し、1人または複数の参加者が関与する出来事だよ。

伝統的に、イベント抽出は小さなタスクに分けられて、イベントが存在するかの確認、参加者の特定、関連属性の抽出などが行われる。最近の発見では、イベント抽出を質問応答タスクのように扱うことで効果的だと示されていて、この研究の焦点は属性抽出のサブタスク。このアプローチを基に、歴史的なイベントに関連する属性の特定を抽出型質問応答タスクとして枠付けているんだ。

歴史的テキストからのイベント抽出は、現代のテキストからのイベント抽出よりも少ない研究がなされてて、このタスクを目指した作品はほとんどない。いくつかは、現代テキストから歴史的イベントに関する知識を集めるためのパイプラインを開発していて、他は歴史的文書内でのイベントの認識と分類のための注釈ガイドラインを作成してる。OCRエラーに対処するために、意図的に現代データセットを劣化させた研究もある。私たちの研究に近いのは、英語の歴史的テキストから黒人の反乱に関するイベントを抽出するデータセットだけど、まだ公開されていない。

現在のモデルがこのデータセットでどれだけのパフォーマンスを発揮するかについては大きなギャップがある。私たちは、多言語のアプローチでイベント抽出を探求して、さまざまなモデルやパイプラインをより包括的に評価しているんだ。

方法論

私たちのデータ処理パイプラインは、各広告を一連の抽出型質問応答の例に変換していて、各属性が自然言語の質問にリンクされているんだ。

最初に、各サンプルが単一のイベントに対応する広告からなるデータセットを使って、私たちのタスクを簡素化している。このサンプルがどのイベントを指すかが分かるからね(自由を求めるイベント)。私たちの焦点は属性抽出のサブタスクにある。

以前の研究に基づいて、問題を抽出型質問応答タスクとして扱っている。広告とイベント属性を与えられたとき、自然な質問を作成し、その質問に答えるテキストスパンを広告内から探すんだ。属性には取り扱いやすい数の明確なものを想定して質問を手作業で作ってるんだ、これは歴史研究では普通だよね。

たとえば、属性が「総報酬」だったら、「報酬はいくらか?」という質問に対する答えを広告のテキストスパンの中から探すんだ。

この方法を選んだ理由はいくつかあるよ。まず、抽出型質問応答を使うことで、歴史的文書内に見つかるテキストスパンとしてイベント属性を取得できる。これは、歴史家にとって重要だよね。なぜなら、抽象型質問応答モデルが属性を改変したり、虚偽の情報を作り出したりするかもしれないから。

次に、この方法は特にリソースが少ない環境に適しているんだ。歴史的文書の注釈付けがコストがかかり、手間がかかるから、こういうシナリオは普通なんだ。抽出型質問応答は広く研究されているタスクで、現代テキストに基づいていても、既存のデータセットやモデルのチェックポイントがたくさんある。これらのチェックポイントは転移学習にはまだ役立つんだ。

最後に、この方法は効率的だよ。各イベントは異なる属性を含むから、各属性は独自の訓練インスタンスになる。だから、1つの注釈付き歴史広告が多数の訓練データを生成し、単一のモデルがすべての属性タイプをカバーすることができる。これで展開が簡素化されて、見たことのない属性にモデルが一般化する手助けができるんだ。

データセット

いろんなソースから、3つの言語の注釈付きと注釈なしのデータセットを混ぜて使ってる。

注釈付きデータセット
評価の主なリソースは、イギリスの「逃亡奴隷」に関する注釈付きの英語データセットだよ。これは、1700年から1780年までの間に奴隷を捕まえようとしていた人たちが出した19,000件以上の新聞広告の検索可能なデータベースなんだ。それぞれの広告は手作業で確認され、性別、年齢、服装、身体的特徴など50以上の属性が注釈付けされている。

このデータセットを清掃して、訓練用と検証用のセットに分けて、大きなベンチマークに合わせた抽出型質問応答のフォーマットに処理するよ。一部の属性や注釈は広告にそのまま出てこなかったり、元に戻せなかったりするから省略されているんだ。

他の言語には同様のデータセットが存在しないから、英語の訓練データをフランス語とオランダ語に翻訳して、教師あり訓練をサポートしてる。ネイティブスピーカーが翻訳の質についてフィードバックをくれたよ。

注釈なしデータセット
比較的小さな英語の注釈付きデータセットに加えて、フランス語と英語の注釈なし広告のセットを「アトランティック・ワールドにおけるマロンナージュ」というウェブサイトから集めた。これは1765年から1833年までに発行された、逃げた奴隷に関する20,000件以上の手書きの新聞広告が含まれている。

オランダ語のデータセットはまだ存在しないから、私たちは手作業で「デ・キュラソーシェ・クーラン」という新聞の全号2,742部を使って作成したよ。この新聞は、その期間にオランダ語で主に発行されていたし、収集もほとんど利用可能だ。ただ、OCRプロセスのために、オランダ語のデータセットは他よりもノイズが多いんだ。

多言語評価データセット
フランス語とオランダ語で私たちの手法を評価するために、それらの言語で働く二人の歴史家がフランス語とオランダ語のコーパスから広告に注釈付けを行った。私たちのオランダ語データセットは個々の広告ではなく新聞号全体で構成されているから、まず関連する広告を見つけてから注釈付けをする必要があった。彼らは「イギリスの逃亡奴隷」データセットで定義された属性を使ったよ。

ほとんどの広告は、作業の手間がかかるので一人の歴史家によって注釈が付けられた。注釈の一貫性を確認するために、ランダムサンプルも二重で注釈付けされた。各言語では高い一致率が示されていて、タスクの理解が明確であることを示してる。

要するに、私たちは英語の「イギリスの逃亡奴隷」プロジェクト、翻訳したフランス語とオランダ語の訓練セット、フランス語とオランダ語の手動で注釈を付けた検証セットという、3つの言語で注釈付きデータセットを持っているんだ。

実験セットアップ

この研究の主要な目標は、さまざまなリソースで歴史的テキストからのイベント抽出の最良の方法を見つけることだよ。私たちはいくつかの設定でモデルを評価してる。

ゼロショット推論
この設定は、歴史的NLPでトレーニングデータが全くないケースをシミュレートしてる。

少数ショットトレーニング
歴史的な研究では、一般的にラベル付きの例が少ないことがある。だから、私たちは異なるサイズの注釈付き一言語データセットを使ってモデルを訓練し、同じ言語の評価セットでそのパフォーマンスをテストしているんだ。

半教師ありトレーニング
時には、少しのラベル付きサンプルに加えて、より大きな注釈なしデータセットが手に入ることがある。私たちは、注釈なしデータセットでマスクされた言語モデルの目標を使ってモデルを事前訓練するか、または注釈付きデータセットと同時に訓練することで、モノリンガルモデルを評価してる。

クロスリンガルトレーニング
私たちはまた、英語のデータセットで訓練した多言語モデルを、フランス語やオランダ語のデータセットで評価するクロスリンガルトレーニングのバリエーションもテストしている。

結果と分析

ゼロショット推論
結果は、イベント抽出を抽出型質問応答として扱うことの利点を示している。ほとんどのQAモデルは他のベースラインよりもはるかに良いパフォーマンスを示した。英語のモデルは、他のモデルよりもかなり優れていたんだ。

ただし、全体のパフォーマンスは英語の方がフランス語やオランダ語よりもはるかに良かったのは、データセットの作成に使われたソースの違いによるもの。英語のデータセットは一般的にきれいだったから、結果が良かったんだ。フランス語やオランダ語に対するリソース不足も影響していて、高リソース言語で開発されたモデルは一般的に良いパフォーマンスを発揮するんだ。

少数ショットトレーニング
すべてのモデルが、限られた訓練データにもかかわらず、印象的なスコアを示した。SQuADで訓練されたモデルは、その基本的な仲間よりもパフォーマンスが向上していて、特にデータが少ないシナリオで顕著だった。

半教師ありトレーニング

より大きな注釈なしデータセットを使うことで、英語のモデルのパフォーマンスが向上したけど、フランス語やオランダ語のモデルの改善はあまり明確ではなかった。注釈なしデータを使うことで、全体のデータセットで訓練されたモデルには助けになったけど、結果はあまり一貫性がなかった。

クロスリンガルトレーニング

クロスリンガルトレーニングでは、ラベル付きデータから訓練されたモデルが別の言語で評価されてもかなり良いパフォーマンスを示すことができた。ただし、効果は異なる言語ペアによって異なるんだ。

エラー分析

主要なモデルは長い広告に苦しんでいて、長いシーケンスに訓練されたモデルの調整が今後の助けになるかもしれない。

属性を分析することで、希少な属性の予測が難しいことが分かった。これは、属性が自然な質問に変換される方法を強化することで、パフォーマンスが向上するかもしれないことを示唆しているね。

結論

この研究は、さまざまな言語の歴史的テキストからのイベント抽出のユニークな課題に取り組んでいるんだ。逃げた奴隷の物語を語る新聞広告から構成された新しい多言語データセットを開発した。この研究は、問題を抽出型質問応答タスクとして枠付けることの利点を示している。限られた注釈付きデータにもかかわらず、現代のデータセットやモデルを利用することで有望な結果を得たよ。

私たちは4つの主な制限を特定した:単一のイベントタイプに焦点を当てていること、特定の言語ファミリーに依存していること、偏見を生むかもしれない翻訳ツールへの依存、そして比較的きれいなデータセットでの評価。今後の研究では、ノイズの多いテキストの影響を深く掘り下げたり、他の言語への方法論の拡張を検討したり、特に重要なOCRエラーがある歴史的テキスト資料をより効果的に扱う方法を考えるべきだね。

倫理的考慮事項

奴隷に関連するテキストの研究は、歴史家やコンピュータ科学者にとって倫理的な問題を提起するよね。この歴史が特に有色人種に与えた影響を考えると。研究者として、私たちの義務は、歴史的テキストを分析するのに役立つ注意深いNLPツールを作成し、これらの資料内に見られる人種差別的な言語や感情を再現しないように努めることなんだ。

これらの広告で語られる逃げた奴隷の生活は何世代も前のことだから、彼らのプライバシーや個人データ保護の問題は関係ないけど、広告自体は抑圧者からの人種差別的で侮辱的な言語を反映しているし、現代の文脈におけるこうした歴史的な物語の表現や扱いについて重要な質問を提起することになるんだ。

オリジナルソース

タイトル: Multilingual Event Extraction from Historical Newspaper Adverts

概要: NLP methods can aid historians in analyzing textual materials in greater volumes than manually feasible. Developing such methods poses substantial challenges though. First, acquiring large, annotated historical datasets is difficult, as only domain experts can reliably label them. Second, most available off-the-shelf NLP models are trained on modern language texts, rendering them significantly less effective when applied to historical corpora. This is particularly problematic for less well studied tasks, and for languages other than English. This paper addresses these challenges while focusing on the under-explored task of event extraction from a novel domain of historical texts. We introduce a new multilingual dataset in English, French, and Dutch composed of newspaper ads from the early modern colonial period reporting on enslaved people who liberated themselves from enslavement. We find that: 1) even with scarce annotated data, it is possible to achieve surprisingly good results by formulating the problem as an extractive QA task and leveraging existing datasets and models for modern languages; and 2) cross-lingual low-resource learning for historical languages is highly challenging, and machine translation of the historical datasets to the considered target languages is, in practice, often the best-performing solution.

著者: Nadav Borenstein, Natalia da Silva Perez, Isabelle Augenstein

最終更新: 2023-05-18 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.10928

ソースPDF: https://arxiv.org/pdf/2305.10928

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事