歴史的なニュース記事を効率よく整理する
歴史的な記事を役割や側面で分類するシステム。
― 1 分で読む
デジタルライブラリは、キーワード検索を使って昔の新聞にアクセスできることが多いんだ。歴史を研究する時、歴史的人物やその役割について知ることはすごく大事なんだよね。ニュース記事をグループ化して整理することで、ユーザーが情報を見つけやすくなるんだけど、十分なトレーニングデータがないとか、法律的な制約、OCR(光学文字認識)によるテキストのエラーみたいな現実の課題があって、こういうシステムを作るのは大変でコストもかかるんだ。この研究では、歴史的な人物に関するニュース記事を整理する役割ベースのインターフェースを開発することで、これらの課題にどう対処するかを示しているよ。評価や専門家のフィードバックによると、私たちのプロトタイプは効果的で、実際のデジタルライブラリコレクションに適してるんだって。
ユーザーとそのニーズ
歴史的なニュース記事を特徴とするデジタルライブラリを使う人たちは、情報との関わり方がいろいろあるんだ。タスクを計画したり、事実を探したり、特定のアイテムと取り組んだりするんだよね。
歴史研究では、歴史的人物とその役割が特に興味深いポイントなんだ。歴史家の仕事をサポートするツールが必要とされてるのもわかってる。研究者にとって重要な仕事は、自分の研究質問に答えるのに役立つ小さな記事のコレクションを作ることなんだけど、こういう小さなコレクションを見つけるのは主に二つの理由で難しいんだ。
まず、大量のニュース記事は圧倒的。次に、検索するための適切なキーワードを見つけるのが難しい。
自然言語処理(NLP)の進歩により、ユーザーが歴史的なニュースコンテンツにアクセスする新しい方法が出てきたんだ。過去には多くのデジタルライブラリプロジェクトがこれに焦点を当ててきたけど、多くのシステムは手作業に依存していたり、各ステップで専門的なトレーニング例が必要だったりするんだ。
この研究では、手作業なしで、Wikipediaの情報を使って構造化された詳細とテキスト例を提供することで、専門的なトレーニングデータの必要がないようにしているよ。この論文では、人々に基づいて歴史的ニュース記事を自動的に整理し、ライブラリのコンテンツを探索しやすくするユーザーフレンドリーなインターフェースを提供する新しいシステムを紹介してるんだ。
主なアイデアは、各人がいろんな役割(例えば、作家、政治家、兵士)を持っていて、各役割には異なる側面(例えば、若い頃、政治キャリア、行動)があるってこと。理想的には、システムが各役割と側面のために自動的に小さなコレクションを作って、研究者が歴史的人物を研究しやすくしてくれるよ。ただ、NLPの分野では伝統的な方法が手作りのトレーニングデータに依存していることが多くて、私たちのケースではそれが得られないんだ。
このプロジェクトは、オランダ国立図書館みたいなリアルなデジタルライブラリの課題に対処しているんだ。ここには手作りのトレーニングデータやベンチマークが存在しないし、いくつかの現実の制約もあるよ:
- データはオランダ語で、多くのツールは英語だけで利用可能。
- ニュース記事はOCRスキャンされた新聞から来ているから、誤った文字や壊れた文みたいな一般的なOCRの問題がある。
- ライブラリのライセンスでは、データをサードパーティのツールと共有することが禁止されている。
さらに、英語ではないオランダのニュース記事のあまり研究されていないコレクションもあるんだ。この研究は、典型的なデジタルライブラリの制約を克服する実用的なシステムを作ることを目指しているよ。
目標と貢献
このプロジェクトは、歴史的人物とその役割に基づいてニュース記事を整理することで、ユーザーが研究を計画するのをサポートすることを目的としているんだ。私たちのプロトタイプは、オランダ国立図書館のリアルデータを使って、Wikipediaから自動生成されたトレーニングデータに基づいて作られているんだ。期待する成果は、ユーザーが歴史的人物についての研究質問を形成するのを助けることなんだよ。
デジタルライブラリがそのコレクションを探るための効果的なアクセスパスをどう作れるかという研究質問に答えるために、いくつかの貢献をしているよ:
- デジタルライブラリが直面する現実の課題を克服する方法を説明している。
- Wikipediaの構造的情報を使ってニュース記事を自動的に整理する効果的な方法を紹介している。
- プロトタイプを段階的に評価し、専門分野の専門家とのインタビューを通じて評価している。
関連研究
この研究に関連する仕事は、デジタルライブラリのニュースアーカイブシステム、オランダ語のテキスト処理、テキスト要約手法の三つの主要なカテゴリーに分けられるよ。
ニュース記事に関するデジタルライブラリシステム
ニュース記事を構造化して探る研究は広範にわたるんだ。要約、用語の進化、フェイクニュース検出、クラスタリングなどがトピックに含まれるよ。一部のシステムは、サポートベクターマシン(SVM)を使ってニュース記事を類似性に基づいてクラスタリングしている。以前の研究では、歴史的人物の役割、その関係、固有名詞が歴史文書への重要なアクセス点として特定されている。いくつかのリアルなプロジェクトが、現実の制約の中で類似するニュース記事をクラスタリングすることを探求しているんだ。
一例として、オランダ国立図書館が開発したDelpherプラットフォームがあるよ。Delpherはニュース記事をデジタル化し、歴史的なコレクションをナビゲートするためのユーザーインターフェースを提供しているんだ。彼らはまた、自分たちの新聞コレクションの一部を標準の検索インターフェースとは異なる方法で整理することを目指している。私たちの研究は、ライブラリのニュース記事を自動的に整理し、制約に応じたアプローチを取ることを目指しているよ。
オランダ語の言語モデル
多くの言語モデルが英語データでトレーニングされ、テストされているんだ。多言語設定でトレーニングされたモデルや特にオランダ語用のモデルには例外もあるよ。BERTjeやRobBERTのようなモデルは、さまざまなタスクで多言語版よりも優れているんだ。このプロジェクトでは、テキスト分類にRobBERT-2022モデルを使用しているよ。
テキスト要約
テキスト要約は、長いテキストの簡潔な要約を作成することを含むんだ。多くの一般的なシーケンス・ツー・シーケンス言語モデルは、要約タスクに微調整できるんだ。ただ、要約モデルの多くは短いテキストに制限されていて、しばしば512トークン以下なんだ。新しいモデルはより大きな入力を扱えるけど、大半は英語でトレーニングされている。私たちのプロジェクトでは、複数の記事を一つの要約にまとめることを目指しているので、マルチドキュメント要約タスクに焦点を当てているんだ。
アプローチとデータ収集
このプロジェクトでは、ニュース記事の構造を向上させて、個人に関する研究をサポートすることを目指しているんだ。それぞれのニュース記事には、タイトル、テキスト、リリース日、発行新聞などの要素が含まれているんだ。各人物には複数の役割(例えば、政治家、作家)があり、それぞれにはさまざまな側面(例えば、政治キャリア、小説、受賞歴)があると考えたんだ。
ライブラリの制約
私たちの作業にはいくつかの制約があったよ:
- 記事はOCRスキャンされた新聞から来ている。
- テキストはオランダ語。
- サードパーティとデータを共有することへの制約があった。
- Delpherシステムへのリンクが必要で、実際の記事のスニペット(最大160文字)しか表示できなかった。
- 私たちのタスクに対してキュレートされたトレーニングデータがなかった。
これらの制約のため、自動翻訳サービスやAIアシスタントを使うことができなかったんだ。トレーニングデータがないと、テキスト分類のためのモデルをトレーニングするような単純なアプローチも使えなかったんだ。収集、ラベリング、トレーニングはコストがかかるから、別の解決策を選んだよ:
オランダ語のWikipediaを使って、さまざまな人物、その役割、側面についてのテキストを集めたんだ。Wikipediaはテキストをセクションに整理していて、各人物の役割についての構造化した情報を提供するリッチなインフォボックスがあるんだ。この機能を活用して、役割をよりよく理解し、さまざまな側面を説明する方法を学んだよ。
システムインターフェース
システムインターフェースを構築する際には、デジタル環境でユーザーが偶然の出会いを楽しむためのニーズを満たそうとしたんだ。つまり、さまざまな情報を持つインターフェースを作成し、情報オブジェクト間の関係を示し、予期しない推薦を提供することだよ。
目標は、人物の役割を特定して、記事の内容がその役割の一つに関連しているかどうかを分類することだったんだ。各側面の要約を使って、ユーザーが迅速に情報を集められるようにしたよ。ユーザーは異なる人物とその既知の役割を選択できて、その役割の異なる側面を調べられるようになってるんだ。各側面は要約とその側面に関連する記事のリストを持っているよ。
ニュース記事の処理
私たちは、17世紀から現代までの記事のサブセットをライブラリから使用したんだ。第二次世界大戦の時代に有名な九つの人物に関連する記事を集めたよ。特定の基準に基づいて記事をフィルタリングして、十分な情報を提供していて、個人の生涯中に発表されたものであることを確認したんだ。
フィルタリングのプロセスにはいくつかのステップがあったよ:
- 認識できるオランダ語の単語が一定の割合以上含まれている記事だけを残した。
- 政治的立場に基づいて特定のソースからの記事を除外した。
- 記事はその人物の生涯中に発行され、100語以上で、その名前が複数回言及されている必要があった。
これらのフィルターによって、関連性があり、有益な記事に絞り込むことができたんだ。
Wikipediaの処理
Wikipediaを使って人物の役割を導き出すには、情報を職業カテゴリにリンクさせる必要があったんだ。オランダ語のWikipediaのXMLダンプを調べて、役割とそれに対応するページの要約を抽出した。このプロセスにより、259,000以上の人物ページのリストが得られたよ。
十分に詳細な情報を提供するページを確保するために、十分な情報がないページはフィルタリングしたんだ。各セクションが人物の生活の異なる側面を説明できるようにセクションを作成することを目指していたよ。セクションのタイトルを管理するために、同じ生活の側面を示す類似のタイトルをまとめる方法を使ったんだ。
アスペクトマイニングと分類
次に、役割に関連する頻繁な側面を特定するために、これらの側面が特定の役割に属するすべての個人の間でどれだけ表示されるかをカウントしたんだ。十分な例がある側面だけを考慮するためにしきい値を設定したよ。
人物の役割が定義されたら、その役割の側面に関連するテキストかを判断するための分類器を開発したんだ。私たちの意図は、役割のさまざまな側面を処理できるマルチクラス分類システムを作ることだったよ。
分類器をトレーニングするために、Wikipediaのセクションからテキストを引き出して、各側面に十分な例があることを確認したんだ。また、誤った分類に対抗するためのネガティブ例も含めた。RobBERT-2022モデルをそのタスク用に微調整して、データをトレーニング、バリデーション、テストセットに分割したよ。
ニュース記事スニペットの処理
次に、歴史的人物に関与するニュース記事のスニペットに分類器を適用したんだ。記事は複数のトピックを扱う可能性があるから、私たちはその人物の名前が含まれているスニペットを集めることに焦点を当てたよ。個人に関連する文を抽出し、意味のあるスニペットを作成するために近くの文脈を含めたんだ。
人物の役割は、対応するWikipediaページを通じて特定したよ。これらの役割に基づいて、各スニペットに分類器を適用したんだ。目的は、ユーザーが各記事で人物の側面がどのように議論されているかを迅速に把握できるように、そのスニペットを要約することだったよ。
オランダ語の利用可能な要約モデルの制限から、微調整された英語モデルを選んで、言語間で翻訳を行って要約を作成することにしたんだ。
システムの評価
プロトタイプのさまざまなコンポーネントを評価したよ。クラスタリング、分類、翻訳、要約などを含めてね。クラスタリングと分類プロセスを評価するために、特定の頻度基準に合ったWikipediaのセクションタイトルをエクスポートしたんだ。
分類器の評価は、テストセットでのパフォーマンスの測定や、手動レビューを通じて分類されたスニペットの質を評価する方法で行ったよ。
結果は、分類器が大きなトレーニングセットでより良いパフォーマンスを発揮することを示していたし、異なる歴史的人物に関する分類されたスニペットの数に変動があることも明らかになったんだ。
ユーザーフィードバックはインタビューを通じて集めて、参加者がインターフェースやシステムの機能についての考えを共有したよ。全体として、インタビュー対象者はインターフェースの整理、明確さ、歴史的人物に関する文脈情報を提供する能力について好意的に見ていたんだ。
課題と将来の方向性
プロジェクトの成功にもかかわらず、改善が必要な領域がいくつかあるんだ。セクションクラスターのラベリングを洗練して、要約スニペットをより効果的に提示する必要があるんだ。要約の正確性に関する問題に取り組むことは、ライブラリの資源の整合性を維持するために重要だよ。将来的なステップとしては、事実を検証する方法を採用したり、要約に対して異なるアプローチを採用したりすることが考えられるんだ。
結論として、このプロジェクトは、デジタルライブラリがニュースコレクションを整理するためのアスペクト主導の方法を開発できることを示しているよ。Wikipediaを利用することで、広範なトレーニングデータの必要を減らしているんだ。評価結果は、この方法の効果とユーザーの研究タスクを支援する実用的な価値を確認しているんだ。進展はあったけれど、システムをさらに良くする可能性はまだまだあるよ。
タイトル: Aspect-Driven Structuring of Historical Dutch Newspaper Archives
概要: Digital libraries oftentimes provide access to historical newspaper archives via keyword-based search. Historical figures and their roles are particularly interesting cognitive access points in historical research. Structuring and clustering news articles would allow more sophisticated access for users to explore such information. However, real-world limitations such as the lack of training data, licensing restrictions and non-English text with OCR errors make the composition of such a system difficult and cost-intensive in practice. In this work we tackle these issues with the showcase of the National Library of the Netherlands by introducing a role-based interface that structures news articles on historical persons. In-depth, component-wise evaluations and interviews with domain experts highlighted our prototype's effectiveness and appropriateness for a real-world digital library collection.
著者: Hermann Kroll, Christin Katharina Kreutz, Mirjam Cuper, Bill Matthias Thang, Wolf-Tilo Balke
最終更新: 2023-07-14 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.09203
ソースPDF: https://arxiv.org/pdf/2307.09203
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.delpher.nl/thema/geschiedenis/tweede-wereldoorlog
- https://impresso-project.ch/overview/intro
- https://glam-workbench.net/
- https://www.newseye.eu/fileadmin/deliverables/NewsEye-T64-D612-ShowcaseCaseStudies-b-Submitted-v3.0.pdf
- https://github.com/NewsEye/NLP-Notebooks-Newspaper-Collections
- https://www.newseye.eu/case-studies/case-study-2-gender/women-in-pants/
- https://anno.onb.ac.at/them
- https://anno.onb.ac.at/cgi-content/anno?datum=19480708
- https://www.retronews.fr/
- https://infoscience.epfl.ch/record/270246
- https://www.digitalhumanities.org/dhq/vol/9/1/000205/000205.html
- https://www.digitalstudies.org/article/id/7328/
- https://data.cervantesvirtual.com/glam-jupyter-notebooks
- https://www.kb.nl
- https://github.com/HermannKroll/AspectDrivenNewsStructuring
- https://archive.softwareheritage.org/swh:1:dir:13457c154ed7ad1f571e353c1edf2f87db61b0ae
- https://narrative.pubpharm.de/news
- https://www.youtube.com/watch?v=0GzIydjts2E