Simple Science

最先端の科学をわかりやすく解説

# 計量ファイナンス# 計算と言語# 一般経済学# 経済学

包括的歴史ニュースアーカイブ

1878年から1977年までの270万件のニュース記事の豊富なデータセット。

― 1 分で読む


歴史的ニュースデータ収集歴史的ニュースデータ収集アメリカのニュース記事の膨大なアーカイブ
目次

昔、アメリカの地方新聞は、Associated Pressみたいなニュースワイヤーを使って記事を集めてたんだ。このことは、イベントに対する共通の見方を提供することで、国のアイデンティティを形成するのに重要だったんだ。でも、こういったニュースワイヤーから送られた記事の完全なコレクションはなかった。このプロジェクトは、古い新聞の画像を処理するために高度な技術を使って、そんなコレクションを作ることを目的にしているよ。

最終的には、1878年から1977年までに発表された270万本のユニークなニュース記事のデータセットができる。これらのすべてはパブリックドメインで、どこで書かれたのか、どんなトピックがカバーされているのか、誰が言及されているのかといった詳細が整理されている。この情報は、歴史を理解するためや、言語モデルのトレーニングに役立つもので、言語学や社会科学などの研究分野で使われているよ。

歴史的データの必要性

現在の言語モデルのトレーニング用のソースが少なくなってきて、研究者たちは過去に価値のある情報を探し始めている。歴史的なテキストは学者や一般の人々にとって興味深いもので、分析のためにそれを利用できるようにすることで新たな洞察が得られるかもしれない。今は多くの歴史的資料がパブリックドメインになっているけど、アクセスするのはまだ難しいことが多い。モデルのトレーニングや研究を行うために情報を抽出して整理するのに、複雑な方法が必要なことが多いんだ。

ニュース記事は歴史的な知識を捉えるのに重要なんだ。Associated PressやUnited Pressみたいなニュースワイヤーは、特にコストがかかりすぎるグローバルなニュースネットワークを維持するのが難しい時に、アメリカでニュースの主要なソースの一つだった。

メディア史家のジュリア・グアナルリは、1910年代と1920年代には、多くのアメリカ人が読んでいた記事が国内のニュース市場に関連していたと指摘している。これがアメリカの生活に対する共通の理解を形作り、20世紀の国内政治や国際関係に影響を与えたんだ。

このコンテンツの重要性にも関わらず、19世紀と20世紀のニュースワイヤーの記事の包括的なデータセットは利用可能になっていない。既存のアーカイブは特定の地域や時間枠に焦点を当てることが多く、多くの新聞が存続しなかったため、不十分なことが多いんだ。

方法論

このギャップを埋めるために、研究者たちはニュースワイヤーアーカイブを再構築するための高度なプロセスを開発した。彼らは、100年以上の地方新聞からスキャンした何百万もの画像から始めた。そのプロセスには、アメリカのすべての州にわたる1億3800万ページから構造化された記事テキストを抽出することが含まれていた。

データセットは、ニュースワイヤーの記事だけが含まれるように精緻化され、主にテキスト分類器を使用して非ワイヤーコンテンツの含有を最小限に抑えた。これにより、言語モデルのトレーニングに役立つデータセットを維持できるようにしたんだ。

結果のデータセット内の各記事は一度だけ表示される。いくつかの記事が複数回再生されている可能性があるけど、重複を取り除くことは言語モデルのトレーニングにとって必須なんだ。重複コンテンツがあると、モデル内で情報が繰り返される可能性があるからね。

コレクションには、記事がどこで執筆されたのかを示す地理情報も含まれていて、データの豊かさを高めることができる。研究者たちは記事に特定のトピックをタグ付けし、名前付きエンティティを特定して、Wikipediaのような広く使われているデータベースとつなげたんだ。

データセットの特徴

データセットには構造化された記事テキストだけでなく、以下のような豊富な文脈情報も提供されているよ:

  • 記事が発表された年。
  • 記事が掲載された日付。
  • 記事の著者名。
  • 記事を掲載した新聞の名前。
  • 政治、犯罪、市民権などのトピックを示すタグ。
  • 記事に関連する地理的な場所。

このデータは、様々な場所で共有されるニュースに影響を与えた社会的、政治的、経済的なコンテキストを明らかにするのに役立つ。

データの利用可能性

データセットはクリエイティブ・コモンズライセンスの下で一般に利用可能で、研究者たちが情報に柔軟にアクセスして活用できるようにしている。人気のあるデータ共有プラットフォームで見つけることができ、興味がある人が簡単にデータをダウンロードして自分の作業に利用できるようになっている。

潜在的な応用

このデータセットは、さまざまな研究分野に利益をもたらす可能性がある。歴史家や社会科学者は、これらの記事を通じて歴史的なトレンドや出来事を分析できるし、言語学者は時間とともに言語の進化や文化的コンテキストが書き方に与えた影響を研究できる。

さらに、このデータは言語モデルのトレーニングにも貴重なんだ。これらのツールは歴史的な言語使用を反映するように調整できるから、将来のアプリケーションでより繊細な出力が得られるかもしれない。

データセットの構造化された性質は、深い技術的専門知識を持っていない研究者にも使いやすさを提供する。研究者たちは、広範なデータ前処理を必要とせずに素早く分析できる構造化された情報にアクセスできるんだ。

データ作成の課題

このデータセットを作るのは簡単ではなかった。大きな問題の一つは、デジタル化のプロセス中に発生したエラーに対処することだった。光学文字認識(OCR)は、文字を誤読しがちで、テキストの不正確さを引き起こしていた。これらのエラーは一般的で、テキストの質を確保するために人間のレビューと自動修正を組み合わせる必要があったんだ。

もう一つの課題は、データセットの整合性を損なう可能性のある非ワイヤーコンテンツを効果的にフィルターすることだった。これには、言語モデルのトレーニングに役立つようにデータセットを維持するための高度な分類プロセスが必要だった。

データ品質の確保

コンテンツの質はプロセス全体で最も重要なポイントだった。研究者たちは、エラーが少ないベストなバージョンの記事だけを含めるように気を付けた。また、最終コレクションにノイズデータが入る可能性を減らすシステムも導入したんだ。

高品質な方法を利用して問題を検出・修正することで、チームは研究者たちに過去を研究するための信頼できるリソースを提供することを目指した。

研究以外の用途

学術的な活動を超えて、このデータセットはさまざまな分野での応用の可能性がある。たとえば、教育者は歴史やメディア学を教えるための一次資料として使えるし、ライターやコンテンツクリエイターは、歴史的な出来事を語る際にインスピレーションや文脈を得るために記事を利用できるかもしれない。

データセットの構造は、データマイニングや機械学習のタスクなどの現代技術の応用をサポートすることも可能で、過去のトレンドを理解することが将来のツールや戦略の開発において重要な役割を果たしている。

ニュースの歴史的コンテキスト

このデータセットのコンテンツは、1878年から1977年までのアメリカの歴史的な風景を反映している。これらの記事のトピックは、異なる時代において社会が何を優先していたのかを知る手がかりを提供する。たとえば、市民権運動の時期の記事は、社会的な規範と人種や平等に対する態度の変化を示している。

さらに、記事には重要な人物に関する情報も含まれていて、彼らの歴史の重要な瞬間における役割へのコンテキストを提供している。これが、過去をより深く理解したい人にとって貴重なリソースになっているんだ。

結論

この包括的なデータセットは、さまざまな探求の道を開く。歴史的なニュース記事をアクセスできるようにすることで、研究者や一般の人々はアメリカの歴史の重要な時期をより深く理解できるようになるんだ。

学術研究、教育利用、あるいは広い社会的な洞察のために、この記事のコレクションは、過去の複雑さと現在への影響を検査するための重要なツールとして機能するよ。

今後の方向性

技術が進化し続ける中で、データセットをさらに改善する機会がある。今後の取り組みには、既存の記事の正確性を向上させることや、著作権が許す範囲でより最近のニュースをカバーするためにデータセットを拡大すること、元の新聞からの写真やイラストなどのマルチメディア要素を組み込むことが含まれるかもしれない。

データセットの制作者たちは、今後もそれを維持し続けることを約束していて、さまざまなオーディエンスにとって関連性のあるリソースであり続けるようにしている。

謝辞

このデータセットの作成には、様々な組織からの支援があり、リソースや資金が提供された。研究者間の継続的なコラボレーションが、データ収集と分析における革新的な方法の道を切り開いたんだ。

このデータセットは、単なる記事のコレクション以上のもので、共有された歴史的遺産を表している。歴史を通じて出来事に対する人々の認識や理解を形作るための書かれた言葉の力を思い起こさせるものでもあるよ。

オリジナルソース

タイトル: Newswire: A Large-Scale Structured Database of a Century of Historical News

概要: In the U.S. historically, local newspapers drew their content largely from newswires like the Associated Press. Historians argue that newswires played a pivotal role in creating a national identity and shared understanding of the world, but there is no comprehensive archive of the content sent over newswires. We reconstruct such an archive by applying a customized deep learning pipeline to hundreds of terabytes of raw image scans from thousands of local newspapers. The resulting dataset contains 2.7 million unique public domain U.S. newswire articles, written between 1878 and 1977. Locations in these articles are georeferenced, topics are tagged using customized neural topic classification, named entities are recognized, and individuals are disambiguated to Wikipedia using a novel entity disambiguation model. To construct the Newswire dataset, we first recognize newspaper layouts and transcribe around 138 millions structured article texts from raw image scans. We then use a customized neural bi-encoder model to de-duplicate reproduced articles, in the presence of considerable abridgement and noise, quantifying how widely each article was reproduced. A text classifier is used to ensure that we only include newswire articles, which historically are in the public domain. The structured data that accompany the texts provide rich information about the who (disambiguated individuals), what (topics), and where (georeferencing) of the news that millions of Americans read over the course of a century. We also include Library of Congress metadata information about the newspapers that ran the articles on their front pages. The Newswire dataset is useful both for large language modeling - expanding training data beyond what is available from modern web texts - and for studying a diversity of questions in computational linguistics, social science, and the digital humanities.

著者: Emily Silcock, Abhishek Arora, Luca D'Amico-Wong, Melissa Dell

最終更新: 2024-06-13 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.09490

ソースPDF: https://arxiv.org/pdf/2406.09490

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事