歴史的な洞察と現代のニュースをつなげる
ツールは現在の出来事を歴史的な文脈に結びつけるのを助ける。
― 1 分で読む
社会科学者や一般の人々は、今の出来事と歴史的な出来事のつながりをよく考えるんだ。でも、これって結構大変なんだよね。歴史的なテキストがめちゃくちゃ多くて、整理されてないことが多いから。例えば、古い新聞からスキャンされた数十億ページのテキストがあるんだ。キーワード検索のような従来の情報検索方法は、複雑な言語やスキャンミスのせいで信頼できないこともあるんだ。
そこで、新しいツールが作られたんだ。このツールは大規模な言語モデルと特別なメソッドを使って、現代のニュースストーリーに似た歴史的な記事を探すんだ。まず、重要な名前を特定して隠して、特定の個人や場所に焦点を合わせるんじゃなくて、もっと広いテーマに注目できるようにするんだ。その後、特別なモデルが現代のニュースストーリーに関連する歴史的な記事を取得するんだ。これによって、今新しいように見える出来事も、実は歴史的な背景があることがわかるんだ。
このツールは社会科学者向けに作られていて、使いやすいから、ディープラーニングに詳しくない人でも使えるんだ。大規模なテキストコレクションに対応できるし、使い方の例も特定のウェブサイトで見つけられるよ。深い洞察を得るには専門知識がまだ必要だけど、このツールは過去と現在のつながりを考えるための強力な選択肢を提供してくれるんだ。
「過去を思い出せない者は、それを繰り返す運命にある。」 - ジョージ・サンタヤナ
社会科学者や一般の人たちは、今が過去の出来事とどうつながっているかを強調することが多いんだけど、そんなつながりを見つけるのは大変な作業なんだ。歴史的なテキストはたくさんあるけど、しばしば整理が悪く、大きなデータベースに散らばっているんだ。例えば、古い新聞の数億ページがオンラインでアクセスできるんだけど、ほとんどの人はキーワード検索を使って関連する文書を探すんだ。でも、言語が難しいことやスキャンプロセス中のエラーのせいで、この方法はしばしば失敗しちゃうんだ。
大規模な言語モデルに基づくツールは、現在の出来事を理解するために役立つ歴史的資料を見つける新しい方法を提供するんだ。この研究は、どの歴史的ニュースが現代の記事に最も意味が近いかを特定するツールを構築することに焦点を当てているんだ。このモデルはまず特定の名前を隠して、ストーリーの一般的なテーマを強調できるようにするんだ。そして、特別に訓練されたモデルを使って、最も関連のある歴史的記事を見つけるんだ。
このツールは社会科学者がクエリを実行できるように設計されているんだ。オープンソースで、適切なテキストデータセットと一緒に動作するんだ。ディープラーニングに詳しくない人でも簡単に使えるようになってるんだ。この研究には、歴史的な新聞記事の大規模データセットを使った方法が説明されたコードも含まれているよ。
ユーザーはデモサイトを使って、特定の州の現代の記事をテストできるんだ。さらに、現代の記事と歴史的なものをペアにして深く探求できる専用のウェブサイトもあるんだ。
ツールは似た意味の記事を特定することができるけど、非常に異なる出来事も、歴史的メディアと現代メディアで似たように表現されることがあるってことは覚えておくべきなんだ。この点は社会科学者にとって重要かもしれないけど、これらのつながりを正しい文脈に置くためには、十分な歴史知識が必要なんだ。
現在、ツールは英語に対応してるけど、将来的には他の言語版も作る予定なんだ。この研究の残りの部分では、関連する文献、モデルとトレーニングプロセス、ツールの使い方について話しているよ。
関連文献
意味的類似性に関する研究はたくさん行われているんだ。この分野の大規模なデータセットのほとんどはウェブテキストから来ているよ。例えば、Massive Text Embedding Benchmark (MTEB)は、さまざまな言語の多くのデータセットで多くの埋め込みタスクを評価しているんだ。
この研究は、歴史的なニュース記事を現代の記事に結びつけるモデルを訓練する他の研究と密接に関連していて、どのようにして類似の表現にマッピングされているかに焦点を当てているんだ。このツールは、オープンドメインリトリーバルにおける以前の研究を基にしていて、意味的な目的のためにモデルを訓練することの利点を示す多くの研究があるんだ。
BERTのような大規模な事前訓練モデルを使う際に生じる課題も考慮されているんだ。これらのモデルはあまり一般的でない単語に苦労することが多く、同じ意味のテキストがずれてしまう問題が生じるんだ。特定のトレーニング方法を適用することで、ツールは文や文書の表現の質を向上させるんだ。
モデルアーキテクチャとトレーニング
ツールのアーキテクチャは、テキスト内の特定の名前を特定してマスクすることに焦点を当てているんだ。異なる主題について異なる時代に議論された記事の間の類似性を強調することを目指しているよ。関連する記事は、意味的にどれだけ似ているかに基づいて選ばれるんだ。
ツールのトレーニングには、歴史的な記事の選択肢からデータを集めることが含まれていたよ。初期のモデルは、スキャンされたテキストのエラーが発生しても、名前付きエンティティを正確に認識してマスクするように訓練する必要があったんだ。あるグループがこのトレーニングに厳格に取り組んで、すべての不一致を注意深くチェックして解決するようにしたんだ。
これを基に、新しいモデルが現代のニュース記事と類似した歴史的記事を結びつけるために訓練されたんだ。関連するペアを形成するために、多様なソースからデータを集めることが含まれていたよ。このアプローチでは、モデルが歴史的な記事と現代の類似したストーリーを効果的に結びつけられるようになったんだ。
トレーニングでは、モデルが正確な結果を得られるように最適な設定を見つけることが行われたんだ。モデルは、テキスト内の重要な用語を特定する能力において以前のモデルを超えたんだ。
このツールは、複雑なプログラミング作業を行うことなしに歴史的テキストを探索したいユーザーのために設計されているんだ。誰でも興味があれば簡単にアクセスできるようにすることに重点を置いているよ。
パッケージ
ツールは簡単にインストールして使うことができるんだ。データをダウンロードしたり、名前付きエンティティ認識(NER)を実行したり、テキストをマスクして埋め込みを作り、似たトピックの記事を見つけたりするためのいくつかのコア機能が付いてるよ。
パッケージでは、ユーザーが作業したいデータセットをダウンロードできるんだ。これには、さまざまな歴史的記事をサポートすることが含まれているよ。ユーザーは特定の州からの選択された記事をダウンロードすることも、全コレクションを取得することもできるんだ。
記事がダウンロードされたら、ユーザーはNERを実行して名前付きエンティティを特定し、それをマスクできるよ。その後、テキストが埋め込まれ、より簡単に検索できるようになるんだ。そして最後に、興味のある記事に近い意味の記事を取得できるんだ。
モデルを微調整したい人には、その方法についての指導が提供されているよ。このツールは人気のプラットフォームと統合されていて、ユーザーが簡単に始められるようになってるんだ。
このパッケージは一般に提供されていて、学術的なユーザーも非学術的なユーザーもその機能にアクセスできるようになっているんだ。使い方のチュートリアルも含まれていて、ツールを効果的に使うために役立つよ。
この意味的検索ツールを利用できるようにすることで、研究者が歴史的な文脈を理解し、現代社会との関連を深める手助けをすることが目指されているんだ。
倫理声明
このツールは、類似した言語を持つ記事を倫理的に取得することを目指しているんだ。でも、似た言語が必ずしも似た出来事や状況を示すわけではないことを忘れないでね。だから、過去と現在の意味のあるつながりを見つけるには人間の判断が必要なんだ。
ツールの運用に伴う倫理的な影響についても慎重に考慮されていて、研究者が興味のあるコンテンツに導かれながら、情報の思慮深い使用を促すことを目指しているんだ。
このツールの研究と開発には多くの人が貢献していて、プロセス全体で貴重なサポートを提供してくれたんだ。
NERアノテーターの指示
名前付きエンティティをラベル付けするプロセスの中で、ラベルが一貫して適用されるように特定のルールが作られたんだ。これらのルールは、異なるカテゴリの明確な使用を確保するために役立っているよ。
エンティティの範囲: 常に1つのエンティティを構成する最も大きな範囲にラベルを付ける。ただし、場所は除く。例えば、「マーチン・ルーサー・キング高校」は1つのエンティティとラベル付けすべきだよ。
複数の名前: エンティティが異なる部分を持っている場合は、一緒にラベル付けする。たとえば、「ベトナム政府」は「ベトナム」とだけラベル付けすべきではない。
場所と組織: タイトルが人と場所の両方を指す場合は、そのようにラベル付けすべきだ。「カンザス州トピカ」は2つの場所であって1つではない。
適切な文脈: エンティティの一部でない限り、余分な言葉を含めずに必要なものだけをラベル付けすること。
曖昧さ: 何かを組織としてラベル付けするか場所としてラベル付けするか迷った場合は、標準ガイドラインに従って場所としてラベル付けする方が好ましい。
重要な歴史的文脈: 名前付きエンティティは常に文脈を考慮して、与えられるラベルは使用される用語の歴史的な重要性を正確に反映するべきだよ。
これらのガイドラインに従うことで、名前付きエンティティの特定とラベル付けのプロセスが一貫し、ツールがより効果的になるんだ。
歴史的-現代の記事ペア評価の例
このツールは、歴史的な記事と現代の記事のペアを評価するために使用されてきたんだ。これらの評価には、言語や主要なアイデアに基づいて、どの記事が同じトピックに関連しているかを特定することが含まれているよ。
例えば、アイスクリームについての現代の記事が、戦時中のアイスクリーム生産制限に関する歴史的な記事とペアになったんだ。両方の記事はアイスクリームのテーマを扱っているけど、文脈が異なるんだ。
別の例では、会社のプロモーションデーに関する現代の記事が、ホワイトハウスでのイースターエッグロールに関する歴史的な記事とマッチしたんだ。両方の作品における季節の祝賀行事の技術的な側面は、その伝統とその進化を強調しているよ。
各例は、現代の記事がどのようにして似た主題の歴史的な作品とつながることができるかを示していて、社会のトレンドや歴史的な連続性を理解するためのパターンを明らかにしているんだ。
結論として、このツールは現代のニュースに対する歴史的なつながりを引き出す上で重要な一歩を代表しているんだ。研究者や一般の人々に有用なプラットフォームを提供することで、歴史が現在の理解にどのように役立つかについての豊かな議論を促進できるんだ。
タイトル: News Deja Vu: Connecting Past and Present with Semantic Search
概要: Social scientists and the general public often analyze contemporary events by drawing parallels with the past, a process complicated by the vast, noisy, and unstructured nature of historical texts. For example, hundreds of millions of page scans from historical newspapers have been noisily transcribed. Traditional sparse methods for searching for relevant material in these vast corpora, e.g., with keywords, can be brittle given complex vocabularies and OCR noise. This study introduces News Deja Vu, a novel semantic search tool that leverages transformer large language models and a bi-encoder approach to identify historical news articles that are most similar to modern news queries. News Deja Vu first recognizes and masks entities, in order to focus on broader parallels rather than the specific named entities being discussed. Then, a contrastively trained, lightweight bi-encoder retrieves historical articles that are most similar semantically to a modern query, illustrating how phenomena that might seem unique to the present have varied historical precedents. Aimed at social scientists, the user-friendly News Deja Vu package is designed to be accessible for those who lack extensive familiarity with deep learning. It works with large text datasets, and we show how it can be deployed to a massive scale corpus of historical, open-source news articles. While human expertise remains important for drawing deeper insights, News Deja Vu provides a powerful tool for exploring parallels in how people have perceived past and present.
著者: Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan, Melissa Dell
最終更新: 2024-12-19 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.15593
ソースPDF: https://arxiv.org/pdf/2406.15593
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://huggingface.co/spaces/dell-research-harvard/newsdejavu
- https://huggingface.co/datasets/dell-research-harvard/americanstories_masked_embeddings
- https://www.usatoday.com/story/money/food/2024/03/13/ben-jerrys-free-cone-day-2024/72944410007/