Historische Einblicke mit modernen Nachrichten verbinden
Ein Tool hilft dabei, aktuelle Ereignisse mit historischen Kontexten zu verknüpfen.
― 9 min Lesedauer
Inhaltsverzeichnis
Sozialwissenschaftler und die allgemeine Öffentlichkeit schauen oft auf aktuelle Ereignisse und ziehen Verbindungen zu historischen Ereignissen. Das kann hart sein, weil es so viele historische Texte gibt, die nicht gut organisiert sind. Zum Beispiel gibt es Milliarden von Seiten aus alten Zeitungen, die gescannt und in Text umgewandelt wurden. Traditionelle Methoden zur Informationssuche, wie die Verwendung von Schlüsselwörtern, können unzuverlässig sein, wegen komplexer Sprache und Fehler beim Scannen.
Ein neues Tool wurde geschaffen, um bei diesem Problem zu helfen. Dieses Tool nutzt grosse Sprachmodelle und eine spezielle Methode, um historische Artikel zu finden, die modernen Nachrichtenmeldungen ähneln. Zuerst identifiziert es wichtige Namen und blendet sie aus, damit der Fokus auf breiteren Themen und nicht auf bestimmten Personen oder Orten liegt. Danach findet ein spezielles Modell historische Artikel, die gut zu einer aktuellen Nachrichtenmeldung passen. Das zeigt, dass Ereignisse, die heute neu erscheinen, oft historische Hintergründe haben.
Das Tool ist für Sozialwissenschaftler gedacht und benutzerfreundlich, sodass es einfach zu bedienen ist, auch für Leute, die nicht viel über Deep Learning wissen. Es kann mit grossen Textsammlungen arbeiten, und Beispiele für seine Nutzung findet man auf einer speziellen Website. Während Expertenwissen immer noch nötig ist, um tiefere Einsichten zu gewinnen, bietet dieses Tool eine starke Möglichkeit, um die Verbindungen zwischen Vergangenheit und Gegenwart zu betrachten.
„Diejenigen, die sich nicht an die Vergangenheit erinnern können, sind dazu verurteilt, sie zu wiederholen.“ - George Santayana
Sozialwissenschaftler und die Öffentlichkeit heben oft hervor, wie die Gegenwart mit vergangenen Ereignissen verbunden ist. Aber diese Verbindungen zu finden, kann harte Arbeit sein. Es gibt viele historische Texte, aber sie sind oft schlecht organisiert und über grosse Datenbanken verstreut. Zum Beispiel sind Hunderte Millionen Seiten aus alten Zeitungen online zugänglich. Die meisten Leute verwenden Schlüsselwortsuchen, um relevante Dokumente zu finden, aber weil Sprache tricky sein kann und beim Scannen Fehler passieren, kann diese Methode oft scheitern.
Tools, die auf grossen Sprachmodellen basieren, bieten eine neue Möglichkeit, relevantes historisches Material zu finden, um aktuelle Ereignisse besser zu verstehen. Diese Studie konzentriert sich darauf, ein Tool zu bauen, das hilft, welche historischen Nachrichtenartikel in ihrer Bedeutung den modernen Nachrichtenartikeln am nächsten sind. Das Modell identifiziert zuerst spezifische Namen und blendet sie aus, damit allgemeine Themen in den Geschichten hervorgehoben werden können. Dann nutzt es ein spezielles, trainiertes Modell, um die relevantesten historischen Artikel zu finden.
Das Tool ermöglicht es Sozialwissenschaftlern, ihre Abfragen auszuführen. Es ist open-source und kann mit jedem geeigneten Textdatensatz arbeiten. Es wurde so gestaltet, dass es einfach zu bedienen ist für diejenigen, die mit Deep Learning nicht vertraut sind. In dieser Studie ist Code enthalten, der zeigt, wie man es mit einem grossen Datensatz historischer Zeitungsartikel verwendet.
Benutzer können das Tool mit modernen Artikeln aus ausgewählten Bundesstaaten über eine Demoseite testen. Es gibt auch eine spezielle Website, auf der moderne Artikel mit historischen kombiniert werden, um tiefere Erkundungen zu ermöglichen.
Das Tool identifiziert Artikel mit ähnlicher Bedeutung. Es ist jedoch wichtig zu beachten, dass sehr unterschiedliche Ereignisse immer noch ähnlich beschrieben werden können in sowohl historischen als auch modernen Medien. Dieser Aspekt könnte für Sozialwissenschaftler signifikant sein, aber es erfordert, dass sie genügend historisches Wissen haben, um diese Verbindungen im richtigen Kontext zu platzieren.
Aktuell unterstützt das Tool Englisch, aber es gibt Pläne, in Zukunft Versionen in anderen Sprachen zu erstellen. Der Rest dieser Studie behandelt die relevante Literatur, das Modell und den Trainingsprozess sowie die Verwendung des Tools.
Relevante Literatur
Es wurde viel Forschung über Semantische Ähnlichkeit betrieben. Die meisten grossen Datensätze in diesem Bereich stammen aus Webtexten. Ein Beispiel ist der Massive Text Embedding Benchmark (MTEB), der viele Einbettungsaufgaben auf zahlreichen Datensätzen in verschiedenen Sprachen bewertet.
Diese spezielle Studie steht in engem Zusammenhang mit anderen, die Modelle trainieren, um historische Nachrichtenartikel mit ähnlichen modernen Artikeln zu verbinden, wobei der Fokus darauf liegt, wie sie in ähnlichen Darstellungen abgebildet werden. Das Tool baut auf früheren Arbeiten im Bereich der offenen Domänen-Retrievals auf und stützt sich auf viele Studien, die die Vorteile des Trainings von Modellen für semantische Zwecke zeigen.
Die Herausforderungen, die beim Einsatz grosser vortrainierter Modelle auftreten, wie die von BERT, werden ebenfalls berücksichtigt. Diese Modelle haben oft Probleme mit weniger gängigen Wörtern, was zu einem Problem führt, bei dem Texte mit ähnlicher Bedeutung fehlinterpretiert werden können. Durch die Anwendung spezifischer Trainingsmethoden verbessert das Tool die Qualität der Satz- oder Dokumentdarstellungen.
Modellarchitektur und Training
Die Architektur des Tools konzentriert sich darauf, spezifische Namen in Texten zu identifizieren und zu maskieren. Es zielt darauf ab, Ähnlichkeiten zwischen Artikeln zu betonen, die unterschiedliche Themen in verschiedenen Zeiträumen behandeln. Relevante Artikel werden basierend auf ihrer Ähnlichkeit in der Bedeutung ausgewählt, wobei eine Methode verwendet wird, die die nächstgelegenen Artikel aus der gewählten Datenbank abruft.
Das Training des Tools beinhaltete das Sammeln von Daten aus einer Auswahl historischer Artikel. Das ursprüngliche Modell musste trainiert werden, um Benannte Entitäten genau zu erkennen und zu maskieren, auch mit Fehlern, die in gescannten Texten auftreten können. Eine Gruppe arbeitete intensiv an diesem Training, um sicherzustellen, dass alle Abweichungen durch sorgfältige Überprüfung behoben wurden.
Um darauf aufzubauen, wurde ein neues Modell trainiert, um moderne Nachrichtenartikel mit ähnlichen historischen Artikeln zu verbinden. Es erforderte das Sammeln von Daten aus verschiedenen Quellen, um sicherzustellen, dass relevante Paare gebildet wurden. Dieser Ansatz erlaubte es dem Modell, historische und moderne Artikel zu ähnlichen Geschichten effektiv zu verbinden.
Das Training beinhaltete, die besten Einstellungen für das Modell zu finden, damit es genaue Ergebnisse liefert. Das Modell überwältigte frühere Modelle in seiner Fähigkeit, wichtige Begriffe in den Texten zu identifizieren.
Das Tool ist für Benutzer gestaltet, die historische Texte erkunden möchten, ohne komplexe Programmieraufgaben durchführen zu müssen. Ein starker Fokus liegt darauf, es leicht zugänglich für jeden zu machen, der interessiert ist.
Das Paket
Das Tool kann einfach installiert und verwendet werden. Es bietet mehrere Kernfunktionen, einschliesslich Daten herunterladen, benannte Entitäten erkennen (NER), Texte maskieren, sie einbetten und nahegelegene Artikel mit ähnlichen Themen finden.
Das Paket ermöglicht es Benutzern, die Datensätze herunterzuladen, mit denen sie arbeiten möchten. Dazu gehört die Unterstützung einer breiten Palette historischer Artikel. Benutzer können entscheiden, ob sie eine Auswahl von Artikeln aus bestimmten Bundesstaaten herunterladen oder die gesamte Sammlung nehmen möchten.
Sobald Artikel heruntergeladen sind, können Benutzer NER ausführen, um benannte Entitäten zu identifizieren, die dann maskiert werden können. Die Texte werden dann eingebettet, was das Suchen erleichtert. Schliesslich können Benutzer die Artikel abrufen, die in ihrer Bedeutung denjenigen ähnlich sind, an denen sie interessiert sind.
Für diejenigen, die das Modell feinabstimmen möchten, wird eine Anleitung bereitgestellt, wie man das macht. Das Tool lässt sich mit beliebten Plattformen integrieren, was es den Benutzern erleichtert, loszulegen.
Das gesamte Paket ist öffentlich verfügbar und stellt sicher, dass sowohl akademische als auch nicht-akademische Benutzer Zugang zu seinen Funktionen haben. Tutorials sind enthalten, um den Benutzern zu helfen, wie man das Tool effektiv nutzt.
Durch die Zugänglichmachung dieses semantischen Suchtools soll Forschern geholfen werden, die historische Kontexte besser verstehen und wie sie mit der modernen Gesellschaft zusammenhängen.
Ethik-Erklärung
Das Tool zielt darauf ab, Artikel ethisch abzurufen, die eine ähnliche Sprache verwenden. Es ist jedoch wichtig zu bedenken, dass ähnliche Sprache nicht immer ähnliche Ereignisse oder Situationen anzeigt. Daher ist menschliches Urteilsvermögen notwendig, um bedeutungsvolle Verbindungen zwischen der Vergangenheit und der Gegenwart zu ziehen.
Es wurde sorgfältig über die ethischen Implikationen des Betriebs des Tools nachgedacht, und es zielt darauf ab, Forscher zu Inhalten zu leiten, die sie interessieren, während es die sinnvolle Verwendung von Informationen fördert.
Viele Personen haben zur Forschung und Entwicklung dieses Tools beigetragen und während des gesamten Prozesses unschätzbare Unterstützung geleistet.
NER-Annotator-Anleitungen
Während des Prozesses der Kennzeichnung benannter Entitäten wurden spezifische Regeln entwickelt, um sicherzustellen, dass die Labels konsistent angewendet wurden. Diese Regeln helfen, die klare Verwendung verschiedener Kategorien zu gewährleisten.
Spanne von Entitäten: Immer die grösstmögliche Spanne labeln, die eine Entität darstellt, ausser bei Orten. Zum Beispiel sollte „Martin Luther King High School“ als eine Entität markiert werden.
Mehrere Namen: Wenn eine Entität verschiedene Teile hat, zusammen labeln. Beispielsweise sollte „Vietnamesische Regierung“ nicht nur als „Vietnamesisch“ labelt werden.
Ort und Organisation: Wenn ein Titel sowohl auf eine Person als auch auf einen Ort verweist, sollte er entsprechend markiert werden. „Topeka, Kansas“ sind zwei Orte, nicht nur einer.
Richtiger Kontext: Nur das notwendige labeln, ohne zusätzliche Wörter, es sei denn, sie sind Teil der Entität.
Mehrdeutigkeit: Wenn Unklarheit darüber besteht, ob etwas als Organisation oder Ort bezeichnet werden soll, den Standardrichtlinien folgen, die das Labeln als Ort bevorzugen.
Wichtiger historischer Kontext: Benannte Entitäten müssen immer im Kontext betrachtet werden, und die gegebenen Labels sollten die historische Bedeutung der verwendeten Begriffe genau widerspiegeln.
Durch das Befolgen dieser Richtlinien kann der Prozess der Identifizierung und Kennzeichnung benannter Entitäten konsistent bleiben, was das Tool effektiver macht.
Beispiele zur Bewertung historischer-modern Artikelpaare
Das Tool wurde verwendet, um Paare von historischen und modernen Artikeln zu bewerten. Diese Bewertungen umfassen die Identifizierung, welche Artikel sich basierend auf Sprache und Hauptideen auf dieselben Themen beziehen.
Zum Beispiel wurde ein moderner Artikel über Eiscreme mit einem historischen Artikel über die Produktionsgrenzen für Eiscreme während des Krieges kombiniert. Beide Artikel thematisierten ähnliche Aspekte von Eiscreme, jedoch in unterschiedlichen Kontexten.
Ein weiteres Beispiel beinhaltete einen aktuellen Artikel über den Promotionstag eines Unternehmens, der mit einem historischen Artikel über den Ostereier-Roll am Weissen Haus gepaart wurde. Die technischen Aspekte saisonaler Feierlichkeiten in beiden Artikeln heben die Tradition und ihre Entwicklung im Laufe der Zeit hervor.
Jedes Beispiel zeigt, wie moderne Artikel mit historischen Stücken zu ähnlichen Themen verbunden sein können, was Muster offenbart, die unser Verständnis von gesellschaftlichen Trends und historischer Kontinuität bereichern.
Zusammenfassend stellt dieses Tool einen bedeutenden Fortschritt dar, um historische Verbindungen zu modernen Nachrichten herzustellen. Indem es eine nützliche Plattform für Forscher und die Öffentlichkeit bietet, kann es reichere Diskussionen darüber anregen, wie Geschichte unser Verständnis der Gegenwart informieren kann.
Titel: News Deja Vu: Connecting Past and Present with Semantic Search
Zusammenfassung: Social scientists and the general public often analyze contemporary events by drawing parallels with the past, a process complicated by the vast, noisy, and unstructured nature of historical texts. For example, hundreds of millions of page scans from historical newspapers have been noisily transcribed. Traditional sparse methods for searching for relevant material in these vast corpora, e.g., with keywords, can be brittle given complex vocabularies and OCR noise. This study introduces News Deja Vu, a novel semantic search tool that leverages transformer large language models and a bi-encoder approach to identify historical news articles that are most similar to modern news queries. News Deja Vu first recognizes and masks entities, in order to focus on broader parallels rather than the specific named entities being discussed. Then, a contrastively trained, lightweight bi-encoder retrieves historical articles that are most similar semantically to a modern query, illustrating how phenomena that might seem unique to the present have varied historical precedents. Aimed at social scientists, the user-friendly News Deja Vu package is designed to be accessible for those who lack extensive familiarity with deep learning. It works with large text datasets, and we show how it can be deployed to a massive scale corpus of historical, open-source news articles. While human expertise remains important for drawing deeper insights, News Deja Vu provides a powerful tool for exploring parallels in how people have perceived past and present.
Autoren: Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan, Melissa Dell
Letzte Aktualisierung: 2024-12-19 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2406.15593
Quell-PDF: https://arxiv.org/pdf/2406.15593
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://huggingface.co/spaces/dell-research-harvard/newsdejavu
- https://huggingface.co/datasets/dell-research-harvard/americanstories_masked_embeddings
- https://www.usatoday.com/story/money/food/2024/03/13/ben-jerrys-free-cone-day-2024/72944410007/