Simple Science

La science de pointe expliquée simplement

# Finance quantitative# Calcul et langage# Économie générale# Économie

Connecter les insights historiques avec les news d'aujourd'hui

Un outil aide à relier les événements actuels à des contextes historiques.

― 11 min lire


Lier le passé auxLier le passé auxévénements présentsd'aujourd'hui.historiques aux nouvellesUn outil pour relier des articles
Table des matières

Les scientifiques sociaux et le grand public regardent souvent les événements actuels et font des liens avec des événements historiques. Ça peut être compliqué parce qu'il y a tellement de textes historiques qui ne sont pas bien organisés. Par exemple, il y a des milliards de pages de vieux journaux qui ont été scannées et transformées en texte. Les méthodes traditionnelles de recherche d'information, comme l'utilisation de mots-clés, peuvent être peu fiables à cause d'un langage complexe et d'erreurs dues au scan.

Un nouvel outil a été créé pour aider avec ce problème. Cet outil utilise de grands modèles de langage et une méthode spécifique pour trouver des articles historiques similaires aux actualités modernes. D'abord, il identifie des noms importants et les cache pour permettre de se concentrer sur des thèmes plus larges au lieu d'individus ou de lieux spécifiques. Ensuite, un modèle spécial récupère des articles historiques qui sont bien reliés à une actualité. Ça montre que des événements qui semblent nouveaux aujourd'hui ont souvent des antécédents historiques.

L'outil est conçu pour les scientifiques sociaux et est facile à utiliser, ce qui le rend accessible même à ceux qui ne savent pas grand-chose sur l'apprentissage profond. Il peut travailler avec de grandes collections de textes, et des exemples de son utilisation sont disponibles sur un site web spécifique. Bien que des connaissances expertes soient encore nécessaires pour tirer des insights plus profonds, cet outil offre une option solide pour explorer les liens entre le passé et le présent.

“Ceux qui ne peuvent pas se souvenir du passé sont condamnés à le répéter.” - George Santayana

Les scientifiques sociaux et le public soulignent souvent comment le présent est relié à des événements passés. Cependant, trouver ces connexions peut être un travail difficile. Il y a beaucoup de textes historiques, mais ils sont souvent mal organisés et dispersés dans de grandes bases de Données. Par exemple, des centaines de millions de pages de vieux journaux sont accessibles en ligne. La plupart des gens utilisent des recherches par mots-clés pour trouver des documents pertinents, mais comme le langage peut être compliqué et qu'il y a des erreurs pendant le processus de scan, cette méthode échoue souvent.

Les outils basés sur de grands modèles de langage offrent une nouvelle façon de trouver du matériel historique pertinent pour aider à comprendre les événements actuels. Cette étude se concentre sur la création d'un outil qui aide à identifier quels articles d'actualités historiques sont les plus proches en signification des articles d'actualité modernes. Le modèle commence par identifier et cacher des noms spécifiques pour mettre en avant des thèmes généraux dans les histoires. Il utilise ensuite un modèle spécial, entraîné, pour trouver les articles historiques les plus pertinents.

L'outil permet aux scientifiques sociaux de faire leurs recherches. Il est open-source et peut fonctionner avec n'importe quel ensemble de données textuelles adapté. Il est conçu pour être facile à utiliser pour ceux qui ne sont peut-être pas familiers avec l'apprentissage profond. Cette étude inclut un code qui montre comment l'utiliser avec un grand ensemble de données d'articles de journaux historiques.

Les utilisateurs peuvent tester l'outil avec des articles modernes de certains états en utilisant un site de démo. Il y a aussi un site web dédié où des articles modernes sont associés à des articles historiques pour une exploration plus approfondie.

L'outil identifie les articles avec des significations similaires. Cependant, il est important de noter que des événements très différents peuvent quand même être décrits de manière similaire dans les médias historiques et modernes. Cet aspect est probablement significatif pour les scientifiques sociaux, mais cela nécessite qu'ils aient suffisamment de connaissances historiques pour placer ces connexions dans le bon contexte.

Actuellement, l'outil prend en charge l'anglais, mais il y a des plans pour créer des versions dans d'autres langues à l'avenir. Le reste de cette étude discute de la littérature pertinente, du modèle et du processus de formation, et comment utiliser l'outil.

Littérature Connexe

Beaucoup de recherches ont été faites sur la Similarité sémantique. La plupart des grands ensembles de données dans ce domaine proviennent de textes web. Un exemple est le Massive Text Embedding Benchmark (MTEB), qui évalue de nombreuses tâches d'embedding sur divers ensembles de données dans différentes langues.

Cette étude particulière est étroitement liée à d'autres qui entraînent des modèles à relier des articles d'actualités historiques à des articles modernes similaires, en se concentrant sur la façon dont ils sont cartographiés sur des représentations similaires. L'outil s'appuie sur des travaux précédents dans la récupération en domaine ouvert et s'inspire de nombreuses études montrant les avantages de l'entraînement de modèles à des fins sémantiques.

Les défis qui surgissent dans l'utilisation de grands modèles pré-entraînés, comme ceux de BERT, sont également pris en compte. Ces modèles ont souvent du mal avec les mots moins courants, ce qui entraîne un problème où des textes ayant des significations similaires peuvent être mal alignés. En appliquant des méthodes d'entraînement spécifiques, l'outil améliore la qualité des représentations de phrases ou de documents.

Architecture du Modèle et Entraînement

L'architecture de l'outil se concentre sur l'identification et le masquage de noms spécifiques dans les textes. Il vise à mettre en évidence les similarités entre des articles discutant de sujets différents à différentes époques. Les articles pertinents sont sélectionnés en fonction de leur similarité de signification, en utilisant une méthode qui récupère les articles les plus proches de la base de données choisie.

L'entraînement de l'outil a impliqué la collecte de données à partir d'une sélection d'articles historiques. Le modèle initial devait être entraîné pour reconnaître et masquer avec précision les Entités nommées, même avec des erreurs qui peuvent se produire dans les textes scannés. Un groupe a travaillé rigoureusement sur cet entraînement, s'assurant que toutes les divergences étaient résolues par une vérification minutieuse.

Pour construire sur cela, un nouveau modèle a été entraîné pour relier des articles d'actualités modernes avec des articles historiques similaires. Cela a impliqué la collecte de données à partir de diverses sources pour s'assurer que des paires pertinentes étaient formées. Cette approche a permis au modèle de connecter efficacement des articles historiques et modernes sur des histoires similaires.

L'entraînement a consisté à trouver les meilleurs paramètres pour le modèle afin qu'il produise des résultats précis. Le modèle a surpassé les modèles précédents dans sa capacité à identifier des termes importants dans les textes.

L'outil est conçu pour les utilisateurs qui veulent explorer des textes historiques sans avoir besoin d'effectuer des tâches de programmation complexes. Un fort accent est mis sur le fait de le rendre facilement accessible à tous ceux qui s'y intéressent.

Le Package

L'outil peut être facilement installé et utilisé. Il comprend plusieurs fonctions principales, comme le téléchargement de données, l'exécution de la reconnaissance d'entités nommées (NER), le masquage de textes, l'embedding et la recherche d'articles voisins avec des sujets similaires.

Le package permet aux utilisateurs de télécharger les ensembles de données qu'ils souhaitent utiliser. Cela inclut un support pour un large éventail d'articles historiques. Les utilisateurs peuvent choisir de télécharger une sélection d'articles de certains états ou de prendre l'ensemble de la collection.

Une fois les articles téléchargés, les utilisateurs peuvent exécuter la NER pour identifier les entités nommées, qui peuvent ensuite être masquées. Les textes sont ensuite embedded, facilitant ainsi la recherche. Enfin, les utilisateurs peuvent récupérer les articles les plus proches en signification de ceux qui les intéressent.

Pour ceux qui souhaitent affiner le modèle, des conseils sur la façon de le faire sont fournis. L'outil s'intègre avec des plateformes populaires, ce qui rend facile pour les utilisateurs de commencer.

L'ensemble du package est accessible au public, assurant que les utilisateurs académiques et non académiques peuvent tous accéder à ses fonctionnalités. Des tutoriels sont inclus pour aider les utilisateurs à comprendre comment utiliser l'outil efficacement.

En rendant cet outil de recherche sémantique accessible, l'objectif est de soutenir les chercheurs qui veulent mieux comprendre les contextes historiques et comment ils se rapportent à la société moderne.

Déclaration Éthique

L'outil vise à récupérer éthiquement des articles ayant un langage similaire. Cependant, il est crucial de se rappeler qu'un langage similaire n'indique pas toujours des événements ou des situations similaires. Par conséquent, le jugement humain est nécessaire pour établir des connexions significatives entre le passé et aujourd'hui.

Une attention particulière a été portée aux implications éthiques du fonctionnement de l'outil, et il vise à guider les chercheurs vers des contenus qui les intéressent tout en encourageant une utilisation réfléchie de l'information.

De nombreuses personnes ont contribué à la recherche et au développement de cet outil, apportant un soutien inestimable tout au long du processus.

Instructions pour l'Annotateur NER

Pendant le processus d'étiquetage des entités nommées, des règles spécifiques ont été développées pour garantir que les étiquettes soient appliquées de manière cohérente. Ces règles aident à garantir une utilisation claire des différentes catégories.

  1. Portée des Entités : Étiquetez toujours la plus grande portée qui constitue une entité, sauf pour les lieux. Par exemple, “Martin Luther King High School” devrait être étiqueté comme une seule entité.

  2. Noms Multiples : Si une entité a différentes parties, étiquetez-la ensemble. Par exemple, “gouvernement vietnamien” ne devrait pas être étiqueté juste comme “vietnamien”.

  3. Lieu et Organisation : Si un titre fait référence à la fois à une personne et à un lieu, étiquetez-le en conséquence. “Topeka, Kansas” est deux lieux, pas juste un.

  4. Contexte Propre : Étiquetez seulement ce qui est nécessaire sans inclure de mots supplémentaires, sauf s'ils font partie de l'entité.

  5. Ambiguïté : S'il y a confusion sur le fait de savoir si quelque chose doit être étiqueté comme une organisation ou un lieu, suivez les directives standards qui privilégient l'étiquetage comme un lieu.

  6. Contexte Historique Important : Les entités nommées doivent toujours être considérées dans leur contexte, et les étiquettes données doivent refléter avec précision la signification historique des termes utilisés.

En suivant ces directives, le processus d'identification et d'étiquetage des entités nommées peut rester cohérent, rendant l'outil plus efficace.

Exemples d'Évaluation de Paires d'Articles Historiques-Moderne

L'outil a été utilisé pour évaluer des paires d'articles historiques et modernes. Ces évaluations incluent l'identification des articles qui se rapportent aux mêmes sujets en fonction du langage et des idées principales.

Par exemple, un article moderne discutant de crème glacée a été associé à un article historique sur les limites de production de crème glacée pendant la guerre. Les deux articles couvraient des thèmes similaires de crème glacée mais dans des contextes différents.

Un autre exemple était un article actuel sur une journée promotionnelle d'une entreprise, associé à un article historique sur le Easter Egg Roll à la Maison Blanche. Les aspects techniques des célébrations saisonnières dans les deux articles mettent en avant la tradition et son évolution au fil du temps.

Chaque exemple illustre comment les articles modernes peuvent se connecter avec des pièces historiques sur des sujets similaires, révélant des motifs qui enrichissent notre compréhension des tendances sociétales et de la continuité historique.

En conclusion, cet outil représente un pas en avant significatif dans l'établissement de connexions historiques avec les actualités modernes. En fournissant une plateforme utile pour les chercheurs et le public, il peut stimuler des discussions plus riches sur la manière dont l'histoire peut éclairer notre compréhension du présent.

Source originale

Titre: News Deja Vu: Connecting Past and Present with Semantic Search

Résumé: Social scientists and the general public often analyze contemporary events by drawing parallels with the past, a process complicated by the vast, noisy, and unstructured nature of historical texts. For example, hundreds of millions of page scans from historical newspapers have been noisily transcribed. Traditional sparse methods for searching for relevant material in these vast corpora, e.g., with keywords, can be brittle given complex vocabularies and OCR noise. This study introduces News Deja Vu, a novel semantic search tool that leverages transformer large language models and a bi-encoder approach to identify historical news articles that are most similar to modern news queries. News Deja Vu first recognizes and masks entities, in order to focus on broader parallels rather than the specific named entities being discussed. Then, a contrastively trained, lightweight bi-encoder retrieves historical articles that are most similar semantically to a modern query, illustrating how phenomena that might seem unique to the present have varied historical precedents. Aimed at social scientists, the user-friendly News Deja Vu package is designed to be accessible for those who lack extensive familiarity with deep learning. It works with large text datasets, and we show how it can be deployed to a massive scale corpus of historical, open-source news articles. While human expertise remains important for drawing deeper insights, News Deja Vu provides a powerful tool for exploring parallels in how people have perceived past and present.

Auteurs: Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan, Melissa Dell

Dernière mise à jour: 2024-12-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.15593

Source PDF: https://arxiv.org/pdf/2406.15593

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires