Archive historique des nouvelles complet
Un ensemble de données riches de 2,7 millions d'articles de presse de 1878 à 1977.
― 9 min lire
Table des matières
- Le besoin de données Historiques
- Méthodologie
- Caractéristiques de l'ensemble de données
- Disponibilité des données
- Applications potentielles
- Défis dans la création de données
- Assurer la qualité des données
- Utilisations au-delà de la recherche
- Le contexte historique des nouvelles
- Conclusion
- Directions futures
- Remerciements
- Source originale
- Liens de référence
Dans le passé, les journaux locaux aux États-Unis utilisaient des fils de presse comme l'Associated Press pour récupérer du contenu pour leurs Articles. C'était important pour façonner une identité nationale en offrant une vision partagée des événements. Cependant, il n'y a jamais eu de collection complète d'articles diffusés via ces fils de presse. Ce projet vise à créer une telle collection en utilisant une technologie avancée pour traiter un énorme volume d'images de journaux anciens.
Le résultat final est un ensemble de données de 2,7 millions d'articles de presse uniques publiés entre 1878 et 1977, tous dans le domaine public. Ces articles ont été organisés avec des détails sur où ils ont été écrits, quels sujets ils couvrent et qui y est mentionné. Ces informations peuvent être utiles à la fois pour comprendre l'histoire et pour entraîner des modèles de langage, qui sont utilisés dans divers domaines de recherche, y compris la linguistique et les sciences sociales.
Historiques
Le besoin de donnéesAlors que les sources actuelles pour entraîner des modèles de langage deviennent de plus en plus rares, les chercheurs se tournent vers le passé pour trouver des informations précieuses. Les textes historiques intéressent à la fois les académiciens et le grand public, et les rendre disponibles pour l'analyse pourrait mener à de nouvelles découvertes. Bien qu'une grande partie du matériel historique soit désormais dans le domaine public, accéder à ces textes peut encore être un défi. Souvent, ils nécessitent des méthodes complexes pour extraire et organiser l'information pour une utilisation, que ce soit pour entraîner des modèles ou mener des recherches.
Les articles de presse sont cruciaux pour capturer les connaissances historiques. Les fils de presse, comme l'Associated Press et United Press, étaient parmi les principales sources de nouvelles aux États-Unis, surtout quand maintenir un réseau mondial pour l'information était trop coûteux.
La historienne des médias Julia Guarneri a noté qu'à partir des années 1910 et 1920, de nombreux articles que les Américains lisaient étaient liés aux marchés d'information nationale. Cela a aidé à façonner une compréhension commune de la vie américaine, influençant la politique intérieure et les relations internationales au 20e siècle.
Malgré la signification de ce contenu, un ensemble de données complet des articles de fils de presse des 19e et 20e siècles n'a pas été mis à disposition. Les archives existantes ont tendance à se concentrer sur des régions ou des périodes spécifiques et manquent souvent d'articles, beaucoup de journaux n'ayant pas survécu.
Méthodologie
Pour combler cette lacune, les chercheurs ont développé un processus avancé pour reconstruire une archive de fils de presse. Ils ont commencé avec des millions d'images numérisées de journaux locaux sur plus d'un siècle. Le processus impliquait d'extraire des textes d'articles structurés à partir de près de 138 millions de pages, qui couvrent tous les États américains.
L'ensemble de données a été affiné pour s'assurer que seuls les articles de fils de presse étaient inclus, principalement en utilisant un classificateur de texte. Cette méthode a minimisé l'inclusion de contenu non lié aux fils et a garanti que l'ensemble de données restait utile pour entraîner des modèles de langage.
Chaque article dans l'ensemble de données résultant est présenté une seule fois, même si certains articles ont pu être reproduits plusieurs fois. Éliminer les doublons est essentiel pour l'entraînement des modèles de langage, car un contenu dupliqué peut conduire à des informations répétées dans les modèles.
La collection inclut également des informations géographiques qui indiquent où les articles ont été écrits, ce qui peut enrichir les données. Les chercheurs ont étiqueté les articles avec des sujets spécifiques et ont identifié des entités nommées, les reliant à des bases de données largement utilisées comme Wikipedia.
Caractéristiques de l'ensemble de données
L'ensemble de données inclut plus que des textes d'articles structurés. Il fournit des informations contextuelles riches telles que :
- L'année de Publication de l'article.
- Les dates auxquelles l'article est apparu.
- Le nom de l'auteur de l'article.
- Les noms des journaux qui ont publié l'article.
- Des étiquettes indiquant les sujets couverts, comme la politique, le crime et les droits civiques.
- Les lieux géographiques associés aux articles.
Ces données peuvent éclairer les contextes sociaux, politiques et économiques qui ont influencé les nouvelles partagées à divers endroits.
Disponibilité des données
L'ensemble de données est disponible pour un usage public sous une licence Creative Commons, ce qui permet aux chercheurs d'accéder et d'utiliser les informations de manière flexible. Il peut être trouvé sur des plateformes populaires qui soutiennent le partage de données, ce qui facilite le téléchargement et l'utilisation des données par les parties intéressées.
Applications potentielles
Cet ensemble de données peut bénéficier à divers domaines de recherche. Les historiens et les scientifiques sociaux peuvent analyser les tendances et événements historiques à travers le prisme de ces articles. Les linguistes peuvent étudier l'évolution de la langue au fil du temps et les manières dont les contextes culturels ont influencé les styles d'écriture.
De plus, les données sont également précieuses pour l'entraînement des modèles de langage. Ces outils peuvent être ajustés pour refléter l'utilisation historique de la langue, ce qui pourrait conduire à des résultats plus nuancés dans des applications futures.
La nature organisée de l'ensemble de données, avec ses étiquettes claires pour divers sujets et entités, le rend convivial pour les chercheurs qui n'ont pas une expertise technique approfondie. Les chercheurs peuvent accéder à des informations structurées qui permettent une analyse rapide sans nécessiter de prétraitement de données étendu.
Défis dans la création de données
Créer cet ensemble de données n'a pas été sans défis. Un problème majeur était de traiter les erreurs qui sont apparues lors du processus de numérisation. La reconnaissance optique de caractères (OCR) a souvent mal lu des caractères, conduisant à des inexactitudes dans le texte. Ces erreurs étaient courantes et nécessitaient une combinaison de révision humaine et de corrections automatisées pour assurer la qualité du texte.
Un autre défi était de s'assurer que le contenu non lié aux fils, qui pourrait altérer l'intégrité de l'ensemble de données, était efficacement filtré. Cela impliquait un processus de classification sophistiqué pour maintenir l'utilité de l'ensemble de données pour l'entraînement des modèles de langage.
Assurer la qualité des données
La qualité du contenu était primordiale tout au long du processus. Les chercheurs ont veillé à inclure uniquement les meilleures versions disponibles des articles, choisissant celles avec le moins d'erreurs. Ils ont également mis en place des systèmes pour réduire la probabilité que des données bruitées pénètrent dans la collection finale.
En utilisant des méthodes de haute qualité pour détecter et corriger les problèmes, l'équipe visait à fournir aux chercheurs une ressource fiable pour étudier le passé.
Utilisations au-delà de la recherche
Au-delà des poursuites académiques, cet ensemble de données a des applications potentielles dans divers secteurs. Par exemple, les éducateurs pourraient l'utiliser comme source principale pour enseigner l'histoire ou les études médiatiques. Les écrivains et les créateurs de contenu pourraient s'inspirer des articles pour leur inspiration ou leur contexte lorsqu'ils discutent d'événements historiques.
La structure de l'ensemble de données pourrait également soutenir des applications technologiques modernes, comme l'exploration de données et les tâches d'apprentissage automatique, où comprendre les tendances passées joue un rôle crucial dans le développement d'outils ou de stratégies futurs.
Le contexte historique des nouvelles
Le contenu de cet ensemble de données reflète le paysage historique des États-Unis de 1878 à 1977. Les sujets abordés dans ces articles fournissent des aperçus sur ce que la société priorisait durant différentes périodes. Par exemple, les articles de l'époque du mouvement pour les droits civiques montrent les normes sociales changeantes et les attitudes envers la race et l'égalité.
Les articles incluent également des informations sur des figures clés, fournissant un contexte à leurs rôles dans des moments décisifs de l'histoire. Cela en fait une ressource précieuse pour quiconque cherche à comprendre le passé de manière plus approfondie.
Conclusion
Cet ensemble de données complet ouvre la porte à de nombreuses avenues d'exploration. En rendant les articles de presse historiques accessibles, les chercheurs et le public peuvent obtenir une compréhension plus approfondie d'une période significative de l'histoire américaine.
Que ce soit pour la recherche académique, un usage éducatif, ou des aperçus sociétaux plus larges, cette collection d'articles sert d'outil vital pour examiner les complexités du passé et son impact sur le présent.
Directions futures
À mesure que la technologie continue d'avancer, il existe des opportunités pour améliorer encore l'ensemble de données. Les efforts en cours pourraient inclure l'amélioration de l'exactitude des articles existants, l'expansion de l'ensemble de données pour couvrir des nouvelles plus récentes (lorsque le droit d'auteur le permet), ou l'incorporation d'éléments multimédias comme des photographies ou des illustrations provenant des journaux originaux.
Les créateurs de l'ensemble de données s'engagent à le maintenir bien dans le futur, en veillant à ce qu'il reste une ressource pertinente pour divers publics.
Remerciements
Le soutien pour la création de cet ensemble de données est venu de diverses organisations, qui ont fourni des ressources et un financement. La collaboration continue parmi les chercheurs a ouvert la voie à des méthodes innovantes dans la collecte et l'analyse des données.
Cet ensemble de données est plus qu'une simple collection d'articles ; il représente un héritage historique partagé. Il sert de rappel du pouvoir du mot écrit dans la formation de la perception publique et de la compréhension des événements à travers l'histoire.
Titre: Newswire: A Large-Scale Structured Database of a Century of Historical News
Résumé: In the U.S. historically, local newspapers drew their content largely from newswires like the Associated Press. Historians argue that newswires played a pivotal role in creating a national identity and shared understanding of the world, but there is no comprehensive archive of the content sent over newswires. We reconstruct such an archive by applying a customized deep learning pipeline to hundreds of terabytes of raw image scans from thousands of local newspapers. The resulting dataset contains 2.7 million unique public domain U.S. newswire articles, written between 1878 and 1977. Locations in these articles are georeferenced, topics are tagged using customized neural topic classification, named entities are recognized, and individuals are disambiguated to Wikipedia using a novel entity disambiguation model. To construct the Newswire dataset, we first recognize newspaper layouts and transcribe around 138 millions structured article texts from raw image scans. We then use a customized neural bi-encoder model to de-duplicate reproduced articles, in the presence of considerable abridgement and noise, quantifying how widely each article was reproduced. A text classifier is used to ensure that we only include newswire articles, which historically are in the public domain. The structured data that accompany the texts provide rich information about the who (disambiguated individuals), what (topics), and where (georeferencing) of the news that millions of Americans read over the course of a century. We also include Library of Congress metadata information about the newspapers that ran the articles on their front pages. The Newswire dataset is useful both for large language modeling - expanding training data beyond what is available from modern web texts - and for studying a diversity of questions in computational linguistics, social science, and the digital humanities.
Auteurs: Emily Silcock, Abhishek Arora, Luca D'Amico-Wong, Melissa Dell
Dernière mise à jour: 2024-06-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.09490
Source PDF: https://arxiv.org/pdf/2406.09490
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://huggingface.co/datasets/dell-research-harvard/newswire
- https://github.com/dell-research-harvard/newswire
- https://dumps.wikimedia.org/
- https://github.com/brawer/wikidata-qrank/tree/main
- https://huggingface.co/api/datasets/dell-research-harvard/newswire/croissant
- https://search.google.com/test/rich-results/result?id=_HKjxIv-LaF_8ElAarsM_g
- https://creativecommons.org/licenses/by/2.0/