Exploiter les journaux historiques pour les modèles QA modernes
Le dataset ChroniclingAmericaQA améliore la réponse aux questions en utilisant des textes de journaux historiques.
― 10 min lire
Table des matières
- L'Importance des Journaux Historiques
- Création de l'Ensemble de Données
- Collecte des Données
- Préparation des données
- Génération de Questions
- Analyse et Caractéristiques de l'Ensemble de Données
- Statistiques des Données
- Performance des Modèles
- Performance des Grands Modèles de Langage
- Évaluation Humaine
- Cas d'Utilisation
- Considérations Éthiques
- Conclusion
- Source originale
- Liens de référence
La réponse à des questions (QA) et la compréhension de lecture automatique (MRC) sont devenues des domaines importants dans la technologie, surtout avec l'avènement des modèles informatiques avancés. Ces modèles peuvent lire du texte et répondre à des questions basées là-dessus. Ces dernières années, beaucoup de grands ensembles de données ont été créés pour aider à entraîner ces modèles. Cependant, la plupart de ces ensembles proviennent de sources modernes comme Wikipedia ou des articles en ligne. Il existe des collections historiques riches, comme des vieux journaux, qui contiennent des informations utiles mais qui ne sont pas souvent utilisées pour entraîner ces modèles.
Pour combler cette lacune, un nouvel ensemble de données appelé ChroniclingAmericaQA a été créé. Cet ensemble contient 485 000 paires question-réponse tirées d'une collection de journaux américains historiques. Ces journaux ont été publiés sur une période de 120 ans, ce qui est beaucoup plus long que les autres ensembles de données disponibles. Un des principaux défis lorsqu'on travaille avec de vieux journaux est que le texte généré par la reconnaissance optique de caractères (OCR) peut parfois être de mauvaise qualité. Pour s'assurer que les modèles sont testés efficacement, l'ensemble permet de répondre à des questions basées sur trois types de contenu : du texte brut bruyant, du texte corrigé amélioré pour la qualité et des images numérisées des journaux.
L'Importance des Journaux Historiques
Les journaux historiques offrent une précieuse fenêtre sur le passé. Ils capturent des événements, des cultures et des attitudes sociales de différentes époques. Ça en fait une ressource unique pour comprendre l'histoire. Cependant, les utiliser pour des tâches QA peut être compliqué. La langue dans ces vieux journaux est souvent différente de celle d'aujourd'hui. Ça soulève des questions sur la capacité des modèles modernes formés sur du texte actuel à comprendre et traiter ces documents historiques.
En plus, beaucoup de ces vieux journaux ne sont disponibles qu'en version numérisée, et la qualité du texte OCR peut varier énormément. Ça ajoute à la complexité, car un texte incohérent peut rendre difficile l'extraction d'informations avec précision. En créant un ensemble de données sur mesure, il y a une opportunité d'améliorer la recherche en QA en permettant aux modèles d'être testés contre ces textes uniques et difficiles.
Création de l'Ensemble de Données
Collecte des Données
La première étape pour construire l'ensemble de données ChroniclingAmericaQA a été de collecter les pages de journaux. La source pour cet ensemble était une collection de journaux américains historiques du domaine public appelée Chronicling America. Cette collection contient plus de 21 millions de pages de journaux publiés entre 1756 et 1963.
Étant donné la vaste gamme de contenu, il serait impraticable de collecter et de traiter manuellement toutes les pages de journaux disponibles. Au lieu de cela, un processus de sélection a été utilisé. Un total de 100 pages de journaux a été choisi au hasard pour chaque décennie entre 1800 et 1920 dans tous les 53 États des États-Unis. Ça a abouti à une collection de plus de 39 000 pages, fournissant une représentation diversifiée du contexte historique.
Préparation des données
Après la collecte des pages de journaux, l'étape suivante était de préparer les données pour la Génération de questions. Le texte original provenant de l'OCR contenait souvent des erreurs et des inexactitudes. Si on ne le corrigeait pas, ce texte bruyant ne donnerait pas de réponses précises ou exactes.
Pour améliorer la qualité du texte OCR, des avancées récentes dans la technologie ont été utilisées. De grands modèles de langage (LLMs) ont été employés pour corriger automatiquement les erreurs d'orthographe et de grammaire dans le texte. Plus précisément, le modèle GPT 3.5 Turbo a été utilisé à cet effet. Le texte brut a été divisé en plus petits paragraphes, rendant la gestion et le traitement plus faciles. Le modèle GPT a pu corriger une grande partie du texte, résultant en une version plus propre et fiable pour la génération de questions.
Génération de Questions
La dernière étape dans la création de l'ensemble de données impliquait de générer des questions à partir des paragraphes révisés. Pour cela, un modèle connu sous le nom de T5-base a été utilisé. Ce modèle est spécifiquement conçu pour générer des questions et a été ajusté en fonction d'un ensemble de données bien connu appelé SQuAD.
Le modèle a généré des questions basées sur les entités nommées trouvées dans le texte. Grâce à ce processus, plus de 2,9 millions de questions ont été produites. Cependant, beaucoup de ces questions souffraient de problèmes comme étant trop vagues ou révélant les réponses. Pour affiner l'ensemble de données, un processus de filtrage en plusieurs étapes a été appliqué. Cela incluait l'élimination des questions qui ne se terminaient pas par un point d'interrogation, l'élimination des doublons et l'assurance de clarté et de spécificité dans les questions générées.
Analyse et Caractéristiques de l'Ensemble de Données
Statistiques des Données
Après le traitement et le filtrage, l'ensemble de données ChroniclingAmericaQA se composait de 485 000 paires question-réponse de haute qualité. Les données ont été divisées en ensembles d'entraînement, de développement et de test, avec une grande partie allouée à l'entraînement. Cette configuration est essentielle pour entraîner les modèles efficacement et permet une évaluation complète.
L'ensemble de données présente également une large gamme de types d'entités nommées, comme des personnes, des lieux et des organisations, ce qui le rend polyvalent pour différentes tâches de QA. De plus, les types de questions dans l'ensemble sont divers, incluant celles qui demandent des informations spécifiques ou des aperçus culturels plus larges.
Performance des Modèles
Pour évaluer l'efficacité de l'ensemble de données ChroniclingAmericaQA, plusieurs modèles avancés ont été testés. Ceux-ci incluent BERT, RoBERTa et T5, qui sont basés sur une architecture de transformateur. La performance de ces modèles a été évaluée à l'aide de mesures de qualité telles que le taux de correspondance exact (EM) et le score F1.
Les résultats ont montré que les modèles formés spécifiquement sur l'ensemble de données ChroniclingAmericaQA ont mieux performé que ceux formés sur d'autres ensembles. Ça met en évidence l'importance d'affiner les modèles sur des données spécifiques au domaine pour améliorer leur performance.
Performance des Grands Modèles de Langage
En plus des modèles de transformateurs, l'ensemble de données a également été évalué à l'aide de Grands Modèles de Langage (LLMs), comme LLaMA2 et Mistral. Comme ces modèles produisent souvent des réponses plus longues, les métriques d'évaluation traditionnelles comme EM et les scores F1 peuvent ne pas capturer pleinement leur performance.
Au lieu de cela, des métriques alternatives comme le Rappel de Tokens et la Contenance de Chaîne de Réponse ont été introduites. Ces métriques fournissent une meilleure compréhension de la performance des LLMs à générer des réponses basées sur le contexte fourni. Les résultats ont indiqué que LLaMA2, étant un modèle plus grand, a atteint une performance significativement meilleure comparé aux modèles plus petits.
Évaluation Humaine
Pour évaluer davantage la qualité de l'ensemble de données ChroniclingAmericaQA, une évaluation manuelle a été effectuée. Une sélection de paires question-réponse a été examinée par des étudiants diplômés qui les ont évaluées selon des critères tels que la lisibilité, la pertinence et la clarté. Les retours de cette évaluation indiquaient que l'ensemble de données est de haute qualité, la plupart des questions étant claires et directement liées au contenu.
Cas d'Utilisation
L'ensemble de données ChroniclingAmericaQA offre diverses applications potentielles. D'abord, il sert de nouvelle référence pour entraîner et évaluer des modèles QA sur des textes historiques. Ça peut améliorer la façon dont les modèles gèrent les complexités associées aux vieux documents, y compris les variations de langue et les inexactitudes de l'OCR.
Ensuite, l'ensemble peut engager le public avec des matériaux historiques en aidant les gens à développer des compétences en lecture critique et en arts du langage. Les éducateurs peuvent aussi l'utiliser pour évaluer la compréhension de documents historiques par les élèves, intégrant l'ensemble de données dans leur programme.
De plus, puisque l'ensemble comprend des images des journaux originaux aux côtés du texte OCR, il offre un scénario réaliste pour l'évaluation des modèles. Diverses institutions pourraient utiliser l'ensemble de données pour améliorer l'accès aux documents historiques et soutenir la recherche dans ce domaine.
Considérations Éthiques
Enfin, il est essentiel de reconnaître les considérations éthiques entourant l'ensemble de données. Étant donné qu'il est basé sur des données historiques, il y a une chance que certains contenus puissent refléter des biais ou des points de vue offensants répandus à l'époque. Des mesures ont été prises pour minimiser ce risque grâce à une analyse et un filtrage minutieux des questions générées. Néanmoins, cette question est courante dans les matériaux historiques et mérite une attention et une surveillance continues.
Conclusion
L'ensemble de données ChroniclingAmericaQA représente une avancée significative dans l'utilisation des journaux historiques pour la réponse à des questions et la compréhension de lecture automatique. En abordant les défis liés à la qualité du texte OCR et à la langue historique, il offre une ressource précieuse pour les chercheurs et les professionnels du domaine.
Les caractéristiques uniques de l'ensemble, y compris sa longue période et son contenu diversifié, offrent une opportunité pour une exploration et un développement supplémentaires des systèmes QA. À mesure que la recherche continue d'évoluer dans ce domaine, ChroniclingAmericaQA constitue un pilier pour comprendre et exploiter les textes historiques pour des applications modernes.
En résumé, cet ensemble de données non seulement enrichit le domaine du traitement du langage naturel, mais favorise également une appréciation plus profonde de notre patrimoine historique. En facilitant l'intersection de la technologie et de l'histoire, il encourage une compréhension plus nuancée du passé, profitant aux chercheurs et au public en général.
Titre: ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages
Résumé: Question answering (QA) and Machine Reading Comprehension (MRC) tasks have significantly advanced in recent years due to the rapid development of deep learning techniques and, more recently, large language models. At the same time, many benchmark datasets have become available for QA and MRC tasks. However, most existing large-scale benchmark datasets have been created predominantly using synchronous document collections like Wikipedia or the Web. Archival document collections, such as historical newspapers, contain valuable information from the past that is still not widely used to train large language models. To further contribute to advancing QA and MRC tasks and to overcome the limitation of previous datasets, we introduce ChroniclingAmericaQA, a large-scale temporal QA dataset with 487K question-answer pairs created based on the historical newspaper collection Chronicling America. Our dataset is constructed from a subset of the Chronicling America newspaper collection spanning 120 years. One of the significant challenges for utilizing digitized historical newspaper collections is the low quality of OCR text. Therefore, to enable realistic testing of QA models, our dataset can be used in three different ways: answering questions from raw and noisy content, answering questions from cleaner, corrected version of the content, as well as answering questions from scanned images of newspaper pages. This and the fact that ChroniclingAmericaQA spans the longest time period among available QA datasets make it quite a unique and useful resource.
Auteurs: Bhawna Piryani, Jamshid Mozafari, Adam Jatowt
Dernière mise à jour: 2024-05-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.17859
Source PDF: https://arxiv.org/pdf/2403.17859
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://chroniclingamerica.loc.gov/about/
- https://github.com/DataScienceUIBK/ChroniclingAmericaQA.git
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://github.com/explosion/spaCy
- https://huggingface.co/bert-base-uncased
- https://huggingface.co/csarron/bert-base-uncased-squad-v1
- https://huggingface.co/FacebookAI/roberta-base
- https://huggingface.co/deepset/roberta-base-squad2
- https://huggingface.co/google-t5/t5-large
- https://huggingface.co/potsawee/t5-large-generation-squad-QuestionAnswer
- https://huggingface.co/spaces/evaluate-metric/squad