Organiser des articles de presse historiques de manière efficace
Un système pour classer des articles historiques en utilisant des rôles et des aspects.
― 14 min lire
Table des matières
- Utilisateurs et leurs besoins
- Objectifs et contributions
- Travaux connexes
- Approche et collecte de données
- Traitement des articles de presse
- Extraction d'aspects et classification
- Traitement des extraits d'articles de presse
- Évaluation du système
- Défis et perspectives d'avenir
- Source originale
- Liens de référence
Les bibliothèques numériques donnent souvent accès à de vieux journaux grâce à des recherches par mots-clés. Quand on fait de la recherche historique, comprendre les personnages historiques et leurs rôles peut être super important. Regrouper et organiser les articles de presse aide les utilisateurs à trouver ces infos plus facilement. Mais, il y a plein de défis dans la vraie vie, genre le manque de données d’entraînement, des restrictions légales, et des erreurs dans les textes issues de la reconnaissance optique de caractères (OCR), ce qui rend la création d'un tel système difficile et coûteux. Ce travail montre comment surmonter ces défis en développant une interface basée sur les rôles qui organise les articles de presse sur les personnages historiques. Les évaluations et les retours d'experts ont montré que notre prototype est efficace et adapté aux collections réelles des bibliothèques numériques.
Utilisateurs et leurs besoins
Les gens qui utilisent des bibliothèques numériques avec des articles de presse historiques interagissent avec l'info de différentes manières. Ils peuvent planifier des tâches, chercher des faits, ou travailler sur des éléments spécifiques.
Dans la recherche historique, les personnages historiques et leurs rôles sont des points d'intérêt majeurs. Il y a un vrai besoin d'outils qui soutiennent le travail des historiens en répondant à leurs besoins spécifiques. Un boulot fondamental pour les chercheurs est de créer des collections plus petites d’articles qui aident à répondre à leurs questions de recherche. Mais, trouver ces petites collections peut être galère pour deux raisons principales.
D'abord, la quantité énorme d'articles de presse peut être écrasante. Ensuite, trouver les bons mots-clés pour faire une recherche peut être compliqué.
Les améliorations en Traitement du langage naturel (NLP) ont permis de nouvelles façons d'accéder au contenu historique. Beaucoup de projets de bibliothèques numériques se sont concentrés là-dessus dans le passé. Cependant, beaucoup de ces systèmes dépendent du travail manuel ou demandent des exemples d'entraînement spécialisés pour chaque étape.
À l'inverse, ce travail évite le travail manuel et le besoin de données d’entraînement spécialisées en utilisant des infos de Wikipédia qui fournissent des détails structurés avec des exemples de texte. Cet article présente un nouveau système qui organise automatiquement les articles de presse historiques en fonction des personnes et propose une interface utilisateur conviviale pour faciliter l'exploration du contenu de la bibliothèque.
L'idée principale, c'est que chaque personne a plusieurs rôles (par exemple, écrivain, politicien, soldat), et chaque rôle a différents aspects (par exemple, vie précoce, carrière politique, actions). Idéalement, le système créera automatiquement des collections plus petites pour chaque rôle et aspect pour aider les chercheurs à étudier les personnages historiques. Mais les méthodes traditionnelles en NLP dépendent souvent de données d'entraînement élaborées manuellement, ce qui n'est pas disponible dans notre cas.
Ce projet s'attaque aux défis d'une vraie bibliothèque numérique, en particulier la Bibliothèque nationale des Pays-Bas. Ici, il n’y a pas de données d’entraînement faites à la main ou de benchmarks. De plus, il y a plusieurs contraintes réelles :
- Les données sont en néerlandais, tandis que beaucoup d'outils ne sont disponibles qu'en anglais.
- Les articles de presse proviennent de journaux scannés par OCR, ce qui entraîne des problèmes courants d'OCR comme des lettres incorrectes et des phrases cassées.
- La licence de la bibliothèque interdit de partager des données avec des outils tiers.
En plus de ces défis, il existe une collection moins étudiée d'articles de presse néerlandais qui ne sont pas en anglais. Ce travail vise à créer un système pratique qui surmonte les contraintes typiques des bibliothèques numériques.
Objectifs et contributions
Ce projet vise à aider les utilisateurs à planifier leur recherche en organisant les articles de presse selon les personnages historiques et leurs rôles. Notre prototype fonctionne avec de vraies données de la Bibliothèque nationale des Pays-Bas et s'appuie sur des données d'entraînement générées automatiquement à partir de Wikipédia. L'objectif est d'aider les utilisateurs à formuler des questions de recherche sur les personnages historiques.
Pour répondre à la question de recherche sur la manière dont une bibliothèque numérique peut créer des voies d'accès efficaces pour explorer sa collection, ce travail apporte plusieurs contributions :
- On décrit comment surmonter les défis réels auxquels font face les bibliothèques numériques.
- On présente une méthode efficace pour organiser automatiquement les articles de presse en utilisant des informations structurelles de Wikipédia.
- On évalue notre prototype étape par étape et à travers des interviews avec des experts du domaine.
Travaux connexes
Les travaux connexes à cette recherche peuvent être classés en trois catégories principales : systèmes d'archives de nouvelles de bibliothèques numériques, traitement du texte néerlandais utilisant des modèles de langage, et méthodes de summarisation de texte.
Systèmes de bibliothèques numériques sur les articles de presse
La recherche sur la structuration et l'exploration des articles de presse est vaste. Les sujets incluent la summarisation, l'évolution des termes, la détection de fausses nouvelles, et le clustering. Certains systèmes regroupent les articles de presse par similarité en utilisant des machines à vecteurs de support (SVM). Des recherches précédentes ont identifié les rôles des personnages historiques, leurs relations, et les entités nommées comme des points d'accès importants aux documents historiques. Plusieurs projets réels ont exploré le clustering d'articles de presse similaires avec des contraintes réelles.
Un exemple est la plateforme Delpher développée par la Bibliothèque nationale des Pays-Bas. Delpher numérise des articles de presse et propose une interface utilisateur pour naviguer dans les collections historiques. Ils visent également à organiser une partie de leur collection de journaux différemment de l'interface de recherche standard. Notre travail vise à organiser automatiquement les articles de presse de la bibliothèque tout en respectant ses contraintes.
Modèles de langue néerlandais
De nombreux modèles de langue ont été entraînés et testés sur des données en anglais. Certaines exceptions existent pour des modèles qui ont été entraînés dans des contextes multilingues, ou spécifiquement pour le néerlandais. Des modèles comme BERTje et RobBERT sont des exemples qui surpassent les versions multilingues dans diverses tâches. Pour la classification de texte dans ce projet, nous avons utilisé le modèle RobBERT-2022.
Summarisation de texte
La summarisation de texte consiste à créer des Résumés concis de textes plus longs. De nombreux modèles de langage général séquence-à-séquence peuvent être fine-tunés pour des tâches de summarisation. Cependant, beaucoup de modèles de summarisation sont limités à des textes plus courts, souvent moins de 512 tokens. Les modèles plus récents peuvent gérer de plus grandes entrées, mais la plupart sont entraînés en anglais. Dans ce projet, nous visons à résumer plusieurs articles en un seul résumé, donc l'accent est mis sur les tâches de summarisation multi-documents.
Approche et collecte de données
Le projet actuel vise à améliorer la façon dont les articles de presse sont structurés pour soutenir la recherche sur des individus. Chaque article contient des éléments comme un titre, un texte, une date de parution, et le journal publié. Nous considérons que chaque personne peut avoir plusieurs rôles (par exemple, politicien, écrivain) qui ont divers aspects (par exemple, carrière politique, romans, récompenses).
Contraintes de la bibliothèque
Nous avons fait face à plusieurs contraintes dans notre travail :
- Les articles proviennent de journaux scannés par OCR.
- Les textes sont en néerlandais.
- Il y avait des restrictions sur le partage des données avec des tiers.
- Nous étions tenus de lier le système Delpher et ne pouvions afficher que des extraits des articles réels (160 caractères maximum).
- Il n’y avait pas de données d’entraînement préparées pour nos tâches.
À cause de ces contraintes, nous n'avons pas pu utiliser de services de traduction automatiques ou d'assistants IA. L'absence de données d’entraînement a rendu difficile l'utilisation d'approches simples comme l'entraînement de modèles pour la classification de texte. Collecter, labelliser, et entraîner aurait été coûteux. Donc, nous avons choisi une solution différente :
En utilisant Wikipédia en néerlandais, nous avons rassemblé des textes décrivant différentes personnes, leurs rôles, et leurs aspects. Wikipédia organise le texte en sections et fournit des infobox riches qui donnent des infos structurées sur les rôles de chaque personne. Nous avons utilisé ces caractéristiques pour mieux comprendre les rôles et apprendre à décrire divers aspects.
Interface du système
En construisant l’interface du système, nous avons visé à répondre aux besoins des utilisateurs pour la sérendipité dans les environnements numériques. Cela signifie créer des interfaces avec diverses informations, montrant les relations entre les objets d'information, et proposant des recommandations inattendues.
L'objectif était de déterminer les rôles d'une personne et de classifier si le contenu d'un article se rapporte à l'un de ces rôles. Nous avons utilisé la summarisation pour chaque aspect afin d'aider les utilisateurs à rassembler rapidement des informations. Les utilisateurs peuvent sélectionner différentes personnes et leurs rôles connus, puis examiner différents aspects de ces rôles. Chaque aspect a un résumé et une liste d'articles pertinents pour cet aspect.
Traitement des articles de presse
Nous avons utilisé un sous-ensemble de données de la bibliothèque qui inclut des articles du 17ème siècle à aujourd'hui. Nous avons collecté des articles liés à neuf figures notables de l'époque de la Seconde Guerre mondiale. Nous avons filtré les articles selon des critères spécifiques pour nous assurer qu'ils fournissaient suffisamment d'informations et étaient publiés pendant la vie des individus.
Le processus de filtrage impliquait plusieurs étapes :
- Seuls les articles ayant un certain pourcentage de mots néerlandais reconnaissables étaient conservés.
- Nous avons exclu les articles de certaines sources en fonction de leur position politique.
- Les articles devaient être publiés pendant la vie de la personne, faire plus de 100 mots, et mentionner leur nom plusieurs fois.
Ces filtres ont aidé à réduire la collection à des articles pertinents et informatifs.
Traitement de Wikipédia
Utiliser Wikipédia pour dériver le rôle d'une personne impliquait de lier les informations à des catégories d'occupation. Nous avons examiné les dumps XML de Wikipédia néerlandaise pour extraire les rôles et les résumés de page correspondants. Ce processus a abouti à une liste de plus de 259 000 pages de personnes.
Pour s'assurer que nous recueillons suffisamment d'infos sur des rôles bien décrits, nous avons filtré les pages qui n'offraient pas de détails substantiels. Nous avons visé à créer des sections où chaque section pourrait décrire un aspect distinct de la vie d'une personne. Pour gérer les titres des sections, nous avons utilisé une méthode pour regrouper ensemble des titres similaires qui décrivent le même aspect de la vie.
Extraction d'aspects et classification
Ensuite, nous avons cherché à identifier des aspects fréquents liés aux rôles en comptant combien de fois ces aspects apparaissaient chez toutes les personnes appartenant à un rôle spécifique. Nous avons établi des seuils pour garantir que seuls les aspects avec suffisamment d'exemples soient considérés.
Avec le rôle d'une personne défini, nous avons développé un classificateur pour déterminer si un texte est lié à l'un des aspects du rôle. Notre intention était de créer un système de classification multi-classes capable de traiter divers aspects des rôles.
Pour entraîner nos classificateurs, nous avons extrait du texte des sections de Wikipédia et veillé à ce que chaque aspect ait suffisamment d'exemples. Nous avons aussi inclus des exemples négatifs pour entraîner contre des Classifications incorrectes. Nous avons affiné le modèle RobBERT-2022 pour la tâche, en divisant les données en ensembles d'entraînement, de validation et de test.
Traitement des extraits d'articles de presse
Ensuite, nous avons appliqué les classificateurs à des extraits d'articles de presse qui impliquaient des personnages historiques. Étant donné que les articles pouvaient aborder plusieurs sujets, nous avons concentré nos efforts sur la compilation d'extraits qui incluaient le nom de la personne. Nous avons extrait des phrases liées à l'individu et au contexte adjacent pour créer des extraits significatifs.
Nous avons identifié les rôles de la personne à travers leurs pages Wikipédia correspondantes. En fonction de ces rôles, nous avons appliqué les classificateurs à chaque extrait. L'objectif était de résumer ces extraits pour que les utilisateurs puissent rapidement comprendre comment les aspects des individus étaient abordés dans les articles.
En raison des limitations des modèles de summarisation disponibles en néerlandais, nous avons choisi un modèle anglais affiné et traduit entre les langues pour créer des résumés.
Évaluation du système
Nous avons évalué divers composants du prototype, y compris le clustering, la classification, la traduction, et la summarisation. Nous avons exporté des titres de sections de Wikipédia qui répondaient à des critères de fréquence spécifiques pour évaluer les processus de clustering et de classification.
L'évaluation des classificateurs a été réalisée de plusieurs manières, y compris la mesure des performances sur des ensembles de test et l'évaluation de la qualité des extraits classifiés à travers des revues manuelles.
Les résultats ont indiqué que les classificateurs fonctionnaient mieux avec des ensembles d'entraînement plus grands. Les résultats ont également mis en évidence la variabilité concernant le nombre d'extraits classifiés parmi différentes figures historiques.
Des retours d'utilisateurs ont été collectés via des interviews, où les participants ont partagé leurs réflexions sur l'interface et les fonctionnalités du système. Dans l'ensemble, les interviewés ont exprimé des opinions positives sur l'organisation de l'interface, sa clarté, et sa capacité à fournir des informations contextuelles sur les personnages historiques.
Défis et perspectives d'avenir
Malgré les succès du projet, certaines zones nécessitent encore des améliorations. Il y a un besoin de raffiner le labellisation pour les clusters de sections et de présenter les extraits résumés de manière plus efficace. Aborder les problèmes de correction dans les résumés est critique pour maintenir l'intégrité des ressources de la bibliothèque. De futures étapes possibles incluent l'adoption de méthodes pour vérifier les faits et l'utilisation de différentes approches de summarisation.
En conclusion, ce projet démontre comment une bibliothèque numérique peut développer une méthode axée sur les aspects pour organiser ses collections de nouvelles. En s'appuyant sur Wikipédia, le projet réduit le besoin de données d'entraînement étendues. Les évaluations confirment l'efficacité de la méthode et sa valeur pratique pour aider les utilisateurs dans leurs tâches de recherche. Bien que des progrès aient été réalisés, il existe encore du potentiel pour rendre le système encore meilleur.
Titre: Aspect-Driven Structuring of Historical Dutch Newspaper Archives
Résumé: Digital libraries oftentimes provide access to historical newspaper archives via keyword-based search. Historical figures and their roles are particularly interesting cognitive access points in historical research. Structuring and clustering news articles would allow more sophisticated access for users to explore such information. However, real-world limitations such as the lack of training data, licensing restrictions and non-English text with OCR errors make the composition of such a system difficult and cost-intensive in practice. In this work we tackle these issues with the showcase of the National Library of the Netherlands by introducing a role-based interface that structures news articles on historical persons. In-depth, component-wise evaluations and interviews with domain experts highlighted our prototype's effectiveness and appropriateness for a real-world digital library collection.
Auteurs: Hermann Kroll, Christin Katharina Kreutz, Mirjam Cuper, Bill Matthias Thang, Wolf-Tilo Balke
Dernière mise à jour: 2023-07-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.09203
Source PDF: https://arxiv.org/pdf/2307.09203
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.delpher.nl/thema/geschiedenis/tweede-wereldoorlog
- https://impresso-project.ch/overview/intro
- https://glam-workbench.net/
- https://www.newseye.eu/fileadmin/deliverables/NewsEye-T64-D612-ShowcaseCaseStudies-b-Submitted-v3.0.pdf
- https://github.com/NewsEye/NLP-Notebooks-Newspaper-Collections
- https://www.newseye.eu/case-studies/case-study-2-gender/women-in-pants/
- https://anno.onb.ac.at/them
- https://anno.onb.ac.at/cgi-content/anno?datum=19480708
- https://www.retronews.fr/
- https://infoscience.epfl.ch/record/270246
- https://www.digitalhumanities.org/dhq/vol/9/1/000205/000205.html
- https://www.digitalstudies.org/article/id/7328/
- https://data.cervantesvirtual.com/glam-jupyter-notebooks
- https://www.kb.nl
- https://github.com/HermannKroll/AspectDrivenNewsStructuring
- https://archive.softwareheritage.org/swh:1:dir:13457c154ed7ad1f571e353c1edf2f87db61b0ae
- https://narrative.pubpharm.de/news
- https://www.youtube.com/watch?v=0GzIydjts2E