Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Bibliothèques numériques

Renaître les journaux latino-américains du 19ème siècle

Un nouveau jeu de données éclaire les journaux historiques d'Amérique latine.

― 7 min lire


Jeu de données desJeu de données desjournauxlatino-américainsrecherche historique sur les langues.Une ressource cruciale pour la
Table des matières

Cet article parle de l'importance d'étudier les vieux journaux d'Amérique latine, surtout ceux imprimés au 19ème siècle. Les journaux sont des ressources précieuses qui donnent un aperçu des événements politiques, économiques et culturels de leur époque. Cependant, beaucoup de ces journaux ne sont pas facilement accessibles car ils n'ont pas été numérisés ou sont difficiles à lire à cause des méthodes d'impression dépassées et de la mauvaise conservation.

Le besoin d'un nouveau jeu de données

Il y a un manque de collections spécialisées de journaux d'Amérique latine que les chercheurs peuvent utiliser pour des études historiques et linguistiques. Pour combler ce vide, un nouveau jeu de données a été créé avec des textes de divers journaux publiés au 19ème siècle. Ce dataset se concentre principalement sur des journaux d'une région qui comprend des parties de la Colombie moderne, du Panama, du Venezuela et de l'Équateur.

Défis avec les vieux journaux

Un gros défi avec les vieux journaux est de convertir leur contenu imprimé en texte numérique et lisible par machine. Ce processus s'appuie souvent sur la technologie de reconnaissance optique de caractères (OCR). Bien que l'OCR se soit améliorée avec le temps, elle a toujours des difficultés avec les anciens documents qui peuvent avoir de l'encre effacée, des polices inhabituelles ou d'autres problèmes liés à l'âge. Les erreurs d'OCR peuvent poser des problèmes lors de l'analyse du texte plus tard, ce qui rend nécessaire de corriger ces erreurs.

Utiliser la technologie avancée pour la correction

Pour s'attaquer aux problèmes rencontrés avec l'OCR, un modèle de langage large (LLM) a été utilisé. Cet outil peut aider à identifier et corriger des erreurs que l'OCR traditionnel pourrait manquer. En appliquant ce modèle avancé, la précision et la clarté des textes numérisés se sont considérablement améliorées. L'objectif était non seulement de transcrire les textes, mais de s'assurer qu'ils étaient fiables et lisibles pour la recherche future.

Projets connexes

Plusieurs projets ont cherché à numériser et analyser des journaux historiques dans le monde entier. Une initiative importante aux États-Unis est "Chronicling America," qui numérise des journaux historiques pour un accès public. Il y a aussi un projet appelé "Digging into Data Challenge," qui relie les sciences sociales à des documents historiques. Malgré ces initiatives, il reste un vide pour des collections spécialisées de journaux d'Amérique latine du 19ème siècle.

Construction du jeu de données

Le nouveau jeu de données se compose de milliers de pages scannées de divers journaux. Les chercheurs ont extrait ces pages des archives principales de journaux de Colombie. Le dataset a été soigneusement organisé pour s'assurer qu'il puisse être utilisé efficacement pour de futures études. Chaque entrée dans le jeu de données inclut des métadonnées importantes, comme le titre du journal, l'année de publication et un texte spécifique de chaque page.

Traitement des données

Au départ, les images des journaux ont été traitées pour séparer le texte des illustrations. Le modèle Azure AI Vision a ensuite été utilisé pour effectuer l'OCR sur les images de texte. Un examen manuel d'un échantillon de texte a révélé que de nombreuses parties des documents étaient difficiles à lire. Certaines pages contenaient de nombreuses erreurs dues à leur impression, ce qui rendait la transcription délicate.

Structuration du jeu de données pour l'analyse

Une fois les données traitées, elles ont été organisées dans un format structuré qui facilite l'analyse. Chaque entrée du jeu de données a un identifiant, le titre du journal, l'année de publication, la ville et le texte lui-même. Cette méthode permet aux chercheurs de trier et filtrer les textes selon leurs besoins.

Nettoyage des données

Après avoir organisé le jeu de données, les chercheurs ont pris des mesures pour supprimer les doublons et les textes contenant principalement des caractères non alphabétiques. L'objectif était de s'assurer que le jeu de données soit propre et utile pour une analyse plus approfondie. Cette étape de nettoyage est essentielle pour quiconque souhaite travailler avec les données de manière significative.

Le rôle du LLM dans la correction des erreurs

Utiliser un modèle de langage large pour corriger des erreurs d'OCR nécessite une attention particulière. Comme beaucoup de LLM sont entraînés sur un langage moderne, ils peuvent ne pas toujours traiter correctement les textes plus anciens. Ainsi, les chercheurs devaient classifier les Corrections faites par le LLM comme de vraies erreurs d'OCR ou simplement des formes de surface différentes de mots typiquement utilisés au 19ème siècle.

Types de corrections

Le processus de correction impliquait d'identifier plusieurs types de changements :

  1. Changements de forme de surface : Ce sont des variations dans l'orthographe des mots qui reflètent l'usage historique de la Langue. Par exemple, le connecteur "y" (et) était souvent écrit comme "i" dans les textes plus anciens. Ces changements sont significatifs pour comprendre l'évolution de la langue au fil du temps.

  2. Erreurs d'OCR : Ce sont des erreurs faites par le processus d'OCR lui-même. Elles peuvent survenir à cause d'une mauvaise lecture de certains caractères ou de la ponctuation. Il est crucial de les distinguer des variations historiques légitimes dans les formes de mots.

  3. Hallucinations : Ce terme désigne les corrections faites par le LLM qui ne correspondent ni aux formes de surface ni aux erreurs d'OCR valides. De telles corrections devraient être omises du jeu de données final, car elles peuvent déformer le texte original.

Importance des corrections précises

Avoir des corrections précises est essentiel pour les chercheurs qui souhaitent analyser des journaux historiques. Le jeu de données n'est pas juste une simple collection de textes ; il reflète les formes de langue spécifiques et les modèles d'utilisation de l'époque. Comprendre ces détails peut offrir des perspectives sur l'évolution de la langue en Amérique latine.

Directions futures pour le jeu de données

Le jeu de données initial se concentre sur des journaux de la région de la Nouvelle Grenade, mais il y a des plans pour l'étendre. Les futures collections incluront des journaux d'autres pays d'Amérique latine pour créer un jeu de données plus complet. Cela permettra une exploration plus approfondie de la recherche historique et linguistique à travers la région.

Examen des changements linguistiques au fil du temps

En parallèle de l'expansion du jeu de données, les chercheurs prévoient aussi d'analyser les changements dans l'espagnol du 19ème siècle à nos jours. Cette étude peut donner des aperçus sur comment la langue espagnole a évolué dans différentes régions, révélant des tendances dans le vocabulaire, la grammaire et l'utilisation.

Vers l'automatisation

Bien qu'une grande partie du travail de correction d'erreurs ait été fait manuellement, il y a un intérêt à développer des processus plus automatisés. En créant des outils capables d'évaluer l'exactitude de l'OCR sans avoir besoin d'une supervision humaine constante, l'efficacité du cadre de correction peut s'améliorer. Cela permettrait aux chercheurs de se concentrer sur une analyse plus approfondie plutôt que de se laisser submerger par des corrections manuelles.

Conclusion

La création d'un nouveau jeu de données de journaux d'Amérique latine du 19ème siècle représente un pas en avant significatif dans la recherche historique et linguistique. Grâce à des processus de numérisation et de correction soignés, ce jeu de données vise à préserver le registre historique tout en le rendant accessible aux futurs chercheurs. Les efforts continus pour améliorer et élargir cette ressource garantiront qu'elle reste un outil précieux pour comprendre la riche histoire de la langue espagnole et son évolution en Amérique latine.

Plus d'auteurs

Articles similaires