Lier les données des musées aux technologies anciennes
Des chercheurs améliorent le lien entre les entités pour mieux analyser les collections de musées.
― 7 min lire
Table des matières
- Le défi des données textuelles
- Notre travail
- Création de l'ensemble de données
- Utilisation d'une base de connaissances spécialisée
- Le processus d'Annotation
- Défis de la liaison d'entités
- Systèmes de référence
- Évaluation des performances
- Un exemple concret
- Recherche connexe
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Les chercheurs en sciences sociales et en humanités utilisent de grandes quantités de données textuelles pour étudier divers problèmes sociaux, économiques et historiques. Cependant, beaucoup de méthodes disponibles aujourd'hui pour traiter ces données sont basées sur des techniques générales qui ne fonctionnent pas forcément bien pour des sujets spécifiques. Cet article discute de la façon dont les méthodes modernes peuvent être utilisées pour lier des entités aux données des collections de musées, en se concentrant sur les technologies anciennes.
Le défi des données textuelles
Avant, étudier de grandes quantités de données textuelles nécessitait que des experts passent à travers les données à la main. Ce processus était long et coûteux. Par exemple, il existe une base de données appelée Human Relations Area Files qui a des infos provenant des études culturelles, et même aujourd'hui, les experts continuent de l'enrichir. Récemment, de meilleurs outils sont devenus disponibles grâce aux avancées en Traitement du langage naturel (NLP), ce qui aide à analyser les données textuelles plus efficacement. Cependant, ces outils reposent souvent sur des bases de connaissances générales comme Wikipedia, qui ne s'appliquent pas toujours bien aux sujets spécifiques en sciences sociales.
Notre travail
L'objectif de ce travail est d'aider les chercheurs à mieux utiliser les avancées récentes en NLP en améliorant la façon dont on lie les entités dans les données de musées. On a créé un ensemble de données de plus de 1 700 textes liés aux artefacts de musée, avec un total de plus de 7 500 paires mention-entity, et on a évalué différentes méthodes actuelles par rapport à ces données.
On s'est concentré sur le Getty Arts and Architecture Thesaurus, qui est un vocabulaire spécialisé pour les objets du patrimoine culturel, y compris les matériaux, objets et techniques. Nos résultats montrent que notre modèle amélioré peut largement surpasser des méthodes plus simples actuellement disponibles.
Création de l'ensemble de données
Pour créer notre ensemble de données, on a collecté des descriptions provenant de divers musées, y compris des institutions comme le British Museum et le Smithsonian. Chaque objet a différents champs textuels, comme des titres et des descriptions détaillées. Comme certaines de ces descriptions peuvent se répéter ou être trop similaires, on a échantillonné différents types de champs textuels pour éviter la redondance.
On a annoté manuellement une partie de notre ensemble de données avec des étiquettes de Liaison d'entités. Étant donné que certains matériaux peuvent apparaître plus fréquemment que d'autres, on a assuré une variété d'étiquettes en utilisant un processus d'échantillonnage stratifié.
Utilisation d'une base de connaissances spécialisée
Contrairement à la plupart des applications de liaison d'entités qui utilisent Wikipedia, on a lié les entités au Getty AAT, qui a plus de 50 000 termes spécifiquement liés à l'art et à la culture. Cette base de connaissances est plus focalisée et détaillée pour les sujets que l'on étudie. Par exemple, là où Wikipedia peut fournir des définitions larges, AAT offre des classifications spécifiques qui sont cruciales pour des études détaillées.
Le processus d'Annotation
Notre processus d'annotation impliquait de répartir les textes uniformément entre quatre personnes formées pour étiqueter correctement les mentions. On a eu des discussions pour s'assurer que les étiquettes étaient cohérentes. Malgré nos efforts, on a constaté qu'il y avait encore de l'ambiguïté dans la tâche. L'ensemble de données annoté final contenait 1 728 chaînes et a été utilisé pour affiner les modèles selon nos besoins spécifiques.
Défis de la liaison d'entités
Notre ensemble de données présente plusieurs défis pour la liaison d'entités :
Le contexte compte : Dans de nombreux cas, le contexte est crucial pour choisir la bonne entité. Souvent, le même mot peut renvoyer à différents concepts selon le texte environnant.
Noms diversifiés : Certaines étiquettes ne correspondent pas précisément au texte. Certaines descriptions peuvent faire référence à la même idée mais utiliser des formulations différentes, ce qui complique la liaison.
Mentions qui se chevauchent : Parfois, une mention peut contenir des parties qui correspondent à des entités distinctes, rendant leur étiquetage clair difficile.
Taxonomie incomplète : Il y a des cas où un objet appartient à une catégorie pertinente, mais cette catégorie n'est pas incluse dans l'AAT.
Systèmes de référence
Pour évaluer l'efficacité de nos nouvelles méthodes, on les a comparées aux solutions existantes. On a utilisé diverses approches, allant de la simple correspondance de chaînes à des modèles d'apprentissage automatique avancés. Certaines méthodes reposaient simplement sur des relations prédéfinies, tandis que d'autres tentaient d'utiliser le contexte pour améliorer les résultats.
Méthodes simples
En utilisant une approche de correspondance de chaînes basique, on a créé un modèle capable d'identifier les mentions dans les textes sans traitement complexe. Cette méthode était simple mais manquait souvent un contexte crucial.
Méthodes avancées
On a exploré plusieurs systèmes avancés, y compris un appelé ELQ, qui peut à la fois trouver des mentions et les lier à des entités. Ce système visait à améliorer les modèles de question-réponse et a été adapté à nos besoins spécifiques.
Évaluation des performances
On a examiné trois domaines principaux pour évaluer les méthodes : détecter les mentions avec précision, les lier correctement aux bonnes entités, et bien performer dans un processus de bout en bout. Les résultats ont montré que même les modèles avancés ont mal performé lorsqu'ils n'étaient pas spécifiquement adaptés à notre ensemble de données.
Cependant, le réglage du modèle ELQ a considérablement amélioré ses résultats, démontrant principalement sa capacité à s'adapter à de nouvelles données non vues. Notamment, les résultats ont aussi mis en évidence des domaines à améliorer dans les modèles futurs.
Un exemple concret
On a appliqué notre méthode à une large collection qui incluait plus de 2,7 millions d'objets. On a catégorisé ces objets en fonction de leur importance technologique, cartographié leurs emplacements, et visualisé comment les technologies se sont répandues au fil du temps. Cette application pratique démontre comment lier des entités peut révéler des insights importants sur les avancées historiques en technologie.
Recherche connexe
La liaison d'entités a trouvé une utilisation dans divers domaines scientifiques, y compris la biomédecine et les sciences sociales. De plus en plus, les chercheurs se tournent vers les données textuelles pour offrir des insights sur divers sujets, s'appuyant sur des méthodes allant de la simple catégorisation à des techniques plus complexes.
Directions futures
Notre recherche se concentre sur les textes en anglais et le vocabulaire AAT, mais on voit des possibilités d'expansion dans d'autres langues et vocabulaires. De plus, on pourrait incorporer des images associées aux objets de musée, ce qui pourrait améliorer l'exactitude en utilisant une combinaison de photos et de données textuelles.
Conclusion
En résumé, on a démontré que des méthodes de liaison avancées pouvaient améliorer significativement l'analyse de Jeux de données spécifiques, comme ceux provenant de musées. Notre travail souligne le potentiel d'utiliser des outils modernes de NLP pour améliorer la compréhension et la classification des données du patrimoine culturel, offrant des insights précieux sur les avancées historiques et technologiques.
Titre: Evaluating end-to-end entity linking on domain-specific knowledge bases: Learning about ancient technologies from museum collections
Résumé: To study social, economic, and historical questions, researchers in the social sciences and humanities have started to use increasingly large unstructured textual datasets. While recent advances in NLP provide many tools to efficiently process such data, most existing approaches rely on generic solutions whose performance and suitability for domain-specific tasks is not well understood. This work presents an attempt to bridge this domain gap by exploring the use of modern Entity Linking approaches for the enrichment of museum collection data. We collect a dataset comprising of more than 1700 texts annotated with 7,510 mention-entity pairs, evaluate some off-the-shelf solutions in detail using this dataset and finally fine-tune a recent end-to-end EL model on this data. We show that our fine-tuned model significantly outperforms other approaches currently available in this domain and present a proof-of-concept use case of this model. We release our dataset and our best model.
Auteurs: Sebastian Cadavid-Sanchez, Khalil Kacem, Rafael Aparecido Martins Frade, Johannes Boehm, Thomas Chaney, Danial Lashkari, Daniel Simig
Dernière mise à jour: 2023-05-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.14588
Source PDF: https://arxiv.org/pdf/2305.14588
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.