Rendre le catalogage plus simple dans les institutions culturelles
Un dataset vise à automatiser le balisage des métadonnées pour les organisations du patrimoine culturel.
― 8 min lire
Table des matières
- C'est quoi le dataset EUFCC-340K ?
- L'importance de l'annotation automatique des métadonnées
- Défis dans l'annotation automatique des métadonnées
- Comment le dataset EUFCC-340K répond à ces défis
- Construire des modèles pour le tagging d'images
- Modèles uniquement visuels
- Modèles multimodaux
- Évaluation de la performance des modèles
- Résultats des modèles
- Un outil d'assistance pour les catalogues
- Résumé et futures directions
- Source originale
- Liens de référence
GLAM ça veut dire Galeries, Bibliothèques, Archives et Musées. Ces endroits collectent et gardent des trucs importants pour la culture et l'histoire. Ils essaient de protéger ces objets et de les rendre accessibles aux chercheurs et au public. Mais le catalogage de tout ça, c'est un vrai casse-tête. Ça demande souvent des experts qui ajoutent manuellement des Métadonnées, c'est-à-dire des infos qui décrivent ce qu'il y a dans l'objet. Ça peut être dur à gérer et ça prend un temps fou.
À cause de tous ces défis, on a besoin de meilleurs outils et systèmes pour automatiser une partie de tout ça. Le but de ces outils, c'est de faciliter la vie des experts en accélérant le processus de catalogage tout en gardant une précision élevée.
C'est quoi le dataset EUFCC-340K ?
Pour répondre à ces besoins, on a créé un dataset appelé EUFCC-340K. Ce dataset contient plus de 340 000 images collectées à partir d'une ressource en ligne centrale pour les matériaux culturels, appelée Europeana. Les images dans le dataset couvrent plein de types d'objets différents, comme des œuvres d'art, des sculptures et des textiles. Chaque image du dataset est étiquetée avec divers tags qui décrivent le contenu et le contexte de l'image.
Le dataset est organisé en différentes catégories, ce qui le rend plus facile à gérer et à naviguer. Les catégories incluent Matériaux, Types d'Objets, Disciplines et Sujets. Ces catégories suivent un système structuré basé sur le “Thésaurus de l'Art & de l'Architecture” (AAT), qui est un cadre qui décrit les termes utilisés dans le domaine de l'art et de la culture.
L'importance de l'annotation automatique des métadonnées
L'annotation automatique des métadonnées, c'est le processus d'utilisation de la technologie pour générer les étiquettes et les tags pour les images sans intervention humaine. Ça peut vraiment aider les institutions GLAM à cataloguer leurs collections plus rapidement et avec plus de précision. Beaucoup d'objets dans une collection peuvent appartenir à plusieurs catégories ou étiquettes. Ça veut dire qu'une seule image peut avoir plein de tags associés.
Avant, c'était surtout les experts qui assignaient ces étiquettes. Mais le processus manuel peut être long, surtout quand il y a plein d'objets à cataloguer. En utilisant un dataset comme EUFCC-340K et des modèles d'apprentissage machine avancés, on peut automatiser une grande partie de ce processus. Ça permet aux experts de se concentrer sur des tâches plus complexes pendant que la techno gère le gros du boulot.
Défis dans l'annotation automatique des métadonnées
Alors, même si utiliser la technologie pour l'annotation automatique paraît génial, ça a aussi ses propres défis. Un problème, c'est qu'il y a souvent plein de tags à prendre en compte pour chaque objet. L'AAT a des milliers de termes, mais beaucoup de ces termes n'ont pas assez d'images pour bien entraîner un modèle. C'est problématique, car certaines catégories peuvent avoir trop peu d'exemples, ce qui rend difficile pour les modèles d'apprendre à étiqueter de nouvelles images avec précision.
Un autre souci, c'est que différents experts peuvent assigner des tags différents à la même image. Par exemple, un expert peut choisir de mettre en avant un ensemble de caractéristiques, tandis qu'un autre pourrait trouver d'autres aspects de la même image plus pertinents. Ça conduit à des annotations incomplètes, où les étiquettes ne couvrent pas tout ce qui est important à propos d'un objet.
Comment le dataset EUFCC-340K répond à ces défis
Pour lutter contre ces défis, le dataset EUFCC-340K a été conçu spécifiquement pour le tagging d'images dans le contexte GLAM. En collectant des images de plusieurs institutions européennes, on s'est assuré que le dataset est diversifié et reflète les différents types d'artefacts culturels qui existent.
La structure hiérarchique utilisée dans le dataset est bénéfique pour les modèles d'apprentissage machine. Quand il n'y a pas beaucoup d'images pour une catégorie spécifique, avoir une catégorie de haut niveau permet aux modèles de faire des prédictions basées sur des tags associés. En utilisant cette hiérarchie, on peut aider les modèles à mieux comprendre les relations entre les tags, rendant les prédictions plus précises, même avec des données limitées.
Construire des modèles pour le tagging d'images
On a créé différents modèles de base pour tester à quel point ils pouvaient étiqueter des images en utilisant le dataset EUFCC-340K. Les modèles vont de simples qui regardent juste les images à des plus complexes qui prennent aussi en compte des descriptions textuelles.
Modèles uniquement visuels
Le premier type s'appelle des modèles uniquement visuels. Ces modèles sont basés sur une structure de deep learning connue sous le nom de Réseau de Neurones Convolutionnels (CNN). Les CNN sont super pour analyser les images et sont utilisés pour identifier différentes caractéristiques dans les photos. On a étendu ces modèles en ajoutant plusieurs têtes qui se concentrent sur différentes catégories de tagging comme Matériaux, Types d'Objets, Disciplines et Sujets.
Modèles multimodaux
Le deuxième type de modèle intègre à la fois les images et le texte, connus sous le nom de modèles multimodaux. Un de ces modèles s'appelle CLIP, qui signifie Pré-entraînement Contrastif Langage-Image. Ce modèle peut comprendre comment les images et le texte sont liés. Par exemple, si une image montre une sculpture en bronze, le modèle peut l'identifier en apprenant grâce au tag "bronze".
Des prompts textuels sont utilisés pour relier les tags aux images, et différentes stratégies sont employées pour créer ces prompts. En entraînant ce modèle à lier texte et images, on a exploré différentes façons d'améliorer sa capacité à faire des prédictions précises.
Évaluation de la performance des modèles
Pour voir à quel point ces modèles fonctionnent bien, on avait besoin d'évaluer leur performance en fonction de leur capacité à prédire correctement des tags. On a utilisé différentes métriques pour mesurer l'efficacité de chaque modèle. Ces métriques se concentrent sur la capacité des modèles à identifier les bons tags et à les classer.
Par exemple, la R-Précision évalue la capacité du modèle à identifier des tags pertinents parmi les meilleures prédictions. Ça nous aide à comprendre à quel point les modèles sont précis lorsqu'on regarde les étiquettes les plus pertinentes qu'ils fournissent pour une image.
Résultats des modèles
Quand on a mis les modèles à l'épreuve sur les images du dataset EUFCC-340K, on a vu des résultats intéressants. Les modèles utilisant seulement des images ont plutôt bien fonctionné sur le dataset d'entraînement qui ressemblait à ce qu'ils avaient déjà vu. Par contre, ils ont plus galéré face à des images différentes de leurs exemples d'entraînement.
À l'inverse, les modèles multimodaux, surtout les modèles CLIP, ont montré une meilleure généralisation lorsqu'ils ont été testés sur de nouveaux types d'images. Ça veut dire qu'ils pouvaient aller au-delà de leurs données d'entraînement et continuer à faire des prédictions précises. De plus, les modèles qui combinaient les résultats des deux types ont encore mieux fonctionné, suggérant qu'utiliser plusieurs approches peut améliorer la performance globale.
Un outil d'assistance pour les catalogues
Pour profiter au maximum des modèles, on a développé un outil d'assistance à l'annotation spécialement conçu pour les cataloguers dans les institutions GLAM. Cet outil propose une interface conviviale pour aider les experts à taguer efficacement les images.
L'outil présente la structure hiérarchique des tags et montre des prédictions basées sur les images téléchargées. Il met en avant les prédictions les plus pertinentes, rendant plus facile pour les catalogeurs de naviguer à travers diverses catégories. En simplifiant ce processus, l'outil permet aux experts de se concentrer sur le perfectionnement des détails plutôt que de partir de zéro.
Résumé et futures directions
La recherche menée grâce au dataset EUFCC-340K met en lumière le potentiel d'utiliser la technologie pour améliorer l'efficacité du catalogage dans les institutions GLAM. Le dataset sert de ressource précieuse pour l'annotation automatique, répondant aux problèmes courants de données rares et de tags incomplets.
Bien que nos modèles aient fait des progrès significatifs, il reste encore des améliorations à apporter, surtout en ce qui concerne la généralisation. Les futures recherches peuvent explorer d'autres moyens d'améliorer les modèles et de peaufiner l'outil d'assistance pour aider encore plus les catalogeurs dans leur travail.
En conclusion, l'intégration d'outils avancés dans le processus de catalogage offre des solutions prometteuses aux défis de longue date auxquels font face les institutions GLAM. Le dataset EUFCC-340K est une étape essentielle pour utiliser la technologie afin de soutenir les professionnels du patrimoine culturel et garantir que des collections précieuses peuvent être facilement accessibles à tous.
Titre: EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections
Résumé: In this paper, we address the challenges of automatic metadata annotation in the domain of Galleries, Libraries, Archives, and Museums (GLAMs) by introducing a novel dataset, EUFCC340K, collected from the Europeana portal. Comprising over 340,000 images, the EUFCC340K dataset is organized across multiple facets: Materials, Object Types, Disciplines, and Subjects, following a hierarchical structure based on the Art & Architecture Thesaurus (AAT). We developed several baseline models, incorporating multiple heads on a ConvNeXT backbone for multi-label image tagging on these facets, and fine-tuning a CLIP model with our image text pairs. Our experiments to evaluate model robustness and generalization capabilities in two different test scenarios demonstrate the utility of the dataset in improving multi-label classification tools that have the potential to alleviate cataloging tasks in the cultural heritage sector.
Auteurs: Francesc Net, Marc Folia, Pep Casals, Andrew D. Bagdanov, Lluis Gomez
Dernière mise à jour: 2024-06-04 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.02380
Source PDF: https://arxiv.org/pdf/2406.02380
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.