Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Avancer la désambiguïsation des sens des mots visuels

Un système qui associe des images aux significations des mots en utilisant le contexte.

― 8 min lire


Aperçus sur laAperçus sur ladésambiguïsation visuelledes sens des motsmots.des images avec des significations deDes approches innovantes pour associer
Table des matières

La désambiguïsation visuelle des sens des mots (VWSD) consiste à trouver la bonne image qui correspond à une signification spécifique d'un mot en se basant sur une courte description. Ce n'est pas un truc facile, car ça demande de comprendre à la fois le langage et les images.

Le défi du VWSD

Quand on tombe sur un mot, il peut avoir plusieurs significations selon le contexte. Par exemple, le mot "banque" peut désigner une institution financière ou le bord d'une rivière. Dans le VWSD, notre objectif est de choisir la meilleure image parmi un groupe d'options qui correspond à la signification voulue du mot, en tenant compte d'une brève description qui inclut le mot et son contexte.

Dans beaucoup de cas, comme dans les moteurs de recherche d'images ou quand on répond à des questions visuellement, savoir quelle image correspond à la signification du mot peut vraiment améliorer la performance de ces applis.

La tâche à SemEval 2023

Lors d'une compétition récente appelée SemEval 2023, il y avait une tâche axée sur le VWSD. Les participants devaient choisir la meilleure image correspondante parmi dix images candidates, sur la base d'une courte description. Les descriptions incluaient généralement le mot cible et un mot de contexte. Par exemple, dans "arbres d'andromède," "andromède" est le mot cible, et "arbre" donne le contexte, ce qui aide à clarifier quelle signification d'"andromède" est pertinente.

Les organisateurs de la tâche ont fourni trois ensembles de données. Les ensembles de test et d'entraînement étaient en anglais, tandis que l'ensemble de test incluait plusieurs langues : anglais, italien et persan. Les équipes pouvaient soumettre des solutions pour une ou trois langues, et les systèmes étaient classés selon leur précision dans ces catégories.

Notre approche du VWSD

On a développé un système pour la tâche VWSD qui utilise une combinaison de différentes méthodes. Au cœur de notre système se trouvait un classificateur utilisant un modèle connu pour combiner compréhension du langage et visuelle, appelé CLIP. Notre approche incluait aussi des infos supplémentaires de Wikipédia et d'autres bases de données lexicales pour améliorer les résultats.

Dans la compétition, notre système s'est classé troisième dans la catégorie multilingue et a pris la première place dans la partie persane de la tâche. On a rendu notre code et les modèles utilisés publics, pour que d'autres puissent reproduire notre travail.

Vue d'ensemble du système

Notre système VWSD comprend plusieurs composants principaux.

  1. Classificateur basé sur CLIP : Cette partie utilise un modèle qui aligne les images avec le texte. Il évalue chaque image en fonction de sa similitude avec la description donnée. Tandis que le modèle CLIP original a été entraîné sur un immense ensemble de données d'images et de textes, on l'a utilisé d'une manière qui nous a permis de l'appliquer à notre tâche spécifique sans nécessiter d'entraînement supplémentaire.

  2. Module de récupération de Wikipédia : Ce composant aide à trouver des articles Wikipédia pertinents liés au contexte et aux images candidates. On a indexé ces articles pour évaluer comment chaque image correspond à la description.

  3. Modèle de classement (LTR) : Ce modèle prend les sorties des autres parties du système pour créer un classement final des images. Au lieu de simplement utiliser des scores directs, il compare différentes images pour capturer celles qui sont plus pertinentes en fonction de leurs relations.

Utilisation de CLIP pour l'appariement image-texte

CLIP signifie Pré-entraînement contrastif de langage-image. Il fonctionne en créant des représentations pour les images et le texte d'une manière qui permet des comparaisons directes. On utilise une version pré-entraînée de ce modèle, ce qui nous permet d'évaluer à quel point une image et une phrase de contexte s'accordent.

En évaluant une image, on calcule à quel point elle est similaire au contexte donné. Si une image obtient un bon score en comparaison avec de nombreux Contextes, on applique une pénalité pour s'assurer qu'elle ne fausse pas les résultats de manière injuste. De cette façon, le modèle se concentre sur des correspondances plus précises.

Adaptation pour plusieurs langues

Le modèle CLIP original a été conçu principalement pour le texte anglais. Donc, on a dû l'adapter pour l'italien et le persan. Pour ce faire, on a utilisé une technique appelée apprentissage par transfert, qui consiste à entraîner un nouveau modèle de texte qui s'aligne avec les représentations image-texte de l'original CLIP. Cela nous permet de gérer des textes dans plusieurs langues et de créer des représentations vectorielles pour eux.

Pour développer ces encodeurs de texte pour l'italien et le persan, on a utilisé des traductions d'un grand ensemble de données en anglais sur les légendes d'images. Ça impliquait de chercher des données pertinentes dans différentes sources, pour s'assurer que nos ensembles d'entraînement étaient complets.

Augmentation du contexte

On a amélioré la performance de notre système en élargissant le contexte textuel. En utilisant des bases de données lexicales, on a pu ajouter plus de phrases pertinentes à la signification du mot cible. Cette augmentation du contexte améliore les chances de trouver la bonne image.

Par exemple, si on considère "arbre d'andromède", on pourrait aussi ajouter des termes connexes comme "andromède japonaise" ou "buisson". Cela se fait en utilisant plusieurs ressources multilingues, y compris WordNet et Wiktionary, pour trouver des significations supplémentaires ou des synonymes liés au mot cible.

On a mis en œuvre deux méthodes pour faire correspondre le contexte à la signification du mot : correspondance exacte, où on cherche des mots exacts dans les descriptions, et correspondance de similarité, où on compare des mots en fonction de leurs significations représentées comme des vecteurs.

Limitations du modèle CLIP

Bien que le modèle CLIP fonctionne bien, il présente aussi des défis. On a observé quelques problèmes durant notre expérience :

  1. Le modèle obtient de bons scores sur des images avec du texte ou celles qui montrent simplement le mot cible ou un mot de contexte visible, ce qui peut fausser le processus de sélection.

  2. Il excelle avec des images montrant des objets clairs et tangibles, mais a du mal avec des concepts plus abstraits, comme les émotions ou les actions.

  3. Le modèle favorise souvent les significations plus communes des mots, ce qui signifie qu'il peut ne pas choisir la bonne image même lorsqu'on lui donne un contexte supplémentaire.

Méthode de récupération de Wikipédia

En plus du classificateur, on a créé un module qui récupère des infos pertinentes de Wikipédia. On a téléchargé le contenu de Wikipédia et indexé les articles pour évaluer efficacement les paires contextes-images.

En traitant un échantillon, on interroge l'index en utilisant le contexte complet. Si on ne trouve pas d'articles pertinents, on réessaie en utilisant simplement le mot cible. Cela aide à s'assurer qu'on a suffisamment de données pertinentes pour analyser l'appariement de chaque image avec le contexte.

Après avoir récupéré les articles, on télécharge les images associées, les convertit en représentations vectorielles et les compare aux images échantillons pour déterminer les meilleures correspondances.

Apprentissage à classer

Le modèle LTR est une partie cruciale qui affine le classement final des images. Il évalue la qualité des images en fonction des sorties des composants précédents, transformant cela en une tâche de classification de paires d'images.

En comparant ces paires, plutôt que de regarder leurs scores individuellement, le modèle obtient une meilleure compréhension des images qui sont plus pertinentes en fonction de leurs scores et de leurs relations avec le contexte.

Résultats de la compétition

Lors de la tâche SemEval, notre système faisait partie des 54 équipes en compétition. L'évaluation s'est principalement concentrée sur la précision, et on s'est classé troisième au total dans la catégorie multilingue tout en gagnant en persan.

On a aussi réalisé des expériences pour voir comment différentes méthodes et types de modèles affectaient nos résultats. On a testé divers modèles CLIP et méthodes d'expansion du contexte pour s'assurer qu'on utilisait les stratégies les plus efficaces disponibles.

Conclusion

Dans ce résumé, on a présenté une approche à la désambiguïsation visuelle des sens des mots qui combine la compréhension des images et du texte à travers divers modèles et bases de données. Les résultats obtenus mettent en lumière l'efficacité de l'intégration de différentes techniques pour améliorer la précision dans l'identification des bonnes images pour des significations de mots spécifiques.

Les méthodes utilisées pour améliorer les performances de notre système, ainsi que les défis rencontrés, peuvent donner des pistes précieuses pour de futures recherches et développements dans le domaine de la désambiguïsation visuelle des sens des mots et des domaines connexes.

Plus de l'auteur

Articles similaires