Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Faire avancer le questionnement visuel multilingue

Un nouveau jeu de données améliore le VQA en vietnamien, anglais et japonais.

― 6 min lire


Aperçus du défi VQAAperçus du défi VQAmultilinguequestionnement d'image multilingue.Résultats clés du défi EVJVQA sur le
Table des matières

La réponse à des questions visuelles (VQA) est une tâche qui combine deux domaines d'étude : le traitement du langage naturel (NLP) et la vision par ordinateur (CV). Ça consiste à poser des questions sur des images et à recevoir des réponses qui se rapportent spécifiquement au contenu de ces images. Cette approche offre un moyen naturel aux gens de chercher des infos, ce qui la rend utile dans plein de domaines de la vie, de l'éducation et du travail. Traditionnellement, la plupart des recherches en VQA se sont concentrées sur l'anglais, qui a plein de ressources et de Modèles. Mais il y a besoin d'étendre ces recherches à d'autres langues, surtout celles avec moins de ressources.

Aperçu du défi EVJVQA

Le défi EVJVQA a été organisé pour faire avancer le domaine du VQA multilingue. Un nouveau jeu de données appelé EVJVQA a été créé, contenant plus de 33 000 paires question-réponse dans trois langues : vietnamien, anglais et japonais. Ce jeu de données est basé sur environ 5 000 images prises au Vietnam, ce qui le rend unique et culturellement pertinent. Le défi a attiré 62 équipes de différentes universités et organisations, toutes visant à améliorer les modèles VQA multilingues. Les meilleures équipes ont obtenu des scores élevés, spécifiquement 0,4392 en score F1 et 0,4009 en BLUE sur le jeu de test privé.

Création du jeu de données

Collecte d'images

La création du jeu de données EVJVQA a commencé par la collecte d'images qui représentent la culture et la vie quotidienne vietnamiennes. L'équipe a utilisé divers mots-clés liés aux lieux vietnamiens, comme les rues, les marchés et les sites culturels, pour rassembler des images sur Internet. Après avoir collecté plusieurs images, elles ont filtré celles qui ne répondaient pas aux normes de qualité, ne gardant que celles avec des détails clairs.

Génération de questions et réponses

Ensuite, l'équipe s'est concentrée sur la création de questions et de réponses pour les images. Au début, les questions et réponses ont été générées en vietnamien par un groupe de travailleurs. Chaque travailleur avait pour mission de créer plusieurs paires question-réponse basées sur ce qu'ils voyaient dans les images. Les directives exigeaient que les réponses soient formulées en phrases complètes, et certaines restrictions étaient imposées sur les types de questions et réponses pouvant être créées.

Une fois les QAs vietnamiens complètes, elles ont été traduites en anglais et en japonais par des traducteurs qualifiés pour garantir l'exactitude culturelle et linguistique. L'ensemble du processus visait à créer un ensemble diversifié et de haute qualité de paires question-réponse dans les trois langues.

Structure et règles du défi

Le défi lui-même permettait à chaque équipe de soumettre jusqu'à trois méthodes différentes pour évaluation. Les équipes utilisaient des ensembles d'entraînement et de test publics pour affiner leurs modèles avant de faire face à une phase de test privé. Ce dispositif était crucial pour mesurer l'efficacité des différentes approches du VQA multilingue.

Système de référence

Pour le système de référence, l'équipe a utilisé des modèles appelés Vision Transformer (ViT) et mBERT. Le modèle ViT a aidé à extraire des fonctionnalités visuelles importantes des images, tandis que mBERT a été utilisé pour comprendre et générer des réponses textuelles aux questions sur ces images. Les équipes ont travaillé à optimiser leurs systèmes de référence pour améliorer leurs performances pendant le défi.

Résultats et performances

Plusieurs équipes ont participé au défi, soumettant divers modèles. Les résultats ont montré comment différents modèles ont performé, avec une attention particulière portée à la longueur des questions et réponses. On a observé que la plupart des modèles ont mieux fonctionné sur des questions plus courtes mais ont rencontré des difficultés avec les plus longues. De plus, les réponses données par les modèles répétaient souvent des parties des questions, ce qui a conduit à des scores plus élevés malgré des inexactitudes potentielles.

Analyse des résultats

L'analyse des résultats s'est concentrée sur plusieurs facteurs clés, dont la longueur des questions, la longueur des réponses et l'utilisation de caractéristiques linguistiques spécifiques comme la couleur et la direction. Beaucoup de modèles ont eu du mal à identifier exactement les objets ou détails dans les images, principalement à cause des limites des modèles pré-entraînés utilisés dans leurs systèmes.

Couleur et direction dans les réponses

Les mots de couleur et les termes directionnels étaient essentiels pour répondre aux questions avec précision. Cependant, de nombreux modèles soumis ont montré une tendance à se fier à des couleurs ou directions plus communes, ignorant les détails spécifiques des images qu'ils analysaient. Ce biais a mis en évidence le besoin de modèles plus robustes qui pourraient mieux comprendre et interpréter les images dans le contexte vietnamien.

Défis de reconnaissance d'objets

Un défi majeur noté était l'incapacité des modèles à reconnaître divers objets couramment trouvés dans la culture vietnamienne. Beaucoup de modèles d'images pré-entraînés n'étaient pas adaptés aux types d'images dans le jeu de données, ce qui a affecté la performance des modèles pendant le défi.

Conclusion et travail futur

Le défi EVJVQA a ouvert de nouvelles voies pour la recherche sur la réponse à des questions basées sur des images multilingues. Bien que la tâche présente des défis considérables, la collaboration entre différentes équipes a encouragé les avancées dans la conception de modèles capables de mieux gérer les tâches multilingues.

Pour l'avenir, l'accent sera mis sur l'amélioration de la qualité et du volume des questions annotées disponibles pour l'entraînement. Il y aura aussi des efforts pour créer des questions adversariales humaines qui peuvent tester les limites des modèles VQA actuels.

Le succès du défi EVJVQA démontre le potentiel des systèmes VQA multilingues et leur importance pour franchir les barrières linguistiques tout en offrant une meilleure compréhension des contextes culturels dans les données visuelles.

Source originale

Titre: EVJVQA Challenge: Multilingual Visual Question Answering

Résumé: Visual Question Answering (VQA) is a challenging task of natural language processing (NLP) and computer vision (CV), attracting significant attention from researchers. English is a resource-rich language that has witnessed various developments in datasets and models for visual question answering. Visual question answering in other languages also would be developed for resources and models. In addition, there is no multilingual dataset targeting the visual content of a particular country with its own objects and cultural characteristics. To address the weakness, we provide the research community with a benchmark dataset named EVJVQA, including 33,000+ pairs of question-answer over three languages: Vietnamese, English, and Japanese, on approximately 5,000 images taken from Vietnam for evaluating multilingual VQA systems or models. EVJVQA is used as a benchmark dataset for the challenge of multilingual visual question answering at the 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022). This task attracted 62 participant teams from various universities and organizations. In this article, we present details of the organization of the challenge, an overview of the methods employed by shared-task participants, and the results. The highest performances are 0.4392 in F1-score and 0.4009 in BLUE on the private test set. The multilingual QA systems proposed by the top 2 teams use ViT for the pre-trained vision model and mT5 for the pre-trained language model, a powerful pre-trained language model based on the transformer architecture. EVJVQA is a challenging dataset that motivates NLP and CV researchers to further explore the multilingual models or systems for visual question answering systems. We released the challenge on the Codalab evaluation system for further research.

Auteurs: Ngan Luu-Thuy Nguyen, Nghia Hieu Nguyen, Duong T. D Vo, Khanh Quoc Tran, Kiet Van Nguyen

Dernière mise à jour: 2024-04-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2302.11752

Source PDF: https://arxiv.org/pdf/2302.11752

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires