Faire avancer la réponse visuelle aux questions avec le dataset Toloka
Un nouveau jeu de données améliore l'apprentissage automatique pour répondre aux questions visuelles avec précision.
― 9 min lire
Table des matières
La question visuelle-réponse (VQA) est un domaine super intéressant en apprentissage automatique où un système essaie de répondre à des questions basées sur des images. Cette tâche consiste à regarder une image et ensuite à trouver la bonne réponse à une question en identifiant des objets spécifiques dans cette image. Pour améliorer ce processus, on a créé un nouveau jeu de données appelé Toloka Visual Question Answering. Ce jeu de données permet aux chercheurs de comparer les Performances des systèmes d'apprentissage automatique avec celles des humains pour identifier des objets dans des images basées sur des questions.
Dans le VQA, chaque paire de question et d'image a une bonne réponse. Dans notre jeu de données, on a plus de 45 000 paires d'images et de questions disponibles pour entraîner et tester des modèles d'apprentissage automatique. L'objectif est que le modèle trouve l'objet correct dans l'image et dessine un rectangle autour, mettant en avant la réponse à la question. Ce travail est important car il repousse les limites de ce que la technologie actuelle peut accomplir en matière de compréhension et de traitement des images.
Vue d'ensemble du jeu de données
Le jeu de données Toloka Visual Question Answering est une grande collection de paires image-question. Chaque image du jeu est liée à une question spécifique, et la réponse consiste à trouver un objet dans cette image. Par exemple, si la question est "Où est-ce que je me lave les mains ?", la bonne réponse serait l'évier dans une photo de salle de bain. Chaque paire image-question est accompagnée d'un rectangle qui montre l'emplacement exact de la réponse dans l'image.
Le jeu de données se compose de 45 199 paires image-question. Ces paires sont réparties en ensembles d'entraînement et de test, ce qui facilite le travail des chercheurs pour entraîner leurs modèles et tester leurs performances. Les images proviennent toutes du jeu de données Microsoft Common Objects in Context (MS COCO), qui est une ressource largement utilisée dans le domaine de la vision par ordinateur.
Importance du jeu de données
Ce jeu de données est important pour plusieurs raisons. D'abord, il représente un défi plus difficile pour les modèles d'apprentissage automatique comparé aux Jeux de données existants. La plupart des benchmarks dans le domaine reposent sur des tâches plus simples ou des types de questions limités. En introduisant un jeu de données qui nécessite de comprendre à la fois les éléments visuels et textuels simultanément, on peut travailler à améliorer les capacités des systèmes d'apprentissage automatique.
Le jeu de données permet aussi une comparaison équitable entre la performance humaine et celle des machines. On a constaté qu'aucun modèle d'apprentissage automatique n'a surpassé les performances des annotateurs humains non-experts lors de nos tests, montrant que bien que les modèles puissent progresser, ils ont encore beaucoup de chemin à faire pour atteindre le niveau de compréhension humaine dans des contextes visuels.
Processus de collecte de données
Le processus de création de ce jeu de données a impliqué une approche de crowdsourcing. On a sélectionné des annotateurs pour les aider à dessiner des rectangles autour des objets et à formuler des questions sur ces objets. Les annotateurs ont été choisis en fonction de leur capacité à communiquer efficacement en anglais et de leur créativité à poser des questions significatives.
Le processus d'annotation a été divisé en plusieurs étapes. D'abord, les annotateurs choisissaient des objets intéressants dans une image et les entouraient de rectangles. Ensuite, ils formulaient des questions liées aux objets sélectionnés. Chaque question devait être simple et directe, visant à inciter quelqu'un à identifier l'objet dans le rectangle.
On a mis un fort accent sur la qualité des Annotations. Après l'annotation initiale, on a eu une étape de vérification où différents annotateurs vérifiaient le travail de leurs pairs pour s'assurer que tout respectait les normes requises. Cette méthode a aidé à maintenir une haute qualité dans notre jeu de données.
Défis dans la question visuelle-réponse
La question visuelle-réponse pose plusieurs défis. Un défi est que les questions peuvent souvent être ambiguës. Par exemple, une question comme "Que peux-tu trouver dans la cuisine ?" ne précise pas quel objet l'interlocuteur s'intéresse. Dans notre jeu de données, 44 % des questions étaient jugées difficiles à répondre sans voir l'image, indiquant que beaucoup de questions reposent fortement sur le contexte visuel.
Un autre défi majeur est lié aux petits objets. Si un objet est petit dans l'image, il peut être difficile tant pour les machines que pour les humains de dessiner un rectangle autour. Notre analyse a montré que les annotateurs avaient plus de mal avec les petits objets comparés aux modèles de machine, soulignant un problème commun dans les tâches de reconnaissance visuelle.
Expérimentation et résultats
Pour évaluer la performance de différents modèles sur notre jeu de données, on a testé plusieurs systèmes d'apprentissage automatique. On a comparé leurs résultats avec les rectangles dessinés par des annotateurs humains. Notre approche utilisait un score d'évaluation spécifique basé sur la mesure de l'aire de recouvrement entre le rectangle prédit et le rectangle de vérité terrain. Ce score nous a aidé à comprendre l'efficacité des performances humaines et machines.
Lors de nos tests, on a aussi organisé une compétition appelée WSDM Cup, où des participants du monde entier utilisaient notre jeu de données pour voir comment leurs modèles pouvaient performer. Malgré quelques participants montrant des améliorations par rapport aux modèles de base, aucun n'a égalé le niveau de performance des annotateurs humains non-experts.
Analyse des erreurs
En examinant les erreurs commises par les modèles humains et machines, on a catégorisé les types d'erreurs observées. Un problème courant était lié aux petits objets. Beaucoup d'erreurs étaient dues à des objets trop petits, rendant difficile leur contour avec des rectangles. D'autres types d'erreurs incluaient des situations où la prédiction était correcte, mais le rectangle n'était pas correctement dessiné, ou la question ne se rapportait pas clairement à l'image.
À travers notre analyse des erreurs, il est devenu clair que comprendre le contexte d'une question et le contenu d'une image est crucial pour réussir la tâche VQA. Cette analyse a aussi révélé que beaucoup d'erreurs étaient causées par des questions ambiguës, montrant un besoin de formuler des questions avec soin dans les futurs jeux de données.
Directions futures
En regardant vers l'avenir, il y a plusieurs pistes qu'on peut explorer pour améliorer le domaine de la question visuelle-réponse. Une zone potentielle est l'expansion du jeu de données. Augmenter le nombre de paires image-question pourrait aider à améliorer la capacité des modèles à se généraliser à travers différents contextes.
On voit aussi des opportunités pour des applications au-delà de l'évaluation des modèles d'apprentissage automatique. Le jeu de données pourrait être utile dans des domaines comme les moteurs de recherche visuels, où pouvoir localiser des objets avec précision peut améliorer les résultats de recherche. De plus, dans la réalité augmentée, comprendre et reconnaître des objets dans des images du monde réel permettrait une meilleure intégration de contenus virtuels.
En plus, il y a beaucoup à apprendre sur les biais présents dans le jeu de données. Bien que notre jeu de données ait été créé avec soin, on reconnaît que des biais liés au genre, à la race et à d'autres facteurs peuvent encore exister. S'attaquer à ces problèmes est crucial pour assurer des applications d'apprentissage automatique justes et sans biais.
Impacts négatifs potentiels
Bien que notre travail ait de nombreuses applications positives, il est important de considérer les impacts négatifs potentiels. Les modèles formés sur ce jeu de données pourraient renforcer les biais existants s'ils ne sont pas explicitement traités. Par exemple, si certains groupes sont sous-représentés dans le jeu de données, les modèles pourraient ne pas bien performer ou produire des résultats biaisés lorsqu'ils sont confrontés à des données de ces groupes.
De plus, à mesure que les modèles d'apprentissage automatique deviennent plus sophistiqués, il y a un risque qu'ils soient mal utilisés. Il est essentiel de mettre en œuvre des lignes directrices et des mesures de protection pour prévenir les applications non éthiques, comme l'intrusion dans la vie privée ou la perpétuation de stéréotypes nuisibles.
Conclusion
Le jeu de données Toloka Visual Question Answering représente une avancée significative dans le domaine de la question visuelle-réponse. En fournissant une ressource complète pour former et tester des modèles d'apprentissage automatique, il ouvre de nouvelles possibilités pour la recherche et l'application. Bien qu'il existe des défis, tels que des questions ambiguës et de petits objets, ces obstacles représentent aussi des opportunités d'innovation.
Pour l'avenir, on s'efforce d'améliorer le jeu de données, de développer de meilleurs modèles et d'explorer les applications plus larges de la question visuelle-réponse dans la technologie. En travaillant ensemble au sein de la communauté de recherche, on peut débloquer de nouvelles possibilités pour l'apprentissage automatique et la vision par ordinateur qui bénéficient à la société dans son ensemble.
Titre: Toloka Visual Question Answering Benchmark
Résumé: In this paper, we present Toloka Visual Question Answering, a new crowdsourced dataset allowing comparing performance of machine learning systems against human level of expertise in the grounding visual question answering task. In this task, given an image and a textual question, one has to draw the bounding box around the object correctly responding to that question. Every image-question pair contains the response, with only one correct response per image. Our dataset contains 45,199 pairs of images and questions in English, provided with ground truth bounding boxes, split into train and two test subsets. Besides describing the dataset and releasing it under a CC BY license, we conducted a series of experiments on open source zero-shot baseline models and organized a multi-phase competition at WSDM Cup that attracted 48 participants worldwide. However, by the time of paper submission, no machine learning model outperformed the non-expert crowdsourcing baseline according to the intersection over union evaluation score.
Auteurs: Dmitry Ustalov, Nikita Pavlichenko, Sergey Koshelev, Daniil Likhobaba, Alisa Smirnova
Dernière mise à jour: 2023-09-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.16511
Source PDF: https://arxiv.org/pdf/2309.16511
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://cocodataset.org/
- https://doi.org/10.5281/zenodo.7057740
- https://huggingface.co/datasets/toloka/WSDMCup2023
- https://www.kaggle.com/datasets/dustalov/toloka-wsdm-cup-2023-vqa
- https://github.com/Toloka/WSDMCup2023
- https://docs.google.com/drawings/d/1xAlfzQMwOeM9FaPxyRLYsJVeTRvEh4Q8k3pCO353VIA/edit?usp=sharing
- https://toloka-cdn.azureedge.net/wsdmcup2023/000000535978.jpg
- https://www.wsdm-conference.org/2023/program/wsdm-cup
- https://codalab.lisn.upsaclay.fr/competitions/7434
- https://toloka.ai/challenges/wsdm2023/