Avancées dans la Question-Réponse Visuelle avec Connaissances Extérieures
De nouvelles méthodes améliorent la façon dont les systèmes répondent aux questions basées sur des images en utilisant des connaissances externes.
― 6 min lire
Table des matières
La question-réponse visuelle avec connaissances externes (OK-VQA) est une tâche où les gens posent des questions sur des images et doivent trouver des réponses qui vont au-delà de ce que l'image montre. Dans ce cas, les questions s'appuient sur des connaissances externes qui ne sont pas présentes dans le contenu visuel seul. Par exemple, si quelqu'un montre une photo d'un chat et demande : "À quelle distance cet animal peut-il sauter ?", la réponse nécessite plus que ce qui peut être observé juste dans l'image. Ça nécessite des connaissances sur les chats qu'on peut trouver dans des sources externes comme des livres ou des articles.
Pour que l'OK-VQA fonctionne bien, les systèmes doivent être capables de récupérer des documents pertinents contenant cette connaissance externe. Cela implique d'utiliser à la fois l'image et le texte de la question pour trouver la bonne info.
Le défi de la Récupération de documents
Les méthodes actuelles utilisées pour l'OK-VQA reposent souvent sur des modèles complexes qui se composent de deux parties : une manière de comprendre la requête multimodale (qui inclut à la fois des images et du texte) et une méthode séparée pour traiter les documents textuels. Ces montages nécessitent généralement beaucoup de données d'entraînement pour être efficaces. Ça peut poser problème parce que rassembler de grandes quantités de données étiquetées est chronophage et coûteux.
Pour surmonter ce souci, des chercheurs ont proposé de créer un système qui peut générer automatiquement des données d'entraînement. Ce système aide à améliorer la performance de ces Modèles de récupération sans avoir besoin d'énormes quantités de données étiquetées manuellement.
Le Processus de génération de données
Le processus de génération de données automatique commence par la sélection d'une collection d'images, comme le dataset MS COCO, qui a une grande variété de photos. À partir de ces images, des légendes sont générées à l'aide d'un modèle d'apprentissage automatique entraîné pour décrire visuellement en mots. Chaque légende générée agit comme une requête pour trouver des textes pertinents dans une grande collection, comme Wikipédia.
Une fois que les passages de texte pertinents sont récupérés, les chercheurs extraient des réponses potentielles - principalement des phrases nominales - et créent des questions basées sur ces réponses. Par exemple, à partir d'un passage sur les chats, le système pourrait extraire "chat siamois" comme une réponse possible et générer une question comme "Quel type de chat est-ce ?".
Pour garantir la qualité des questions, un modèle vérifie si les questions sont répondables sur la base des textes récupérés, éliminant ainsi celles de mauvaise qualité. Ça aide à créer un ensemble de données solide qui se compose de paires question-image, qui peuvent ensuite être utilisées pour entraîner les modèles efficacement.
Amélioration des modèles de récupération
L'ensemble de données généré est ensuite utilisé pour entraîner des modèles de récupération denses. Ces modèles apprennent à faire correspondre les requêtes multimodales avec les passages textuels. Le processus de récupération est amélioré grâce à des techniques avancées qui permettent au système de comprendre les connexions entre les questions, les images et les sources de connaissances externes.
Cette configuration d'entraînement aboutit à des modèles capables de récupérer des passages pertinents beaucoup mieux que les approches précédentes. Dans les tests, ces modèles ont montré des améliorations significatives dans la façon dont ils exécutent les tâches OK-VQA, surtout dans des situations où ils n'avaient pas rencontré de données similaires auparavant (scénarios à zéro coup).
Résultats expérimentaux et découvertes
Dans des expériences, la nouvelle méthode de génération de données a entraîné des augmentations notables des métriques de performance par rapport aux modèles existants. Par exemple, une mesure standard connue sous le nom de Precision@5 (qui vérifie combien des cinq premiers documents récupérés sont pertinents) a montré des améliorations d'environ 27 % en utilisant le nouveau pipeline d'entraînement.
Les modèles qui ont été pré-entraînés avec les données générées ont surpassé ceux qui n'avaient pas cette phase de pré-entraînement. Ils ont également atteint un point de stabilité dans la performance après avoir été exposés à seulement la moitié des données supervisées disponibles, indiquant que la nouvelle approche réduit efficacement le besoin de grands ensembles de données étiquetées.
Applications de l'OK-VQA
Les implications des systèmes OK-VQA s'étendent à diverses applications pratiques. Par exemple, des acheteurs pourraient prendre des photos de produits et demander des spécifications ou des alternatives. Dans l'éducation, les étudiants pourraient interroger des visuels dans des manuels scolaires, demandant des clarifications ou plus d'infos qui ne sont pas détaillées dans l'image elle-même.
De plus, la technique peut être appliquée dans des domaines comme la conservation et l'interprétation artistique, où les utilisateurs peuvent s'informer sur des contextes historiques ou des significations basées sur des images d'artefacts ou d'œuvres d'art.
Directions futures
Cette recherche ouvre la voie à de futurs développements dans le domaine de la question-réponse visuelle. Bien que l'accent soit actuellement mis sur des scénarios où les requêtes combinent images et questions pour récupérer du texte pertinent, des travaux futurs pourraient explorer l'intégration d'autres formes de données et améliorer les modèles pour gérer un éventail plus large de tâches.
Un domaine notable pour l'amélioration est de s'attaquer aux limitations présentes dans les ensembles de données actuels. En incorporant une plus grande variété d'images dans le processus d'entraînement, les modèles pourraient être en mesure de mieux performer dans différentes catégories qui ne sont pas suffisamment représentées dans les collections existantes.
En conclusion, l'OK-VQA présente un défi passionnant pour relier les entrées visuelles avec des connaissances externes. Les avancées dans la génération de données et l'entraînement des modèles ouvrent la voie à des systèmes améliorés capables de répondre à des questions complexes concernant des images, rendant la technologie plus utile dans la vie quotidienne et divers domaines professionnels.
Titre: Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering
Résumé: This paper studies a category of visual question answering tasks, in which accessing external knowledge is necessary for answering the questions. This category is called outside-knowledge visual question answering (OK-VQA). A major step in developing OK-VQA systems is to retrieve relevant documents for the given multi-modal query. Current state-of-the-art asymmetric dense retrieval model for this task uses an architecture with a multi-modal query encoder and a uni-modal document encoder. Such an architecture requires a large amount of training data for effective performance. We propose an automatic data generation pipeline for pre-training passage retrieval models for OK-VQA tasks. The proposed approach leads to 26.9% Precision@5 improvements compared to the current state-of-the-art asymmetric architecture. Additionally, the proposed pre-training approach exhibits a good ability in zero-shot retrieval scenarios.
Auteurs: Alireza Salemi, Mahta Rafiee, Hamed Zamani
Dernière mise à jour: 2023-06-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.16478
Source PDF: https://arxiv.org/pdf/2306.16478
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://cocodataset.org/#explore?id=233553
- https://farm4.staticflickr.com/3129/2788695458_3ee66e1b55_z.jpg
- https://flickr.com/photo.gne?id=589841807
- https://www.flickr.com/photos/subliminal/589841807
- https://github.com/alirezasalemi7/pretraining-multimodal-dense-retriever-for-okvqa
- https://doi.org/10.48550/arxiv.2209.00179
- https://ciir.cs.umass.edu/downloads/ORConvQA/all_blocks.txt.gz
- https://spacy.io/
- https://huggingface.co/lmqg/t5-large-squad-qg
- https://huggingface.co/deepset/roberta-base-squad2