Avancées dans la réponse aux questions visuelles avec PROOFREAD
PROOFREAD améliore la réponse visuelle aux questions en utilisant des connaissances provenant de grands modèles de langage.
― 7 min lire
Table des matières
La réponse à des questions visuelles (VQA) est une tâche où les machines aident à répondre à des questions liées aux images. Le but, c'est de permettre aux machines de regarder des photos et de donner des réponses aux questions que les gens peuvent avoir sur ces images. Mais se fier uniquement au contenu de l'image, c'est souvent pas suffisant. Parfois, il faut des connaissances générales ou du bon sens sur les objets dans l'image pour donner une réponse précise.
Ça a entraîné un regain d'intérêt pour la réponse visuelle à des questions basées sur des connaissances. Cette approche se concentre sur des questions qui nécessitent des connaissances au-delà de ce que l'image montre. Par exemple, si quelqu'un demande, "Quel président américain est lié à l'animal en peluche vu ici ?", la machine doit non seulement identifier que l'image concerne des ours en peluche, mais aussi savoir que "Teddy Roosevelt" est lié à l'ours en peluche.
Comment fonctionnent les méthodes actuelles
Traditionnellement, les approches pour résoudre les problèmes de VQA se divisent en deux grandes étapes. La première étape consiste à trouver des connaissances pertinentes à partir de sources externes, comme Wikipédia ou d'autres bases de données de connaissances. La deuxième étape combine ces connaissances avec l'image et la question pour produire une réponse. Cependant, ces méthodes rencontrent souvent des problèmes. Les bases de données ne sont pas toujours complètes, et s'y fier trop peut limiter la capacité de la machine à généraliser sa compréhension, rendant difficile de bien performer.
Avec la montée des Grands Modèles de Langage (LLM), les façons de gérer les questions de VQA ont changé de manière significative. Les LLM, qui sont formés sur une quantité énorme de textes, ont des compétences de raisonnement incroyables. Ils peuvent répondre à des questions et résumer des documents sans avoir besoin de bases de données de connaissances extérieures. Cela a encouragé les chercheurs à trouver des moyens d'utiliser les vastes connaissances stockées dans les LLM pour améliorer les tâches de VQA.
Les limites des approches existantes
Malgré les avantages des LLM, la tâche de combiner images et connaissances textuelles reste un défi. La plupart des LLM existants ont été formés uniquement sur du texte, ce qui signifie qu'ils ne comprennent pas naturellement les informations visuelles. Ce fossé crée un besoin d'approches qui aident les LLM à traiter des images.
Certaines méthodes essaient de fournir les connaissances sur l'image dans l'invite au LLM. Par exemple, une méthode peut décrire l'image comme "Beaucoup de jouets sur une couverture rose" dans l'espoir de guider le LLM à répondre à une question. Cependant, cette approche a des limites. La machine peut avoir du mal à capturer tout ce qui est important dans l'image juste à partir des légendes, ce qui peut entraîner des réponses incorrectes.
Une autre approche consiste à créer une interface multimodale qui permet à la machine de voir l'image directement et d'utiliser cette information efficacement. Ces interfaces peuvent être assez efficaces, mais elles dépendent toujours de la quantité de connaissances stockées dans le modèle de langage, qui peut ne pas toujours être suffisante pour traiter tous les types de requêtes.
Introduction du cadre PROOFREAD
Pour surmonter ces limitations, un nouveau cadre nommé PROOFREAD a été proposé. Ce cadre signifie "Prompting vision language model with Knowledge From Large Language Model." PROOFREAD vise à combiner les forces du modèle de langage visuel (VLM) et du modèle de langage large (LLM) pour améliorer les performances des tâches de VQA basées sur des connaissances.
La première partie de ce processus implique d'utiliser le VLM, qui peut interpréter l'image, pour prédire des réponses. Ce VLM reste inchangé ou "gelé" pendant ce processus pour maintenir sa capacité à analyser l'image de manière précise. Pendant ce temps, le LLM est utilisé pour obtenir des connaissances pertinentes qui peuvent être utilisées pour répondre à la question liée à l'image.
Un autre élément innovant dans PROOFREAD est le Knowledge Perceiver. Ce mécanisme aide à identifier et à filtrer les connaissances qui pourraient mener à des réponses incorrectes. En se concentrant sur les connaissances utiles tout en évitant les informations nuisibles, PROOFREAD améliore l'exactitude des réponses.
Avantages de la méthode PROOFREAD
Le cadre PROOFREAD offre plusieurs avantages. D'abord, il connecte le LLM et le VLM sans avoir besoin d'une formation compliquée, ce qui fait gagner du temps et des ressources. Il nécessite juste un petit ensemble d'entraînement pour ajuster quelques paramètres tout en gelant le reste.
Ensuite, il fournit un moyen de générer efficacement des connaissances utiles en utilisant de grands modèles. Le Knowledge Perceiver joue un rôle crucial pour s'assurer que seules les connaissances bénéfiques sont conservées, tandis que les informations nuisibles sont supprimées.
De plus, l'efficacité de ce cadre a été validée par des expériences approfondies sur deux ensembles de données publiques dédiées à la VQA basée sur des connaissances. Les résultats montrent que PROOFREAD surpasse d'autres modèles à la pointe de la technologie dans divers contextes.
Comprendre les composants de PROOFREAD
PROOFREAD se compose de trois parties principales :
Module de prédiction de réponse : Cette partie utilise le modèle de langage visuel pour répondre à des questions basées sur l'entrée visuelle et les connaissances pertinentes.
Module de génération de connaissances : Celui-ci génère les connaissances qui peuvent être nécessaires pour répondre efficacement aux questions. Il utilise le LLM pour produire des questions de connaissances ciblées, ce qui aide à minimiser les biais du modèle dans la compréhension de l'image.
Module de filtre de connaissances : Ce module classe et filtre les connaissances générées pour déterminer quelles informations sont utiles, nuisibles ou neutres. Le Knowledge Perceiver joue un rôle vital dans cette classification en utilisant diverses caractéristiques pour l'évaluation.
Résultats expérimentaux
L'efficacité du cadre PROOFREAD a été testée en utilisant deux ensembles de données largement reconnus pour la VQA : OKVQA et A-OKVQA. OKVQA est un grand ensemble de données qui inclut des questions nécessitant des connaissances pour répondre. A-OKVQA est une version améliorée avec des questions encore plus diversifiées.
Dans les tests, PROOFREAD a montré des résultats remarquables, surpassant de nombreuses méthodes existantes. Il a dépassé les performances de référence, notamment dans des contextes à choix multiples et lors de la fourniture de réponses directes. Notamment, le cadre de PROOFREAD lui a permis d'apporter des améliorations significatives en matière d'exactitude par rapport aux méthodes traditionnelles.
Importance du filtrage des connaissances
Une découverte clé des expériences est l'importance de filtrer les connaissances générées. Bien qu'on puisse rassembler des connaissances utiles, il peut y avoir des cas où des informations trompeuses sont également obtenues. Ces connaissances trompeuses peuvent mener à des réponses incorrectes si elles ne sont pas filtrées.
Le processus de filtrage utilisant le Knowledge Perceiver réduit significativement les erreurs. En évaluant les connaissances générées en fonction de leur utilité, le système peut converger en toute confiance vers les bonnes réponses.
Conclusion
Le développement du cadre PROOFREAD constitue une avancée significative dans le domaine de la VQA basée sur des connaissances. En combinant les forces des LLM et des VLM et en mettant l'accent sur la génération et le filtrage efficaces des connaissances, cette approche aborde bon nombre des défauts rencontrés dans les méthodes précédentes.
Avec des recherches et des améliorations supplémentaires, PROOFREAD a le potentiel d'étendre ses capacités au-delà des tâches de VQA à d'autres domaines nécessitant une intégration des connaissances. Alors que la quête pour améliorer la compréhension des machines tant des images que du langage se poursuit, des cadres comme PROOFREAD joueront un rôle crucial dans la définition de l'avenir des systèmes intelligents.
Titre: Prompting Vision Language Model with Knowledge from Large Language Model for Knowledge-Based VQA
Résumé: Knowledge-based visual question answering is a very challenging and widely concerned task. Previous methods adopts the implicit knowledge in large language models (LLM) to achieve excellent results, but we argue that existing methods may suffer from biasing understanding of the image and insufficient knowledge to solve the problem. In this paper, we propose PROOFREAD -PROmpting vision language model with knOwledge From laRgE lAnguage moDel, a novel, lightweight and efficient kowledge-based VQA framework, which make the vision language model and the large language model cooperate to give full play to their respective strengths and bootstrap each other. In detail, our proposed method uses LLM to obtain knowledge explicitly, uses the vision language model which can see the image to get the knowledge answer, and introduces knowledge perceiver to filter out knowledge that is harmful for getting the correct final answer. Experimental results on two datasets prove the effectiveness of our approach. Our method outperforms all state-of-the-art methods on the A-OKVQA dataset in two settings and also achieves relatively good performance on the OKVQA dataset.
Auteurs: Yang Zhou, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
Dernière mise à jour: 2023-08-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.15851
Source PDF: https://arxiv.org/pdf/2308.15851
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.