Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Vision par ordinateur et reconnaissance des formes

Faire avancer la question-réponse visuelle avec une nouvelle approche

Une nouvelle méthode améliore la précision de la réponse à des questions visuelles en utilisant des connaissances externes.

― 7 min lire


Une nouvelle méthodeUne nouvelle méthodeaméliore la précision duVQA.utilisant des connaissances externes.réponse à des questions visuelles enUne nouvelle approche améliore la
Table des matières

La réponse à des questions visuelles (VQA) est une tâche où un système informatique doit répondre à des questions en se basant sur le contenu d’une image. Par exemple, si une image montre un chien jouant dans un parc, une question pourrait être : « Quel animal est sur l'image ? » Le système doit être capable d'analyser l'image et de donner la bonne réponse.

Ces dernières années, les chercheurs se sont davantage concentrés sur le VQA nécessitant des connaissances externes qui ne sont pas visibles sur l'image. Cela signifie que le système ne doit pas seulement se fier à ce qui est dans l'image, mais aussi utiliser ce qu'il sait d'autres sources. Cela complique les choses car le système doit combiner les détails de l'image avec des faits qu'il connaît déjà pour fournir une bonne réponse.

Défis dans le VQA

Un des principaux défis dans le VQA est que certains systèmes s'appuient sur de grands modèles linguistiques (PLMs) pour générer des réponses. Même si ces modèles peuvent être intelligents, ils ont parfois des connaissances limitées. Ils peuvent ne couvrir qu'une petite partie de ce qu'il faut pour répondre correctement à une question. Cela arrive parce que ces modèles peuvent avoir des biais qui les poussent à préférer certains types de réponses sur d'autres, peu importe la question posée.

De plus, leur efficacité peut dépendre fortement de la qualité du modèle utilisé. Par exemple, seuls certains modèles, comme GPT-3, peuvent obtenir les meilleurs résultats. Cela crée des limitations pour d'autres modèles qui n'atteignent pas le même niveau de performance.

Notre approche

Pour relever ces défis, nous présentons une nouvelle méthode pour le VQA qui suit une approche "générer-then-sélectionner". Dans cette méthode, nous générons d'abord une liste de réponses possibles en utilisant un PLM. Ensuite, nous utilisons un modèle séparé pour choisir la bonne réponse parmi celles générées. Ce processus aide à améliorer la couverture des connaissances utilisées pour répondre aux questions.

Au lieu de générer directement une seule réponse, notre méthode permet au modèle de considérer plusieurs options. Nous avons constaté que cela augmente considérablement les chances de fournir la bonne réponse par rapport aux méthodes traditionnelles.

Étapes de notre méthode

Génération des choix de réponse

La première étape de notre approche consiste à créer une liste de réponses potentielles en fonction d'une image donnée et d'une question. Nous utilisons un PLM pour générer ces réponses. Voici comment ça fonctionne :

  1. Légendage d'image : Nous transformons l'image en une description textuelle à l'aide d'outils existants. Cette description aide à fournir un contexte pour les questions qui seront posées.

  2. Création de prompts : Nous créons des prompts qui guident le PLM pour générer des choix de réponses. Un prompt peut impliquer juste la question elle-même, tandis qu'un autre inclut à la fois la question et la description de l'image. Cela aide le modèle à mieux comprendre ce qu'il doit répondre.

  3. Génération des choix : Avec les prompts en place, le PLM peut réfléchir à des réponses possibles. Les résultats sont ensuite rassemblés pour former une liste de choix de réponses.

Sélection de la bonne réponse

Après avoir généré un ensemble de réponses possibles, l'étape suivante est de déterminer laquelle est la plus précise. À cette étape, nous utilisons un autre modèle pour décider de la meilleure réponse parmi notre liste.

  1. Raisonnement en chaîne (CoT) : Avant de sélectionner une réponse, nous générons un raisonnement en chaîne. Cela aide le modèle à raisonner plus efficacement à travers les réponses potentielles.

  2. Préparation des entrées : Nous préparons l'entrée pour le modèle de sélection en combinant la question, la description de l'image, le raisonnement CoT et les choix de réponses. Cela aide le modèle à peser toutes les informations pertinentes pour prendre une décision.

  3. Formation du modèle : Le modèle de sélection est entraîné en utilisant cette entrée pour choisir correctement la bonne réponse en fonction du contexte fourni.

Améliorations par rapport aux méthodes précédentes

Notre nouvelle méthode s'est révélée plus efficace que les précédentes approches de VQA. En utilisant la stratégie "générer-then-sélectionner", nous avons pu atteindre une amélioration notable de l'exactitude des réponses. Cette méthode aide à mieux gérer la récupération des connaissances externes et a conduit à un taux de réussite plus élevé dans les réponses correctes.

Nous avons également constaté que notre approche augmente considérablement la couverture des connaissances. En générant plusieurs choix de réponses, nous élargissons ce que le modèle peut considérer lorsqu'il essaie de donner une réponse.

Comparaison de notre approche

Nous avons comparé notre méthode avec des techniques existantes qui s'appuient généralement sur une seule génération de réponse. Les méthodes traditionnelles limitent souvent les réponses à une liste prédéterminée basée sur des connaissances communes, ce qui peut entraîner des erreurs si la bonne réponse n'est pas listée.

En revanche, notre méthode offre une plus grande variété de réponses potentielles car elle ne se limite pas à un vocabulaire fixe. Cette flexibilité permet d'améliorer l'exactitude des réponses.

L'importance de la couverture des connaissances

Dans le VQA, la couverture des connaissances fait référence à la quantité d'informations pertinentes auxquelles le modèle peut accéder pour résoudre des questions. Les systèmes qui ne s'appuient que sur des informations visuelles manquent souvent des détails importants nécessaires pour des réponses précises. C'est particulièrement vrai pour les questions qui impliquent un contexte non présent dans l'image.

En élargissant la couverture des connaissances, notre méthode garantit que les modèles peuvent fournir des réponses plus éclairées. Par exemple, si une question demande la fonction d'un objet dans une image, le système peut puiser des faits pertinents et les utiliser dans son raisonnement, conduisant à une réponse mieux informée.

Expérimentation et résultats

Nous avons mené des tests approfondis pour évaluer l'efficacité de notre approche par rapport aux pratiques standards. Les résultats ont montré que notre méthode a obtenu un taux de réussite plus élevé sur le benchmark VQA. Cela a démontré non seulement que la méthode fonctionne, mais qu'elle représente une avancée significative dans le domaine.

Les améliorations étaient particulièrement notables lors de l'utilisation de plusieurs PLMs pour générer des réponses. Les options générées proposées pour sélection étaient diverses et couvraient un plus large éventail de réponses potentielles.

Conclusion

La réponse à des questions visuelles pose un défi unique de combinaison de données visuelles avec des connaissances externes. Notre approche "générer-then-sélectionner" offre une solution qui améliore la couverture des connaissances et augmente les chances de donner des réponses précises.

En élargissant les options disponibles pour le modèle et en utilisant des techniques de sélection spécialisées, nous pouvons améliorer considérablement la performance des systèmes VQA. Cela rend non seulement les modèles plus intelligents mais ouvre également de nouvelles possibilités pour leur application dans des scénarios réels où comprendre à la fois les images et le contexte est essentiel.

Nos conclusions suggèrent que cette méthode pourrait conduire à d'autres avancées dans les technologies VQA, ouvrant la voie à des développements qui rendent ces systèmes encore plus capables et fiables.

Source originale

Titre: Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge

Résumé: The open-ended Visual Question Answering (VQA) task requires AI models to jointly reason over visual and natural language inputs using world knowledge. Recently, pre-trained Language Models (PLM) such as GPT-3 have been applied to the task and shown to be powerful world knowledge sources. However, these methods suffer from low knowledge coverage caused by PLM bias -- the tendency to generate certain tokens over other tokens regardless of prompt changes, and high dependency on the PLM quality -- only models using GPT-3 can achieve the best result. To address the aforementioned challenges, we propose RASO: a new VQA pipeline that deploys a generate-then-select strategy guided by world knowledge for the first time. Rather than following the de facto standard to train a multi-modal model that directly generates the VQA answer, RASO first adopts PLM to generate all the possible answers, and then trains a lightweight answer selection model for the correct answer. As proved in our analysis, RASO expands the knowledge coverage from in-domain training data by a large margin. We provide extensive experimentation and show the effectiveness of our pipeline by advancing the state-of-the-art by 4.1% on OK-VQA, without additional computation cost. Code and models are released at http://cogcomp.org/page/publication_view/1010

Auteurs: Xingyu Fu, Sheng Zhang, Gukyeong Kwon, Pramuditha Perera, Henghui Zhu, Yuhao Zhang, Alexander Hanbo Li, William Yang Wang, Zhiguo Wang, Vittorio Castelli, Patrick Ng, Dan Roth, Bing Xiang

Dernière mise à jour: 2023-05-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.18842

Source PDF: https://arxiv.org/pdf/2305.18842

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires