Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Apprentissage automatique

Améliorer les modèles de langage visuel avec un guidage directionnel

Une nouvelle approche pour améliorer les VLM afin d'aider au mieux les utilisateurs malvoyants.

― 8 min lire


Améliorer les VLM avecAméliorer les VLM avecdes conseilsdirectionnelsaident mieux dans l'analyse d'images.Une nouvelle méthode pour que les VLMs
Table des matières

Dans le monde d'aujourd'hui, on a souvent besoin d'aide pour répondre à des questions avec des images. Imagine une personne malvoyante qui essaie de prendre une photo pour sa question mais qui ne s'y prend pas très bien. Ça serait super utile qu'un ordinateur puisse lui dire comment ajuster sa photo pour obtenir la réponse qu'elle cherche, non ? C'est là que les Modèles de Langage Visuels (VLMs) entrent en jeu. Ce sont des programmes informatiques conçus pour comprendre à la fois les images et le langage, mais ce n'est pas encore parfait.

Alors que les humains peuvent réfléchir pour savoir s'ils ont assez d'infos pour répondre à une question, les VLMs donnent généralement juste des réponses rapides. Cette étude cherche à voir si on peut améliorer les VLMs en leur apprenant à dire : "Hé, tu devrais peut-être changer l'angle de cette photo," au lieu de simplement deviner.

Le Problème avec les VLMs

Quand tu demandes quelque chose à un ordi avec une image, il devrait idéalement vérifier si l'image a toutes les infos nécessaires. Les humains peuvent faire ça plutôt bien. Si quelqu'un demande : "De quelle couleur est ma chemise ?" en montrant une photo floue, il peut réaliser qu'il devrait peut-être prendre une autre photo. Cependant, les VLMs fournissent parfois simplement une réponse sans vérifier si l'image a le bon angle.

Alors, comment on fait pour régler ça ? On doit faire en sorte que les VLMs réfléchissent un peu plus comme les humains. Ils devraient pouvoir dire quelque chose comme : "Je ne peux pas bien voir ta chemise pour te dire la couleur. Tu devrais peut-être déplacer la caméra à gauche."

Mise en Place d'une Nouvelle Tâche

Pour réduire cet écart, on a créé un nouveau défi pour les VLMs appelé Directionnal Guidance. L'idée est simple : quand un VLM est confronté à une question et une image, il devrait reconnaître si l'image est assez bonne pour répondre à la question. Si ce n'est pas le cas, il devrait donner des conseils sur comment améliorer l'image.

Pense à ça comme à donner des directions à quelqu'un pour prendre de meilleures selfies. S'ils tiennent la caméra trop près, tu pourrais leur dire de reculer. S'ils doivent montrer plus de la scène, tu pourrais dire : "Prends la photo à gauche !"

Obtenir des Retours de Vrais Gens

Pour tester à quel point les VLMs peuvent donner des conseils directionnels, on a créé un ensemble de données de référence avec des images et des questions. Notre équipe de recherche a rassemblé plein d'images du monde réel à partir du dataset VizWiz, qui inclut des questions posées par des personnes malvoyantes. On a fait vérifier ces images par une équipe d'annotateurs humains qui ont donné des conseils sur le cadrage-comme où déplacer la caméra ou si la photo devait être reprise.

Avec ces retours utiles, on a rassemblé des exemples où déplacer la caméra aiderait à révéler des réponses et aussi des exemples où aucun mouvement ne changerait rien.

Entraînement des VLMs

Pour apprendre aux VLMs à donner des conseils directionnels, on avait besoin de créer des données d'entraînement. Au lieu de juste demander aux modèles de faire des suppositions correctes basées sur les images disponibles, on a joué avec les images pour les compliquer un peu.

Si une image avait assez d'infos claires, on pourrait couper certaines parties pour la rendre moins complète. Par exemple, si l'image montrait un ciel bleu clair et un arbre, on couperait une partie du ciel pour créer de la confusion. De cette façon, les modèles pouvaient s'entraîner à améliorer les images, plutôt que de juste deviner aveuglément.

Ce qu'on a Trouvé

Quand on a mis notre nouvelle méthode à l'épreuve, on a vérifié comment plusieurs VLMs populaires s'en sortaient dans la tâche de Directional Guidance. À notre grande joie, on a trouvé que les VLMs montraient un vrai progrès quand on les entraînait avec nos données synthétiques. Les modèles pouvaient non seulement mieux répondre aux questions après l'affinage, mais donnaient aussi des conseils plus précis sur comment ajuster les angles de la caméra.

Essentiellement, quand les VLMs apprenaient des bons exemples, ils devenaient plus comme des amis utiles qui donnent des conseils réfléchis au lieu de juste balancer des réponses aléatoires.

Comprendre la Connaissance de soi chez les VLMs

Une partie de l'enseignement aux VLMs consiste à les aider à acquérir une sorte de connaissance de soi. Ça veut dire qu'ils devraient savoir ce qu'ils peuvent et ne peuvent pas voir. Les humains réalisent quand ils n'ont pas assez d'infos pour faire une supposition intelligente, et les VLMs ont besoin de cette conscience aussi.

Quand ils font face à une image floue ou à une question ambiguë, les VLMs devraient être capables d'admettre : "Je ne peux pas répondre à ça pour le moment." Ensuite, ils pourraient suggérer des actions à prendre, comme "Essaie de prendre une photo sous un autre angle."

Le Processus Cognitif

Pour expliquer comment les VLMs peuvent s'améliorer, pense à un processus similaire à la façon dont les humains apprennent et résolvent des problèmes :

  1. Obtenir des Infos : Les VLMs regardent une image et voient ce qu'ils peuvent en tirer, tout comme on fait quand on doit se rappeler des infos connues.
  2. Reconnaître les Écarts : Ils devraient aussi voir quand ils n'ont pas assez d'infos pour répondre à une question-comme quand une personne réalise qu'elle ne peut pas bien voir son ami dans une foule.
  3. Chercher des Réponses : Enfin, ils devraient apprendre à suggérer où aller pour de nouvelles infos, comme les humains le feraient en cherchant en ligne ou en demandant de l'aide à quelqu'un.

Élargir le Cadre d'Entraînement

Notre cadre d'entraînement se concentre sur l'imitation de ce processus cognitif. Dans la tâche de Directional Guidance, les VLMs doivent apprendre quand et comment suggérer de recadrer une image.

On a créé un système de classification facile à utiliser où les VLMs peuvent choisir parmi une liste d'options directionnelles : garder l'image comme elle est, déplacer à gauche, à droite, en haut, ou en bas. Il y a aussi une option pour quand aucun ajustement n'aidera.

Exemples Réels

Pour voir comment nos VLMs se débrouillaient, on a inclus des exemples de notre ensemble de données de référence dans la phase d'entraînement. Certains modèles ont réussi à déterminer la direction assez précisément, tandis que d'autres ont eu des difficultés avec certaines catégories.

Même avec ces petits pépins, on a vu des progrès. Lorsque les modèles ont été affinés, ils ont donné de meilleurs conseils directionnels, prouvant l'efficacité de notre cadre.

Avancer

Bien qu'on se soit concentré sur les conseils de recadrage, on reconnaît qu'il y a d'autres aspects pour prendre de meilleures photos qu'on pourrait explorer. Que se passerait-il si les VLMs pouvaient aussi aider avec les ajustements d'exposition ou de mise au point ? Notre cadre d'entraînement automatisé pourrait facilement s'adapter pour couvrir ces autres domaines à l'avenir.

Affiner pour tenir compte des complexités comme le fait de devoir bouger en haut et à gauche en même temps sera aussi un sujet qui vaudra la peine d'être étudié. L'objectif est de donner des conseils plus riches, rendant l'expérience aussi fluide que possible pour les utilisateurs.

Conclusion

La tâche de Directional Guidance offre une nouvelle approche excitante pour améliorer les VLMs, surtout pour aider les utilisateurs malvoyants. Avec des ajustements intelligents et une formation réfléchie, les VLMs peuvent devenir meilleurs pour comprendre les limites de leurs infos visuelles et améliorer leurs réponses.

Alors qu'on vise un monde où la technologie peut aider et autonomiser les gens sans accrocs, développer des modèles qui pensent plus comme les humains nous rapproche un peu plus. Avec des améliorations continues, les VLMs ont le potentiel de devenir des outils indispensables pour répondre efficacement aux questions.

Continuons à repousser les limites et à créer des systèmes qui rendent notre vie un peu plus facile-même si ça signifie dire à quelqu'un de bouger à gauche ou à droite pour la photo parfaite !

Source originale

Titre: Right this way: Can VLMs Guide Us to See More to Answer Questions?

Résumé: In question-answering scenarios, humans can assess whether the available information is sufficient and seek additional information if necessary, rather than providing a forced answer. In contrast, Vision Language Models (VLMs) typically generate direct, one-shot responses without evaluating the sufficiency of the information. To investigate this gap, we identify a critical and challenging task in the Visual Question Answering (VQA) scenario: can VLMs indicate how to adjust an image when the visual information is insufficient to answer a question? This capability is especially valuable for assisting visually impaired individuals who often need guidance to capture images correctly. To evaluate this capability of current VLMs, we introduce a human-labeled dataset as a benchmark for this task. Additionally, we present an automated framework that generates synthetic training data by simulating ``where to know'' scenarios. Our empirical results show significant performance improvements in mainstream VLMs when fine-tuned with this synthetic data. This study demonstrates the potential to narrow the gap between information assessment and acquisition in VLMs, bringing their performance closer to humans.

Auteurs: Li Liu, Diji Yang, Sijia Zhong, Kalyana Suma Sree Tholeti, Lei Ding, Yi Zhang, Leilani H. Gilpin

Dernière mise à jour: Nov 1, 2024

Langue: English

Source URL: https://arxiv.org/abs/2411.00394

Source PDF: https://arxiv.org/pdf/2411.00394

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires