Améliorer la comparaison d'images dans les modèles d'IA
Une nouvelle approche améliore la manière dont l'IA compare les images en utilisant des instructions visuelles.
― 11 min lire
Table des matières
- L'Importance de la Comparaison d'Images
- Notre Approche
- Phase Un : Collecte d'Instructions
- Phase Deux : Affinage des Instructions
- Formation et Évaluation
- Mesurer le Succès
- Travaux Connexionés
- Collecte de Données d'Instructions Visuelles
- Phase Un : Collecte de Données d'Instructions
- Phase Deux : Amélioration des Données d'Instructions
- Métriques d'Évaluation
- Résultats
- Amélioration des Capacités de Raisonnement
- Performance sur les Jeux de Données Benchmark
- Conclusion
- Source originale
- Liens de référence
Comparer deux images, c’est un truc qu’on fait naturellement tous les jours. C’est une compétence simple qui nous aide à décrire des choses, repérer des changements et faire des choix en fonction de ce qu'on voit. Cette capacité à comparer des infos visuelles est super importante, mais étonnamment, y’a pas eu beaucoup de boulot pour améliorer cette compétence chez les machines qui essaient de copier la vision humaine, surtout dans les modèles avancés qui gèrent à la fois les mots et les images.
Dans cet article, on se concentre sur une nouvelle méthode pour collecter et utiliser des Instructions Visuelles pour entraîner des modèles qui comprennent mieux les images. Notre approche implique deux étapes principales pour rassembler et affiner ces instructions, ce qui conduit finalement à une meilleure performance dans les tâches nécessitant de comparer des images.
L'Importance de la Comparaison d'Images
La capacité à repérer les différences et similarités entre les images est cruciale dans de nombreuses situations quotidiennes. Ça nous alerte sur des événements intéressants, ça nous avertit de dangers potentiels et ça nous aide à apprendre de nouvelles idées. Reconnaître ce qui est le même dans les images nous aide à organiser l’info visuelle pour qu’on puisse plus facilement voir ce qui est différent. Cette combinaison de comparer et catégoriser nous aide à comprendre le monde autour de nous.
Dans le domaine de l'intelligence artificielle, les récents progrès avec des modèles linguistiques qui fonctionnent bien avec des entrées visuelles ont changé la donne. Ces modèles peuvent maintenant imiter de près comment les humains pensent et comprennent le monde, ce qui a conduit à leur adoption rapide dans diverses applications d'apprentissage machine.
Malgré les avancées, beaucoup de systèmes actuels ont encore des difficultés avec les comparaisons d'images. La plupart se concentrent sur la reconnaissance d'images de base plutôt que de développer une compréhension plus profonde de comment les images sont liées entre elles. Bien qu’il y ait eu des tentatives pour améliorer ces capacités, elles échouent souvent à fournir des instructions visuelles complètes que le modèle peut suivre.
Notre Approche
Pour combler le vide dans la formation d’instructions visuelles, on a développé un système en deux phases pour collecter et affiner ces instructions visuelles. Ce système vise à améliorer les capacités des modèles de langue et de vision pour mieux comprendre la relation entre les images.
Phase Un : Collecte d'Instructions
Dans cette première phase, on collecte des instructions visuelles en utilisant des légendes d'images. On utilise un modèle de langue pour générer des résumés détaillés basés sur des paires d'images. Ce processus nous permet de créer des résumés structurés qui capturent à la fois les similarités et les différences entre les images.
On commence par utiliser un ensemble de données avec une grande collection de paires image-légende. À partir de cet ensemble de données, on crée de nombreuses paires d'images qui partagent des éléments communs et on pousse le modèle de langue à résumer les points clés de chaque paire. Le modèle génère des idées qui incluent les points communs (ce qui est le même) et les différences (ce qui ne l’est pas) entre les images.
Cette première phase sert de « démarrage à froid », où on s’appuie sur des légendes créées manuellement pour guider le modèle. En fusionnant ces résumés dans un ensemble de données, on entraîne notre modèle initial à mieux comprendre les relations entre les images.
Phase Deux : Affinage des Instructions
Dans la deuxième phase, on prend ce qu’on a appris de la première phase et on l’applique à de nouvelles images. En utilisant le modèle entraîné, on peut maintenant générer des résumés encore plus sophistiqués en lui fournissant des paires d'images supplémentaires. Ça permet au modèle de produire des instructions détaillées basées directement sur le contenu visuel plutôt que de se fier uniquement au texte.
Dans cette phase, on collecte aussi des paires d'images supplémentaires provenant de diverses sources pour créer un ensemble de données complet. L’objectif est d’affiner la formation d’instructions visuelles, permettant à nos modèles de s’adapter et d’améliorer leur compréhension des comparaisons visuelles.
Formation et Évaluation
Tout au long de notre travail, on se concentre sur l’amélioration des capacités de raisonnement de nos modèles. En combinant les données des deux phases, on construit un riche cursus de formation qui couvre un large éventail de comparaisons d'images.
Pour évaluer nos modèles, on crée des benchmarks qui testent leurs capacités à répondre à des Questions ouvertes concernant les similarités et les différences entre les images. De cette manière, on peut évaluer à quel point le modèle a bien appris à comprendre et comparer les données visuelles.
Mesurer le Succès
Le succès dans les tâches de comparaison visuelle peut être évalué de plusieurs manières. On mesure l’exactitude de nos modèles lorsqu’ils doivent identifier la bonne relation entre des paires d'images. Ça se fait en utilisant divers ensembles de données qui mettent au défi la capacité du modèle à trouver des similarités et des différences de manière efficace.
Les modèles sont testés sur des questions à réponse fermée où ils doivent décider quelle image correspond à une description. De plus, on évalue leur performance sur des questions ouvertes où ils doivent fournir des réponses détaillées sur le contenu de paires d'images.
Travaux Connexionés
Le paysage de la formation d'instructions visuelles a vu des développements notables au fil du temps. Beaucoup de modèles visent à intégrer les données visuelles et textuelles plus efficacement. Ces modèles utilisent diverses techniques pour améliorer leur compréhension des relations entre les images et les entrées textuelles.
Par exemple, certains modèles anciens se concentraient uniquement sur des scénarios à image unique. Cependant, de nouvelles approches ont commencé à inclure plusieurs images, reflétant la complexité des données visuelles du monde réel. Ce changement souligne l'importance d’adapter les modèles pour gérer une gamme plus large d'entrées, améliorant leur compréhension des scènes complexes.
Malgré les avancées, il reste un écart significatif en ce qui concerne l’entraînement de modèles qui saisissent efficacement à la fois les points communs et les différences. Peu de jeux de données se concentrent spécifiquement sur ce domaine, ce qui limite les progrès. Notre approche s’attaque à ce vide de front en fournissant un cadre solide pour générer et utiliser des instructions visuelles.
Collecte de Données d'Instructions Visuelles
Phase Un : Collecte de Données d'Instructions
Au cours de la première phase de notre processus, on se concentre sur la collecte des données nécessaires pour la formation d’instructions visuelles. On commence avec un grand ensemble de données de paires image-légende, ce qui nous permet de couvrir une large gamme de contenus visuels.
Pour chaque paire d'images, on analyse les légendes pour déterminer leurs similarités. En identifiant les noms et les aspects des images qui se chevauchent, on peut former des paires qui partagent des points communs tout en étant suffisamment distinctes pour mettre en évidence les différences.
Ce processus aboutit à une collection substantielle d'images appariées avec des résumés accompagnant qui capturent leurs relations. Ces résumés servent de base pour entraîner nos modèles dans les phases suivantes.
Phase Deux : Amélioration des Données d'Instructions
Dans la deuxième phase, on utilise notre modèle entraîné pour traiter d'autres paires d'images et générer des instructions plus complexes. Ça nous permet d'affiner notre approche des résumés tout en tirant profit des idées de la première phase.
Les données collectées améliorent notre capacité à créer des instructions visuelles efficaces. Cette étape est cruciale car elle permet au modèle d'apprendre à partir d'un ensemble diversifié de scénarios visuels plutôt que de se fier uniquement aux légendes initiales. Ce perfectionnement itératif améliore la compréhension des comparaisons d'images par le modèle.
Métriques d'Évaluation
Pour garantir la qualité de nos modèles, on met en place un processus d'évaluation rigoureux. Nos benchmarks consistent en des questions à réponse fermée et ouverte qui testent les capacités des modèles à analyser et comparer des images.
Ces évaluations se concentrent sur diverses dimensions de la compréhension visuelle, y compris :
Sélection D'Image Binaire : Le modèle doit choisir la bonne image en fonction d'une description donnée, testant sa capacité à relier le contenu textuel à l'information visuelle.
Raisonnement Visuel : Le modèle est évalué sur sa capacité à évaluer si une affirmation décrit correctement la relation entre deux images, montrant ses capacités de raisonnement.
Questions Ouvertes : On évalue aussi à quel point le modèle peut générer des réponses descriptives sur les similarités et les différences entre les images.
Résultats
Nos résultats montrent des améliorations significatives dans les capacités des modèles à comprendre et comparer des données visuelles. En implémentant notre approche en deux phases, on a réalisé des avancées notables dans les tâches liées à la comparaison d'images.
Amélioration des Capacités de Raisonnement
On a observé que nos modèles finaux, qui combinaient les données des deux phases, surclassaient largement les systèmes précédents à la pointe de la technologie. Le processus de formation a conduit à une meilleure précision dans les tâches nécessitant l’identification de similarités et de différences entre les images.
Les modèles ont montré leurs forces aussi bien sur des questions à réponse fermée-où des réponses spécifiques sont requises-que sur des formats ouverts qui demandent des explications détaillées. Cette polyvalence indique une compréhension solide des relations visuelles.
Performance sur les Jeux de Données Benchmark
En évaluant nos modèles par rapport à des benchmarks établis, on a trouvé qu'ils excellaient dans des tâches fondamentales. Les modèles ont très bien performé dans les tâches de sélection binaire, identifiant correctement les images sur la base des descriptions textuelles. Ce succès souligne leur capacité à aligner efficacement les informations textuelles et visuelles.
De plus, les modèles ont montré de bonnes performances dans les tâches de raisonnement visuel, discernant avec précision si une affirmation était vraie pour une paire d'images donnée. Cette capacité indique un niveau de compréhension plus élevé en ce qui concerne les relations entre les images.
Conclusion
En résumé, notre travail contribue significativement à la formation de modèles capables de comparer et d'analyser efficacement des informations visuelles. Grâce à une approche structurée et itérative, on a développé un système en deux phases qui améliore considérablement la façon dont les machines comprennent les images.
En se concentrant sur la collecte et l'affinement des instructions visuelles, on a comblé un vide dans la technologie actuelle qui a longtemps été négligé. Les résultats montrent des améliorations substantielles dans la performance des modèles, ouvrant la voie à des applications plus avancées dans divers domaines.
Les implications de nos découvertes s'étendent à différents secteurs, allant de l'amélioration de la vision par ordinateur à l'enrichissement des expériences utilisateur dans des applications qui reposent sur l'analyse visuelle. Les futurs travaux se concentreront sur l'expansion de ces capacités et l'exploration de nouvelles directions pour la formation d'instructions visuelles.
Alors qu'on continue à développer et améliorer ces modèles, on reste engagé à faire avancer le domaine de l'intelligence artificielle et à améliorer la façon dont les machines interagissent avec le monde visuel.
Titre: Comparison Visual Instruction Tuning
Résumé: Comparing two images in terms of Commonalities and Differences (CaD) is a fundamental human capability that forms the basis of advanced visual reasoning and interpretation. It is essential for the generation of detailed and contextually relevant descriptions, performing comparative analysis, novelty detection, and making informed decisions based on visual data. However, surprisingly, little attention has been given to these fundamental concepts in the best current mimic of human visual intelligence - Large Multimodal Models (LMMs). We develop and contribute a new two-phase approach CaD-VI for collecting synthetic visual instructions, together with an instruction-following dataset CaD-Inst containing 349K image pairs with CaD instructions collected using CaD-VI. Our approach significantly improves the CaD spotting capabilities in LMMs, advancing the SOTA on a diverse set of related tasks by up to 17.5%. It is also complementary to existing difference-only instruction datasets, allowing automatic targeted refinement of those resources increasing their effectiveness for CaD tuning by up to 10%. Additionally, we propose an evaluation benchmark with 7.5K open-ended QAs to assess the CaD understanding abilities of LMMs.
Auteurs: Wei Lin, Muhammad Jehanzeb Mirza, Sivan Doveh, Rogerio Feris, Raja Giryes, Sepp Hochreiter, Leonid Karlinsky
Dernière mise à jour: 2024-06-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.09240
Source PDF: https://arxiv.org/pdf/2406.09240
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://wlin-at.github.io/cad_vi
- https://huggingface.co/datasets/wlin21at/CaD-Inst
- https://huggingface.co/api/datasets/wlin21at/CaD-Inst/croissant
- https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md
- https://paperswithcode.com/datasets/license
- https://github.com/wlin-at/CaD-VI
- https://storage.googleapis.com/openimages/web/download_v6.html
- https://cocodataset.org/#download
- https://shannon.cs.illinois.edu/DenotationGraph/
- https://groups.csail.mit.edu/vision/datasets/ADE20K/index.html#Download
- https://homes.cs.washington.edu/~ranjay/visualgenome/api.html
- https://google.github.io/localized-narratives/
- https://huggingface.co/datasets/pufanyi/MIMICIT
- https://huggingface.co/datasets/BAAI/SVIT
- https://openai.com/policies/terms-of-use
- https://github.com/haotian-liu/LLaVA
- https://openai.com/policies/eu-terms-of-use/
- https://ai.meta.com/llama/license/
- https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
- https://mistral.ai/terms/
- https://entuedu-my.sharepoint.com/:u:/g/personal/tan317_e_ntu_edu_sg/ETkpKSsmun1MpBw7FqfUUS8BwTX2gKkTQkDFsfOGCw-9yA?e=KGtpg0
- https://github.com/HYPJUDY/Sparkles
- https://huggingface.co/luodian/OTTER-Image-LLaMA7B-LA-InContext
- https://huggingface.co/BleachNick/MMICL-Instructblip-T5-xxl
- https://huggingface.co/BAAI/Emu2-Chat
- https://huggingface.co/internlm/internlm-xcomposer2-vl-7b
- https://huggingface.co/liuhaotian/llava-v1.5-7b-lora
- https://huggingface.co/liuhaotian/llava-v1.5-13b-lora
- https://huggingface.co/liuhaotian/llava-v1.6-vicuna-7b
- https://huggingface.co/liuhaotian/llava-v1.6-vicuna-13b
- https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- https://ctan.org/pkg/pifont