S'attaquer aux hallucinations visuelles dans les modèles d'IA
Un nouvel outil génère des instances d'hallucinations visuelles diverses pour améliorer l'exactitude de l'IA.
― 7 min lire
Table des matières
- Présentation de l'outil
- Composants d'un modèle de langage large multi-modal
- C'est quoi l'hallucination visuelle ?
- Recherches précédentes et limitations
- Notre approche
- Évaluation des modèles de langage large multi-modal
- Affinage et ses effets
- Comprendre les modes d'hallucination visuelle
- Génération d'instances d'hallucination visuelle
- Conclusion et perspectives
- Implications
- Source originale
- Liens de référence
L'Hallucination visuelle (HV) se produit quand un modèle de langage large multi-modal (MLLM) génère des infos incorrectes sur une image tout en répondant à des questions visuelles. Les recherches précédentes se sont surtout concentrées sur les jeux de données d'images existants, ce qui donne une vision étroite des performances des MLLMs vu que ces jeux manquent de variété dans les exemples d'HV. Cette étude présente un outil qui crée un ensemble diversifié d'instances d'HV.
Présentation de l'outil
L'outil génère des instances d'hallucination visuelle en identifiant des exemples initiaux d'HV dans des jeux de données d'images existants, comme COCO. Il crée une description textuelle pour chaque exemple d'HV et utilise un modèle texte-image pour générer les images correspondantes à partir de ces descriptions. Au total, on compile un jeu de référence avec 1 200 instances d'HV réparties sur huit types d'HV. Les tests montrent que les MLLMs populaires hallucinent souvent de manière significative quand on les évalue sur ce benchmark. De plus, affiner un MLLM sur ce benchmark peut réduire sa tendance à halluciner sans affecter sa performance sur d'autres tâches.
Composants d'un modèle de langage large multi-modal
Un LLM multi-modal génère des réponses textuelles basées sur des images et des questions qui les accompagnent. En général, ces modèles comprennent trois parties principales : un encodeur de vision, un connecteur vision-langage et le modèle de langage lui-même. L'encodeur de vision transforme une image en représentation vectorielle. Le connecteur vision-langage mappe ce vecteur dans l'espace du modèle de langage, en le combinant avec les tokens de la question. Cette entrée permet au modèle de langage de produire une réponse textuelle.
C'est quoi l'hallucination visuelle ?
Les hallucinations visuelles se produisent quand un MLLM fournit des détails factuellement incorrects sur une image. Par exemple, si un MLLM génère une réponse qui mentionne deux lampes alors que l'image montre en réalité trois, ça illustre un cas classique d'hallucination visuelle. La prévalence des HV remet en question le développement de systèmes d'IA sûrs et fiables, comme le soulignent des directives récentes qui mettent l'accent sur la nécessité de tests approfondis pour atténuer les risques potentiels liés aux technologies d'IA avancées.
Recherches précédentes et limitations
Des études antérieures ont tenté de créer des benchmarks pour les HV dans les MLLMs mais ont restreint leurs conclusions aux jeux de données d'images existants, limitant la compréhension de la façon dont les MLLMs gèrent ces instances. La dépendance à des jeux de données connus entraîne une évaluation biaisée des capacités d'un MLLM, car ces jeux de données peuvent avoir fait partie des données d'entraînement du MLLM. Donc, les conclusions tirées de tels benchmarks peuvent être trompeuses.
Notre approche
On dévoile une nouvelle méthode pour générer des instances d'HV pour évaluer les MLLMs. Ça implique trois étapes :
Trouver des instances initiales d'HV : On identifie des exemples initiaux d'HV en utilisant des jeux de données d'images comme COCO. Ça inclut le repérage de paires d'images avec une grande similarité dans un modèle mais faible dans un autre. De telles divergences indiquent le potentiel d'HV.
Générer des descriptions textuelles : Pour chaque mode d'HV identifié à la première étape, on crée une description textuelle qui met en avant ses propriétés visuelles.
Créer des images d'HV : Enfin, on utilise un modèle génératif pour créer de nouvelles images basées sur ces descriptions textuelles et préparer des questions et des réponses pour évaluer les MLLMs.
Du coup, on développe un benchmark contenant 1 200 instances d'HV réparties sur huit modes différents, représentant diverses propriétés visuelles comme l'existence, la forme, la couleur, l'orientation et le dénombrement.
Évaluation des modèles de langage large multi-modal
On évalue les MLLMs leaders en fonction de leur performance par rapport à notre benchmark. Les résultats indiquent que les MLLMs hallucinent fréquemment à travers de nombreuses instances. Par exemple, les modèles ont montré de faibles scores de précision sur notre benchmark, avec des différences notables de performance selon les différents types d'HV.
Affinage et ses effets
On enquête aussi pour savoir si affiner un MLLM sur le benchmark peut réduire sa tendance à halluciner. Nos expériences montrent que l'affinage améliore les performances sur les tâches d'hallucination tout en maintenant l'efficacité du modèle sur d'autres jeux de données.
Comprendre les modes d'hallucination visuelle
On catégorise les HV en types distincts, chacun étant lié à des propriétés visuelles spécifiques :
- HV d'existence : Un modèle ne parvient pas à reconnaître des objets dans une image ou identifie faussement des objets inexistants.
- HV de forme : Le modèle interprète mal ou simplifie à l'extrême les formes des objets.
- HV de couleur : Il identifie incorrectement les couleurs des objets ou manque des variations subtiles.
- HV d'orientation : Le modèle a du mal avec la direction que prennent les objets, surtout dans des scènes complexes.
- HV OCR : Il ne parvient pas à lire correctement des caractères à cause d'interférences visuelles ou de désalignement.
- HV de taille : Des problèmes surviennent dans la comparaison des tailles d'objets à cause de la perspective ou du désordre visuel.
- HV de position : Le modèle a du mal à comprendre les relations spatiales entre les objets.
- HV de comptage : Il compte incorrectement les objets, souvent en les fusionnant ou les négligeant.
Génération d'instances d'hallucination visuelle
Pour générer des instances d'HV, notre approche commence par examiner des images existantes pour trouver des candidats appropriés basés sur la similarité dans les embeddings. On formule des questions spécifiques et des réponses de référence pour créer des instances d'HV réussies. En plus, grâce à la génération de descriptions textuelles et d'images d'HV, on s'assure que les modèles sont testés dans divers scénarios pour évaluer leur performance avec précision.
Conclusion et perspectives
Cette étude introduit une méthode pour générer et évaluer des instances d'HV dans les MLLMs. Nos découvertes suggèrent que les MLLMs existants ont une fréquence élevée d'hallucinations sur nos benchmarks. L'affinage peut aider à atténuer ces problèmes, en améliorant leur précision sans compromettre leur fonctionnalité. Pour l'avenir, créer un système entièrement automatisé pour générer des instances d'HV serait une étape précieuse, permettant des tests et une amélioration étendus des MLLMs dans divers contextes.
Implications
Comprendre et traiter les hallucinations visuelles dans les LLM multi-modaux est crucial pour faire avancer la technologie de l'IA. Cette recherche souligne l'importance de méthodes de test diversifiées et éclaire comment les systèmes d'IA peuvent être rendus plus fiables et précis dans la compréhension de l'information visuelle. En créant un ensemble complet d'outils d'évaluation, on pave la voie à des modèles d'IA mieux performants capables de gérer des tâches visuelles complexes avec une précision améliorée.
Titre: Visual Hallucinations of Multi-modal Large Language Models
Résumé: Visual hallucination (VH) means that a multi-modal LLM (MLLM) imagines incorrect details about an image in visual question answering. Existing studies find VH instances only in existing image datasets, which results in biased understanding of MLLMs' performance under VH due to limited diversity of such VH instances. In this work, we propose a tool called VHTest to generate a diverse set of VH instances. Specifically, VHTest finds some initial VH instances in existing image datasets (e.g., COCO), generates a text description for each VH mode, and uses a text-to-image generative model (e.g., DALL-E-3) to generate VH images based on the text descriptions. We collect a benchmark dataset with 1,200 VH instances in 8 VH modes using VHTest. We find that existing MLLMs such as GPT-4V, LLaVA-1.5, and MiniGPT-v2 hallucinate for a large fraction of the instances in our benchmark. Moreover, we find that fine-tuning an MLLM using our benchmark dataset reduces its likelihood to hallucinate without sacrificing its performance on other benchmarks. Our benchmarks are publicly available: https://github.com/wenhuang2000/VHTest.
Auteurs: Wen Huang, Hongbin Liu, Minxin Guo, Neil Zhenqiang Gong
Dernière mise à jour: 2024-06-16 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.14683
Source PDF: https://arxiv.org/pdf/2402.14683
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.