Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Calcul et langage# Vision par ordinateur et reconnaissance des formes

Aborder les hallucinations relationnelles dans l'IA multimodale

Nouveau benchmark pour s'attaquer aux hallucinations relationnelles dans les modèles de langage multimodaux.

Kening Zheng, Junkai Chen, Yibo Yan, Xin Zou, Xuming Hu

― 7 min lire


Résoudre les problèmesRésoudre les problèmesrelationnels de l'IAobjets par l'IA.compréhension des relations entreDe nouvelles méthodes améliorent la
Table des matières

Les grands modèles de langage (LLMs) ont changé notre façon d'interagir avec l'intelligence artificielle. Ils peuvent générer du texte, répondre à des questions et même comprendre des images. Par contre, ils rencontrent des problèmes appelés "hallucinations", où ils produisent des informations incorrectes ou trompeuses qui ne sont pas soutenues par des connaissances réelles.

Ces problèmes deviennent encore plus compliqués quand on regarde les modèles de langage multimodaux (MLLMs) qui combinent texte et images. Là, les hallucinations peuvent apparaître lorsque le modèle déforme des objets ou des relations dans une image. Par exemple, si un modèle voit un garçon à côté d'une table mais dit que le garçon est sur la table, ce serait une hallucination. Il est essentiel de traiter ces problèmes pour s'assurer que les MLLMs peuvent être fiables dans des scénarios réels.

Qu'est-ce que les hallucinations relationnelles ?

Les hallucinations dans ces modèles peuvent être divisées en trois types principaux : les hallucinations d'objet, les hallucinations d'attribut et les hallucinations relationnelles.

  • Les hallucinations d'objet concernent la capacité du modèle à identifier correctement les objets de base dans une image.
  • Les hallucinations d'attribut évaluent si le modèle peut décrire avec précision des propriétés comme la couleur ou la forme de ces objets.
  • Les hallucinations relationnelles sont plus complexes. Elles portent sur la compréhension des relations entre plusieurs objets dans une image.

Par exemple, si un modèle voit un chat et une chaise et affirme que le chat est assis sur la chaise alors qu'il est en fait sous celle-ci, ce serait une hallucination relationnelle.

Défis de la recherche actuelle

La majorité des recherches sur les hallucinations se concentrent sur les deux premiers types (objet et attribut) et ne vont pas en profondeur sur les hallucinations relationnelles. Les méthodes actuelles pour évaluer ces hallucinations passent souvent à côté de certains détails. Elles peuvent s'appuyer sur des méthodes simples qui ne donnent pas une image complète. Cela peut entraîner des biais selon la façon dont les données sont collectées et étiquetées.

Par exemple, les jeux de données existants pourraient ne pas bien représenter les situations réelles ou pourraient trop insister sur certaines relations. Il y a donc un besoin de créer un standard qui évalue mieux les hallucinations relationnelles dans les MLLMs.

Présentation de Reefknot

Pour relever ces défis, nous avons créé un nouveau standard appelé Reefknot. Ce standard se concentre sur les hallucinations relationnelles dans les MLLMs, comprenant plus de 20 000 exemples du monde réel.

D'abord, nous définissons clairement les hallucinations relationnelles, en combinant des idées sur la façon dont nous percevons les choses et comment nous les pensons. Ensuite, nous construisons un ensemble de données en utilisant une source fiable appelée Visual Genome, qui nous aide à rassembler des relations significatives entre les objets.

Dans notre évaluation, nous avons examiné les MLLMs actuels et constaté qu'ils ont du mal avec les hallucinations relationnelles. Pour aider avec ce problème, nous proposons une nouvelle stratégie qui consiste à mesurer la Confiance du modèle dans ses réponses pour réduire l'occurrence de ces hallucinations.

Évaluation des hallucinations relationnelles

Notre évaluation utilise trois tâches :

  1. Questions Oui/Non (Y/N) : Ces questions demandent au modèle si une certaine relation existe en fonction de l'image.
  2. Questions à Choix Multiples (MCQ) : Cette tâche présente une bonne réponse et trois options incorrectes pour tester la compréhension du modèle.
  3. Réponses à des Questions Visuelles (VQA) : Dans cette tâche, le modèle répond à des questions ouvertes sur l'image.

À travers ces tâches, nous avons découvert que les modèles actuels échouent souvent à gérer efficacement les hallucinations relationnelles.

L'importance de la confiance dans les réponses

Une découverte clé est que beaucoup d'hallucinations surviennent lorsque les modèles manquent de confiance dans leurs réponses. Quand un modèle n'est pas sûr, sa chance de générer une hallucination augmente. Pour contrer cela, nous avons développé une technique appelée "Detect-then-Calibrate."

L'idée est simple : si la confiance d'un modèle tombe en dessous d'un certain niveau, cela suggère que la réponse fournie pourrait être incorrecte. Dans ces cas, nous ajustons la sortie du modèle en utilisant des informations provenant de couches de traitement antérieures pour améliorer la réponse finale. Cette méthode a montré des résultats prometteurs, réduisant les hallucinations de près de 10 % lors de nos tests.

Création du dataset Reefknot

Créer le dataset Reefknot a été un processus minutieux. Nous avons commencé par identifier les triplets relationnels à partir du dataset Visual Genome. Chaque triplet se compose d'un sujet, d'une relation et d'un objet. Après avoir filtré les exemples les moins utiles, nous avons catégorisé les relations en deux types : perceptives et cognitives.

  • Relations perceptives : Celles-ci impliquent des termes locatifs clairs comme "sur" ou "derrière."
  • Relations cognitives : Celles-ci sont plus abstraites et concernent des actions comme "regarder" ou "tenir."

Ensuite, nous avons construit une série de questions basées sur ces relations, en veillant à ce que chaque question soit directement liée au contenu de l'image tout en évitant l'ambiguïté.

Évaluation des MLLMs avec Reefknot

Nous avons testé plusieurs MLLMs populaires en utilisant le standard Reefknot. Les résultats ont montré des différences significatives de performance. Certains modèles s'en sont mieux tirés dans des tâches spécifiques et ont eu du mal dans d'autres, révélant ainsi un besoin d'ajustements sur mesure pour améliorer leur performance globale.

Étonnamment, les hallucinations cognitives apparaissaient moins souvent que les perceptives. Cela peut sembler contre-intuitif. Les modèles sont souvent formés sur des jeux de données riches en descriptions visuelles, leur donnant un avantage dans la compréhension des relations cognitives tout en ratant les perceptives.

Analyse des distributions de probabilité

Notre étude a également examiné comment les niveaux de confiance changent lorsque des hallucinations se produisent. Il semble que lorsque les modèles génèrent des informations incorrectes, leur confiance chute considérablement. Pour des prédictions précises, les modèles montrent généralement une haute confiance, proche de 95 %. Cependant, lorsque des hallucinations surviennent, cette confiance peut chuter à environ 70 %.

En examinant ces modèles de probabilité, nous avons pu identifier les cas d'hallucination plus efficacement. Cette analyse nous aide à comprendre les couches profondes des MLLMs où les hallucinations sont plus susceptibles de se produire.

Méthode Detect-Then-Calibrate

Notre méthode "Detect-then-Calibrate" est essentielle pour lutter contre les hallucinations relationnelles. En surveillant quand les modèles manquent de confiance, nous pouvons mieux ajuster leurs réponses. Si un modèle est trouvé incertain, nous utilisons des états cachés provenant des couches antérieures, qui sont généralement plus fiables, pour améliorer les sorties finales.

À travers des tests rigoureux, cette méthode a montré des améliorations sur plusieurs ensembles de données, confirmant son efficacité.

Conclusion et perspectives d'avenir

Pour conclure, notre travail met en évidence les lacunes importantes dans le traitement des hallucinations relationnelles dans les MLLMs. Le standard Reefknot sert d'outil précieux pour évaluer ces modèles et guider les améliorations futures.

Bien que notre approche actuelle atténue avec succès les hallucinations de base, des explorations plus approfondies sont nécessaires pour comprendre et traiter les hallucinations relationnelles dans des contextes plus larges. À l'avenir, nous visons à enquêter sur les causes profondes de ces problèmes et à affiner nos techniques pour une meilleure fiabilité.

En nous concentrant sur ces domaines, nous espérons contribuer à l'avancement de systèmes d'IA multimodaux fiables, garantissant qu'ils fournissent des interactions précises et significatives dans des applications réelles.

Source originale

Titre: Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models

Résumé: Hallucination issues continue to affect multimodal large language models (MLLMs), with existing research mainly addressing object-level or attribute-level hallucinations, neglecting the more complex relation hallucinations that require advanced reasoning. Current benchmarks for relation hallucinations lack detailed evaluation and effective mitigation, and their datasets often suffer from biases due to systematic annotation processes. To address these challenges, we introduce Reefknot, a comprehensive benchmark targeting relation hallucinations, comprising over 20,000 real-world samples. We provide a systematic definition of relation hallucinations, integrating perceptive and cognitive perspectives, and construct a relation-based corpus using the Visual Genome scene graph dataset. Our comparative evaluation reveals significant limitations in current MLLMs' ability to handle relation hallucinations. Additionally, we propose a novel confidence-based mitigation strategy, which reduces the hallucination rate by an average of 9.75% across three datasets, including Reefknot. Our work offers valuable insights for achieving trustworthy multimodal intelligence.

Auteurs: Kening Zheng, Junkai Chen, Yibo Yan, Xin Zou, Xuming Hu

Dernière mise à jour: 2024-12-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2408.09429

Source PDF: https://arxiv.org/pdf/2408.09429

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires