Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Évaluation des modèles de langage multimodaux avec le benchmark CoIN

Un nouveau benchmark évalue l'apprentissage continu dans les modèles de langage multimodaux.

― 8 min lire


Évaluer les MLLMs avec leÉvaluer les MLLMs avec lebenchmark CoINmultimodaux.dans les modèles de langageUne nouvelle référence révèle des défis
Table des matières

Ces dernières années, les gros modèles de langage capables de gérer à la fois du texte et des images ont suscité beaucoup d'intérêt. Ces modèles, appelés Modèles de Langage Multimodal (MLLM), ont montré un grand potentiel pour comprendre et générer du contenu qui implique à la fois des visuels et du texte. Une méthode courante pour améliorer ces modèles s'appelle l'ajustement d'instructions, où le modèle apprend à mieux suivre les commandes humaines et à s'adapter à différentes tâches en fonction des instructions.

Cependant, ces modèles rencontrent des défis pour garder leurs connaissances existantes tout en apprenant de nouvelles informations ou commandes des utilisateurs. C'est là qu'intervient le concept d'Apprentissage Continu. L'apprentissage continu se concentre sur la capacité d'un modèle à apprendre de nouvelles choses sans oublier ce qu'il a déjà appris. L'objectif est d'équilibrer la capacité à apprendre de nouvelles tâches (plasticité) avec le besoin de se souvenir des connaissances précédentes (stabilité).

Cet article présente un nouveau benchmark appelé Ajustement d'Instruction Continu (CoIN), conçu pour évaluer à quel point les MLLM actuels performent dans ce processus d'ajustement d'instructions continu. CoIN se compose de dix ensembles de données couvrant huit tâches différentes, visant à offrir un ensemble diversifié d'instructions. Les modèles entraînés sont évalués sur deux aspects clés : la façon dont ils suivent les instructions et combien de Connaissances générales ils conservent pour le raisonnement.

Le Défi des MLLMs

Les MLLMs ont la capacité de combiner des informations visuelles et textuelles, ce qui les rend très puissants. Ils subissent généralement une approche d'entraînement en deux phases. D'abord, ils alignent les données visuelles avec les données textuelles pour créer une compréhension fondamentale des deux modalités. Dans la deuxième phase, ils sont affinés en utilisant des données d'instructions soigneusement conçues pour les aider à mieux suivre les commandes humaines.

Malgré leurs capacités avancées, ces modèles ont encore du mal à mettre à jour leurs connaissances et à s'adapter efficacement à de nouvelles instructions. On a constaté que l'entraînement multitâche, où les modèles sont formés à la fois sur d'anciennes et de nouvelles commandes, est une approche prometteuse. Cependant, commencer le processus d'entraînement à zéro avec chaque nouvelle instruction peut être coûteux et chronophage. Par conséquent, trouver des moyens pour les MLLMs d'apprendre de nouvelles informations tout en gardant leurs anciennes compétences est essentiel.

Un Nouveau Benchmark : CoIN

Pour mieux comprendre comment les MLLMs performent dans un environnement d'ajustement d'instructions continu, le benchmark CoIN a été créé. Ce benchmark inclut dix ensembles de données couramment utilisés qui couvrent une gamme de tâches comme le questionnement visuel, la classification d'images, et plus encore. En ayant une variété de tâches et d'instructions, CoIN vise à fournir une évaluation complète des MLLMs.

Dans l'évaluation CoIN, les modèles sont évalués selon deux perspectives : Suivi d'Instruction et Connaissances Générales. Le Suivi d'Instruction mesure à quel point le modèle s'aligne sur l'intention humaine, tandis que les Connaissances Générales évaluent combien de connaissances le modèle conserve pour les tâches de raisonnement.

Résultats des Expériences CoIN

Les premières expériences utilisant CoIN indiquent que de nombreux MLLMs rencontrent encore un oubli significatif, où ils perdent la capacité à suivre des instructions précédentes plutôt que de perdre des connaissances elles-mêmes. Ce problème d'"oubli catastrophique" se produit lorsque l'apprentissage de nouvelles tâches interfère avec la capacité du modèle à se souvenir des anciennes tâches.

Pour y remédier, une méthode appelée Mélange d'Experts (MoE) a été introduite aux MLLMs. Cette méthode permet au modèle d'utiliser des experts séparés qui se spécialisent dans différents domaines de connaissance. En tirant parti de ces experts, le modèle peut conserver sa capacité à suivre des instructions précédentes tout en apprenant de nouvelles. Les résultats des expériences montrent que cette méthode réduit efficacement l'oubli.

L'Importance de l'Ajustement d'Instructions

L'ajustement d'instructions est vital pour les MLLMs car il les aide à suivre des commandes en langage naturel. Différentes stratégies ont été utilisées pour créer des données d'instructions, allant de l'utilisation d'ensembles de données existants à la génération de nouvelles instructions basées sur des modèles de langue puissants. Cependant, l'accent mis sur les types de tâches traditionnels peut limiter la diversité des instructions.

CoIN tente de surmonter cette limitation en incorporant une large gamme de tâches et de modèles d'instructions. Cette diversité vise à tester les modèles de manière approfondie et à comprendre comment ils s'adaptent à différents types d'instructions.

Méthodes d'Évaluation dans CoIN

L'évaluation des MLLMs dans CoIN repose sur deux aspects principaux : Suivi d'Instruction et Connaissances Générales.

Suivi d'Instruction

Cet aspect examine à quel point le modèle peut générer la bonne réponse dans le format désiré pour correspondre à l'intention humaine. Pour évaluer cette capacité, les sorties des MLLMs sont comparées directement à la vérité de terrain, qui sert de bonne réponse. Divers métriques sont utilisées pour mesurer la précision pour différentes tâches.

Par exemple, dans les tâches de questionnement visuel, la précision est calculée en fonction du nombre de réponses que le modèle obtient correctement. Pour les tâches de classification, la performance est évaluée en comparant les étiquettes prédites avec les étiquettes réelles.

Connaissances Générales

Les connaissances générales évaluent la compréhension que les modèles possèdent au-delà de simplement suivre des instructions. L'évaluation des connaissances générales implique d'analyser les résultats prédits à un niveau sémantique, en considérant si l'information contenue dans la réponse du modèle est logiquement précise.

Pour ce faire, un autre puissant modèle de langage est utilisé pour évaluer les sorties sans se concentrer sur la structure, mais en regardant plutôt l'information centrale. Cela permet d'obtenir une compréhension plus nuancée de ce que le modèle sait au-delà de simplement suivre des commandes.

Principaux Enseignements de CoIN

Les résultats de CoIN révèlent plusieurs enseignements importants concernant les MLLMs et leurs capacités de Suivi des instructions.

  1. Importance des Instructions Diverses : Les modèles performent mieux lorsqu'ils sont entraînés sur une variété de tâches et d'instructions. La capacité à s'ajuster à des instructions variées conduit à une performance améliorée par rapport à l'utilisation d'un seul type d'instruction.

  2. Impact du Volume de Données d'Entraînement : Le volume des données d'entraînement influence la performance, où plus de données tendent à améliorer les résultats jusqu'à un certain point. Cependant, si trop de nouvelles informations sont introduites trop rapidement, cela peut entraîner un oubli des connaissances précédemment acquises.

  3. Rôle des Experts : Le nombre d'experts utilisés dans le cadre MoE affecte considérablement la capacité du modèle à apprendre et à retenir des connaissances diverses. Plus d'experts permettent une meilleure spécialisation, diminuant l'interférence provenant de tâches non liées.

  4. Dynamiques d'Oubli : On a observé que l'oubli des connaissances générales est plus gérable que l'oubli du suivi d'instructions. Cela indique que, bien que les modèles puissent conserver des informations, ils peuvent avoir du mal à s'aligner sur des intentions humaines spécifiques.

Conclusion

Le benchmark CoIN ouvre de nouvelles voies pour évaluer les MLLMs dans le contexte de l'ajustement d'instructions continu. En se concentrant sur des tâches diverses et en appliquant des méthodes d'évaluation qui prennent en compte à la fois le suivi des instructions et les connaissances générales, les chercheurs peuvent mieux comprendre comment ces modèles fonctionnent et comment améliorer leurs capacités.

À mesure que les MLLMs continuent d'évoluer, les enseignements tirés de benchmarks comme CoIN aideront à orienter le développement de meilleures stratégies pour l'ajustement des instructions, menant finalement à des modèles plus robustes capables de s'adapter aux besoins changeants des utilisateurs sans perdre ce qu'ils ont déjà appris.

Cette recherche continue sur la façon dont les MLLMs apprennent et se souviennent sera cruciale pour faire avancer le domaine de l'intelligence artificielle, en particulier dans les applications qui nécessitent une intégration approfondie des informations textuelles et visuelles.

Source originale

Titre: CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model

Résumé: Instruction tuning represents a prevalent strategy employed by Multimodal Large Language Models (MLLMs) to align with human instructions and adapt to new tasks. Nevertheless, MLLMs encounter the challenge of adapting to users' evolving knowledge and demands. Therefore, how to retain existing skills while acquiring new knowledge needs to be investigated. In this paper, we present a comprehensive benchmark, namely Continual Instruction tuNing (CoIN), to assess existing MLLMs in the sequential instruction tuning paradigm. CoIN comprises 10 commonly used datasets spanning 8 task categories, ensuring a diverse range of instructions and tasks. Besides, the trained model is evaluated from two aspects: Instruction Following and General Knowledge, which assess the alignment with human intention and knowledge preserved for reasoning, respectively. Experiments on CoIN demonstrate that current powerful MLLMs still suffer catastrophic forgetting, and the failure in intention alignment assumes the main responsibility, instead of the knowledge forgetting. To this end, we introduce MoELoRA to MLLMs which is effective to retain the previous instruction alignment. Experimental results consistently illustrate the forgetting decreased from this method on CoIN.

Auteurs: Cheng Chen, Junchen Zhu, Xu Luo, Hengtao Shen, Lianli Gao, Jingkuan Song

Dernière mise à jour: 2024-10-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.08350

Source PDF: https://arxiv.org/pdf/2403.08350

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires