Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

VisionLLM : Faire le lien entre les tâches de langue et de vision

Un nouveau cadre pour combiner efficacement la compréhension du langage et les tâches visuelles.

― 6 min lire


VisionLLM : La langueVisionLLM : La languerencontre la visionlinguistiques et des tâches visuelles.Un cadre qui relie des instructions
Table des matières

Les grands modèles de langage (LLMs) attirent beaucoup d'attention car ils sont super efficaces pour gérer les tâches linguistiques. Ils comprennent les demandes des utilisateurs et donnent des réponses pertinentes. Mais quand il s'agit de tâches visuelles, ces modèles ont du mal. Les modèles de vision traditionnels ne fonctionnent qu'avec des tâches spécifiques et ne sont pas très performants dans des situations ouvertes. Cet article présente un nouveau cadre appelé VisionLLM qui vise à combler le fossé entre les tâches de langue et de vision.

Le défi avec les modèles actuels

Les modèles de vision actuels ont un processus clair : d'abord, ils sont formés sur un ensemble général de tâches, puis affinés pour des tâches spécifiques. Cette approche est efficace mais a quelques inconvénients. Par exemple, il peut être coûteux et long d'adapter ces modèles à de nouvelles tâches. De plus, de nombreuses tâches visuelles nécessitent un format spécifique, ce qui rend difficile pour ces modèles de s’adapter à des instructions ouvertes comme celles utilisées dans les LLMs.

Il y a aussi des méthodes récentes qui essaient de combiner les tâches de langage et visuelles. Le tuning des prompts visuels permet aux utilisateurs de définir des tâches à l'aide de prompts visuels, mais ça ne s'aligne souvent pas bien avec les instructions linguistiques. Par conséquent, un nouveau cadre unifié est nécessaire pour combiner efficacement les forces des LLMs et des modèles de vision.

Présentation de VisionLLM

VisionLLM est un cadre conçu pour gérer des tâches centrées sur la vision en utilisant des instructions linguistiques. Ce modèle traite les images et les tâches visuelles comme une langue étrangère. Il propose une manière plus flexible de définir diverses tâches, permettant de personnaliser en fonction de différents besoins.

Fonctionnalités clés

Le cadre VisionLLM se compose de trois composants principaux :

  1. Instruction linguistique unifiée : Cela offre un moyen cohérent de définir des tâches de vision et de vision-langue. Les utilisateurs peuvent décrire ce dont ils ont besoin dans un langage simple, ce qui facilite la personnalisation des tâches selon leurs besoins.

  2. Tokeniseur d'image guidé par le langage : Au lieu d'utiliser des patches de taille fixe pour représenter des images, ce tokeniseur s'adapte aux instructions données. Il transforme les informations visuelles en un format pouvant être traité avec le langage, facilitant ainsi la compréhension de ce qui est nécessaire pour le modèle.

  3. Décodeur de tâches ouvertes basé sur LLM : Cette partie du cadre utilise les informations du tokeniseur et des instructions linguistiques pour générer des sorties pertinentes. Elle combine efficacement les éléments visuels et linguistiques pour fournir des réponses ou des prédictions basées sur le contexte fourni.

Flexibilité dans la personnalisation des tâches

Une des caractéristiques marquantes de VisionLLM est sa capacité à personnaliser les tâches à différents niveaux. Les utilisateurs peuvent interagir avec le modèle pour spécifier ce qu'ils veulent qu'il fasse. Par exemple, ils peuvent vouloir que le modèle détecte des objets spécifiques, décrive une image en détail, ou réponde à des questions basées sur une entrée visuelle. Le modèle s'en sort bien dans ces tâches, atteignant souvent des résultats comparables à ceux de modèles plus spécialisés.

Exemples de tâches

Voici quelques exemples de tâches que VisionLLM peut gérer efficacement :

  • Détection d'objets : Les utilisateurs peuvent demander au modèle d'identifier des objets spécifiques dans une image. Le cadre permet diverses manières de préciser les types d'objets, conduisant à une identification et une localisation précises.

  • Légendage d'images : En fournissant un prompt descriptif, les utilisateurs peuvent obtenir des légendes détaillées pour les images. Cela peut être utile dans divers applications, comme créer des descriptions pour les personnes malvoyantes.

  • Réponse à des questions visuelles : Les utilisateurs peuvent poser des questions liées à des images spécifiques, et le modèle peut générer des réponses basées sur le contenu visuel fourni.

Validation expérimentale

Pour valider l'efficacité de VisionLLM, divers tests ont été effectués sur différentes tâches centrées sur la vision. Le modèle a été évalué pour sa capacité à gérer des tâches allant de simples à complexes. Ces tests comprenaient :

  • Détection d'objets et segmentation d'instances : Le modèle a montré de bonnes performances, comparables à celles des modèles dédiés existants.

  • Ancrage visuel : VisionLLM a réussi à identifier des objets dans des images en fonction des instructions données.

  • Légendage d'images et réponse à des questions visuelles : Dans ces tâches, le modèle a fourni des sorties cohérentes et contextuellement pertinentes.

Architecture innovante

L’architecture de VisionLLM est conçue pour assurer une connexion efficace entre les tâches linguistiques et visuelles. En combinant divers composants, le cadre permet des interactions fluides et une adaptabilité. Chaque partie du système joue un rôle crucial pour garantir que le modèle peut gérer un large éventail de tâches.

Instruction linguistique unifiée

Ce composant est essentiel car il garantit que les utilisateurs peuvent communiquer leurs besoins dans un langage clair. Les instructions peuvent être ajustées pour différentes tâches, ce qui facilite la spécification de ce que les utilisateurs veulent du modèle.

Tokeniseur d'image guidé par le langage

Ce tokeniseur est unique car il traite les images comme un type de langue. En transformant les informations visuelles en un format tokenisé, le modèle peut mieux aligner le contenu visuel avec les instructions linguistiques. Cette étape est cruciale pour s'assurer que le modèle peut interpréter avec précision les données visuelles et réagir de manière appropriée.

Décodeur de tâches ouvertes basé sur LLM

Ce décodeur est là où le véritable traitement se produit. Il prend les tokens du tokeniseur et les instructions linguistiques pour générer des sorties. Cette partie du cadre montre la puissance des LLMs dans la gestion de tâches complexes basées sur des entrées visuelles.

Conclusion

VisionLLM représente un pas en avant significatif dans l'intégration des tâches de langue et de vision à travers une approche unifiée. En permettant aux utilisateurs de définir des tâches de manière flexible en utilisant des instructions linguistiques, le modèle peut effectivement tirer parti des forces de la langue et de la vision. Les résultats prometteurs des expériences ouvrent la voie à un avenir où des modèles généralistes peuvent gérer sans effort diverses tâches sans être contraints par des formats préétablis. VisionLLM ouvre de nouvelles possibilités pour le développement de modèles flexibles et puissants qui peuvent combler le fossé entre la vision et la langue.

Source originale

Titre: VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

Résumé: Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.

Auteurs: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai

Dernière mise à jour: 2023-05-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.11175

Source PDF: https://arxiv.org/pdf/2305.11175

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires