Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Faire avancer la vision par machine avec le projet Tout-Voyant

Un nouveau projet améliore la compréhension visuelle des machines grâce à un gros dataset.

― 7 min lire


Projet Omniscient : UneProjet Omniscient : UneNouvelle Visiondonnées visuelles par les machines.Révolutionner la compréhension des
Table des matières

Le projet All-Seeing a pour but d'améliorer la manière dont les machines reconnaissent et comprennent ce qu'elles voient autour d'elles. Ce projet se concentre sur la création d'un énorme dataset et d'un modèle capable de reconnaître et de comprendre divers objets et concepts dans les images.

Ce qu'on a fait

On a construit un dataset complet qui contient plus d'un milliard de régions étiquetées provenant de nombreuses images. Chaque région a des tags spécifiques qui décrivent ce qu'il y a dans cette partie de l'image. En plus de ces tags, on a ajouté des paires questions-réponses, ainsi que des légendes détaillées qui donnent plus de contexte.

Ce dataset couvre 3,5 millions de concepts différents, allant des objets du quotidien aux occurrences rares. Il contient aussi environ 132 milliards de mots qui décrivent ces concepts et leurs caractéristiques.

Pour s'assurer que ce dataset serait utile, on a utilisé un moteur de données évolutif. Ce moteur collecte les retours humains et utilise des Modèles efficaces pour créer des données de haute qualité. En combinant ces éléments, on a développé un nouveau modèle qui peut reconnaître et comprendre les informations visuelles de manière impressionnante.

Le modèle All-Seeing

Le cœur de notre projet, c’est le modèle All-Seeing, qu’on appelle ASM. Ce modèle est conçu pour fonctionner de différentes manières, utilisant des invites en langage ouvert et des emplacements spécifiques dans les images. Avec cette configuration, le modèle peut accomplir une large gamme de tâches liées à la compréhension visuelle et linguistique avec d'excellents résultats, même s'il n'a jamais vu certaines tâches auparavant.

ASM peut faire des trucs comme récupérer du texte basé sur des régions dans une image, reconnaître différentes parties d'une image, créer des légendes et répondre à des questions liées aux images. Notre espoir, c'est que ce modèle fournira une base solide pour la recherche future en intelligence artificielle, particulièrement pour développer des systèmes comparables à l'intelligence humaine.

L'importance des données

Les données jouent un rôle crucial dans le succès des modèles de deep learning, surtout en Reconnaissance Visuelle. Les datasets précédents étaient souvent limités en taille et en portée, ce qui rendait difficile l'apprentissage efficace des modèles. Beaucoup de datasets populaires se concentrent sur la classification d'images entières plutôt que de reconnaître des éléments individuels dans celles-ci.

Pour résoudre ces limitations, on a créé le dataset All-Seeing. Notre dataset contient non seulement une énorme quantité de données mais aussi des Annotations détaillées qui aident le modèle à apprendre plus efficacement. On collecte les données en utilisant un moteur semi-automatique qui réduit considérablement les coûts associés aux annotations manuelles.

Comment on a collecté les données

Notre processus de collecte de données implique une boucle qui combine génération de données, vérification humaine et amélioration du modèle. D'abord, on utilise divers modèles entraînés qui peuvent annoter des régions dans les images. Après ce premier passage, des annotateurs humains examinent le résultat et fournissent des retours pour améliorer la qualité des annotations. Ce cycle continue jusqu'à ce que les données soient aussi précises que possible.

On utilise aussi une méthode où divers modèles travaillent ensemble pour collecter des informations de localisation complètes. Cette approche collaborative nous permet de nous assurer qu'on capture différentes instances dans une image sans manquer des détails importants.

Le rôle des retours humains

La vérification humaine est cruciale pour maintenir la qualité de notre dataset. Même si des processus automatisés génèrent une grande quantité de données, ils peuvent quand même produire des erreurs. Pour contrer cela, une équipe d'annotateurs humains passe en revue les données collectées. Ils vérifient l'exactitude, corrigent les erreurs et s'assurent que des tags sémantiquement pertinents sont attachés à chaque région.

Cette supervision humaine améliore non seulement la qualité des données mais augmente aussi la fiabilité du modèle entraîné sur ces données.

Éléments clés de notre approche

Sources de données diverses

Le dataset All-Seeing inclut une variété de tags sémantiques générés par plusieurs modèles. Chaque tag permet au modèle de mieux identifier et décrire les divers objets et attributs trouvés dans les images. Différents modèles se concentrent sur différents aspects, comme identifier des objets principaux ou des attributs visuels. Cette stratégie garantit qu'on capture un large éventail de concepts.

Annotation automatique et manuelle

La combinaison d'annotations automatiques avec vérification humaine permet une collecte de données efficace tout en assurant la qualité. Les annotations automatisées génèrent rapidement une quantité significative de données, tandis que les humains peaufine ces entrées pour corriger les erreurs, améliorant ainsi le dataset final.

Application du modèle All-Seeing

Le modèle ASM montre des capacités impressionnantes dans plusieurs domaines. Il excelle à aligner des régions d'une image avec le texte correspondant et à générer des réponses articulées. La capacité du modèle à gérer à la fois des tâches génératives (création de légendes et réponses aux questions) et des tâches discriminatives (association de texte avec des images) le rend polyvalent.

De plus, même si le modèle ASM est entraîné avec diverses sources de données, il peut produire des performances de haut niveau dans différentes tâches sans avoir besoin d'un entraînement spécial pour chaque tâche.

Évaluation de la performance

On effectue des évaluations rigoureuses pour mesurer le succès de notre dataset et de notre modèle. En comparant notre modèle All-Seeing avec d'autres modèles existants, on peut voir des améliorations significatives en termes de performance. Nos expériences montrent que l'ASM surpasse constamment d'autres modèles populaires dans la reconnaissance et la compréhension des objets dans les images.

Défis rencontrés

Bien qu'on ait fait des avancées significatives, il reste des défis. Un défi est la disponibilité limitée de datasets open-world qui fournissent des données à un niveau d'instance adéquat. Beaucoup de datasets existants se concentrent sur des images entières et ne fournissent pas les informations détaillées nécessaires à une reconnaissance visuelle efficace.

Un autre défi est de s'assurer que l'information spatiale soit bien représentée dans le modèle. On doit maintenir une compréhension de la façon dont différentes parties d'une image sont liées entre elles, ce qui peut être complexe.

Avancer

Notre objectif est de faire progresser la reconnaissance et la compréhension visuelle encore plus. On vise à peaufiner régulièrement notre modèle, en veillant à ce qu'il reste pertinent et précis dans la reconnaissance de nouveaux concepts. En continuant de rassembler des données et d'améliorer notre modèle, on espère se rapprocher du développement d'une intelligence artificielle qui mime la compréhension humaine du monde visuel.

Conclusion

Le projet All-Seeing représente un pas important vers l'amélioration de la manière dont les machines perçoivent et comprennent le monde. En utilisant un riche dataset collecté par des méthodes innovantes, combiné avec un modèle robuste, on a créé un outil puissant pour la reconnaissance visuelle.

Le travail réalisé dans ce projet établit une base pour de futures avancées en intelligence artificielle, guidant les recherches et développements futurs destinés à créer des systèmes intelligents capables d'une compréhension visuelle profonde.

Source originale

Titre: The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World

Résumé: We present the All-Seeing (AS) project: a large-scale data and model for recognizing and understanding everything in the open world. Using a scalable data engine that incorporates human feedback and efficient models in the loop, we create a new dataset (AS-1B) with over 1 billion regions annotated with semantic tags, question-answering pairs, and detailed captions. It covers a wide range of 3.5 million common and rare concepts in the real world, and has 132.2 billion tokens that describe the concepts and their attributes. Leveraging this new dataset, we develop the All-Seeing model (ASM), a unified framework for panoptic visual recognition and understanding. The model is trained with open-ended language prompts and locations, which allows it to generalize to various vision and language tasks with remarkable zero-shot performance, including region-text retrieval, region recognition, captioning, and question-answering. We hope that this project can serve as a foundation for vision-language artificial general intelligence research. Models and the dataset shall be released at https://github.com/OpenGVLab/All-Seeing, and demo can be seen at https://huggingface.co/spaces/OpenGVLab/all-seeing.

Auteurs: Weiyun Wang, Min Shi, Qingyun Li, Wenhai Wang, Zhenhang Huang, Linjie Xing, Zhe Chen, Hao Li, Xizhou Zhu, Zhiguo Cao, Yushi Chen, Tong Lu, Jifeng Dai, Yu Qiao

Dernière mise à jour: 2023-08-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.01907

Source PDF: https://arxiv.org/pdf/2308.01907

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires