Faire avancer la reconnaissance d'images grâce aux idées humaines
Un nouveau réseau améliore la reconnaissance d'images en se basant sur les principes du système visuel humain.
Gianluca Carloni, Sara Colantonio
― 6 min lire
Table des matières
Cet article parle d'une nouvelle approche pour la reconnaissance d'image, inspirée par la façon dont les humains voient et comprennent le monde. Le but est d'améliorer les systèmes de Vision par ordinateur en apprenant du système visuel humain. Les objectifs principaux sont de trois sortes : expliquer comment les humains traitent l'information visuelle, introduire un nouveau type de Réseau de neurones pour classifier les images, et présenter un module qui aide les ordinateurs à comprendre le contexte. En regardant comment notre cerveau fonctionne, on peut améliorer la façon dont les machines reconnaissent les images.
Le Système Visuel Humain
Comprendre comment le système visuel humain fonctionne est essentiel. Traditionnellement, les scientifiques pensaient qu'il y avait deux voies principales dans le cerveau responsables de ce que l'on voit. La première voie, appelée le flux ventral, se concentre sur la reconnaissance des objets en fonction de caractéristiques comme la couleur et la forme. Elle va de l'arrière du cerveau (le cortex visuel primaire) à l'avant (le cortex préfrontal), où l'on relie ce que l'on voit à nos souvenirs et actions.
La deuxième voie, connue sous le nom de flux dorsal, gère où se trouvent les objets dans l'espace et comment on interagit avec eux. Cette voie commence aussi dans le cortex visuel primaire mais va à une autre partie du cerveau (le lobe pariétal). Alors que le flux ventral répond à la question "Qu'est-ce que c'est ?", le flux dorsal traite de "Où est-ce ?" ou "Comment on l'utilise ?"
Les deux voies communiquent entre elles, ce qui veut dire qu'elles ne travaillent pas isolément. Par exemple, pendant que le flux ventral nous dit ce qu'un objet est, le flux dorsal peut aider à guider nos actions vers cet objet. Des recherches récentes montrent que les deux voies partagent des informations, ce qui aide à mieux comprendre le monde qui nous entoure.
Le Contexte dans la Vision
Le contexte joue un rôle important dans la façon dont on reconnaît les objets. L'environnement autour d'un objet peut donner des indices sur ce que c'est. Par exemple, si on voit quelque chose dans le ciel, on est plus enclin à penser que c'est un avion plutôt qu'un cochon. En tenant compte du contexte, notre cerveau peut réduire les possibilités et prendre de meilleures décisions sur ce qu'il voit.
Les systèmes de vision par ordinateur doivent aussi comprendre le contexte pour améliorer leur capacité à reconnaître les objets dans les images. Beaucoup de solutions existantes essaient d'incorporer le contexte mais ajoutent souvent de la complexité et des coûts de calcul. Cet article propose une nouvelle méthode qui n'augmente pas le nombre de paramètres apprenables, ce qui la rend plus efficace.
Le Réseau Proposé
Le nouveau réseau, appelé CoCoReco, est conçu pour classifier les images en imitant le fonctionnement du cerveau humain. Il a deux branches inspirées des voies ventrale et dorsale. La structure de CoCoReco lui permet de traiter l'information de différentes parties du cerveau en même temps, au lieu de suivre un chemin unique du début à la fin.
CoCoReco implémente également une technique appelée modulation descendante. Cela signifie qu'une compréhension de haut niveau peut influencer le traitement de bas niveau. Par exemple, l'information venant du cortex préfrontal peut aider à affiner comment le système interprète les détails des zones visuelles précédentes, tout comme nos processus de pensée peuvent façonner nos perceptions.
Blocs d'Attention
Au cœur de CoCoReco se trouve un module appelé le Bloc d'Attention Contextuelle (CAB). Ce bloc améliore la capacité du réseau à prendre en compte le contexte tout en classifiant les images. Il calcule des scores d'attention qui aident à se concentrer sur des caractéristiques significatives de l'image. En plaçant plusieurs modules CAB à des points stratégiques dans le réseau, CoCoReco peut construire une hiérarchie d'attention qui reflète comment les humains priorisent l'information.
Par exemple, un CAB pourrait se concentrer sur un contexte général provenant de l'entrée visuelle initiale, tandis qu'un autre pourrait fournir une compréhension plus détaillée en fonction des objectifs ou des tâches. Cette approche en couches de l'attention aide le réseau à développer une compréhension plus nuancée des images, ce qui le rend capable de reconnaître les objets plus précisément.
Configuration Expérimentale
Pour tester l'efficacité du réseau CoCoReco, des expériences ont été réalisées en utilisant un ensemble de données appelé ImagenetteV2. Cet ensemble contient des images de dix catégories différentes qui sont relativement faciles à classifier. Les images ont été traitées à une résolution spécifique, et l'ensemble des données a été divisé en ensembles d'entraînement, de validation et de test pour évaluer la performance.
L'objectif principal pour CoCoReco impliquait deux types de fonctions de perte pendant l'entraînement. L'une portait sur l'exactitude des classifications, tandis que l'autre se concentrait sur l'alignement des caractéristiques des catégories similaires. Cette approche duale a aidé le réseau à apprendre de meilleures représentations des objets.
Résultats
Lors des tests de CoCoReco par rapport à d'autres modèles, il a constamment obtenu de meilleurs résultats en termes d'exactitude et d'efficacité. Les résultats ont montré que le design unique de CoCoReco, notamment son accent sur le contexte et les voies duales, a conduit à des résultats de reconnaissance d'image plus fiables.
En plus de l'exactitude, la qualité des explications fournies par CoCoReco a également été évaluée. En utilisant une technique appelée cartographie d'activation de classe, le modèle a pu mettre en avant les parties importantes des images qui ont contribué à ses décisions. Comparées à d'autres méthodes, les explications de CoCoReco étaient plus claires et plus centrées sur les principaux objets classifiés, évitant les distractions causées par des éléments d'arrière-plan non pertinents.
Par exemple, en identifiant un chien, CoCoReco mettait en avant la tête du chien plutôt que des éléments non liés comme des gens en arrière-plan. De même, en classifiant un poisson, il ciblait la texture du poisson, ignorant d'autres caractéristiques qui pouvaient être présentes dans la scène.
Conclusion
Cette nouvelle approche de la reconnaissance d'image montre un potentiel prometteur pour faire avancer la vision par ordinateur. En prenant des indices du système visuel humain et en mettant l'accent sur le contexte, le réseau CoCoReco est capable d'exceller dans les tâches de classification d'images tout en fournissant des explications plus claires pour ses décisions. La capacité d'intégrer une compréhension contextuelle sans complexité supplémentaire pourrait ouvrir la voie à des solutions IA plus efficaces dans diverses applications.
Dans l'ensemble, ce travail illustre les avantages de s'inspirer de la conception du cerveau humain pour améliorer les capacités de l'intelligence artificielle, ce qui peut enrichir la façon dont les machines perçoivent le monde qui les entoure.
Titre: Connectivity-Inspired Network for Context-Aware Recognition
Résumé: The aim of this paper is threefold. We inform the AI practitioner about the human visual system with an extensive literature review; we propose a novel biologically motivated neural network for image classification; and, finally, we present a new plug-and-play module to model context awareness. We focus on the effect of incorporating circuit motifs found in biological brains to address visual recognition. Our convolutional architecture is inspired by the connectivity of human cortical and subcortical streams, and we implement bottom-up and top-down modulations that mimic the extensive afferent and efferent connections between visual and cognitive areas. Our Contextual Attention Block is simple and effective and can be integrated with any feed-forward neural network. It infers weights that multiply the feature maps according to their causal influence on the scene, modeling the co-occurrence of different objects in the image. We place our module at different bottlenecks to infuse a hierarchical context awareness into the model. We validated our proposals through image classification experiments on benchmark data and found a consistent improvement in performance and the robustness of the produced explanations via class activation. Our code is available at https://github.com/gianlucarloni/CoCoReco.
Auteurs: Gianluca Carloni, Sara Colantonio
Dernière mise à jour: 2024-09-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.04360
Source PDF: https://arxiv.org/pdf/2409.04360
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.