Réseaux de neurones profonds et défis de la reconnaissance des formes
Des recherches montrent pourquoi les DNN galèrent avec le traitement des formes comparé aux humains.
― 11 min lire
Table des matières
Les récentes avancées en deep learning ont ouvert de nouvelles perspectives pour étudier le fonctionnement du cerveau. Les réseaux de neurones profonds (DNN) sont devenus super doués pour des tâches comme reconnaître des images et générer du langage. Parfois, ces réseaux font même mieux que les humains. Pour les chercheurs en neurosciences, avoir des modèles qui peuvent imiter des comportements complexes est un outil important pour comprendre les processus cérébraux.
Les réseaux de neurones profonds ont d'abord été inspirés par les réseaux biologiques du cerveau. Comme le cerveau, ces réseaux sont composés d'unités simples qui se connectent de manière complexe. Cette structure permet aux DNN de représenter des idées à différents niveaux, des fonctions spécifiques des unités individuelles à des concepts plus larges sur la façon dont l'apprentissage façonne l'activité cérébrale. Cette approche a particulièrement bien fonctionné pour comprendre comment on traite l'information visuelle. Les DNN peuvent prédire avec précision comment notre cerveau interprète les images et même créer de fausses images pour tester comment des neurones spécifiques réagissent.
Cependant, utiliser ces réseaux comme modèles du cerveau a ses limites. Les critiques soulignent que même si un DNN réussit une tâche, ça ne veut pas dire qu'il utilise les mêmes stratégies que les humains. Bien que les réseaux peuvent classer les images de manière similaire à un humain, les méthodes qu'ils utilisent pour y arriver peuvent être très différentes. Même si les DNN partagent certaines caractéristiques avec le cortex visuel humain, ils manquent de fonctionnalités cruciales qui contribuent à notre façon de voir et d'interpréter les images. Des preuves montrent que les DNN traitent les images différemment des humains ; par exemple, ils peuvent être trompés par des images manipulées, sont moins résistants aux changements dans les images et ne montrent pas les principes organisationnels fondamentaux à la perception humaine.
Une grande différence est que les humains s'appuient beaucoup sur la forme d'un objet pour l'identifier, alors que les réseaux de neurones ont tendance à se concentrer sur la texture et d'autres aspects superficiels. Cette différence met en lumière les difficultés des DNN à reconnaître la forme globale des objets comme le font les humains.
Les chercheurs ont proposé une nouvelle stratégie appelée "neuroconnectionisme", qui considère ces différences non pas comme des défauts mais comme des opportunités de recherche. En examinant pourquoi les DNN traitent les Formes différemment des humains, les scientifiques espèrent découvrir les composants et mécanismes nécessaires à une compréhension des formes comme celle des humains.
Investigation du traitement des formes dans les réseaux de neurones
Des preuves de limitations des DNN dans le traitement des formes ont émergé de plusieurs études. Bien que ces réseaux puissent utiliser certaines informations de forme - par exemple, identifier des contours de base - ils ont du mal avec les formes globales quand les images sont distordues. Lorsque la forme est tout aussi informative qu'une autre caractéristique, comme la couleur, les réseaux ont souvent tendance à privilégier l'autre caractéristique. Cela entraîne une tendance des réseaux formés sur des images réelles à favoriser la texture, ce qui a été documenté dans diverses études.
Cette préférence pour la texture plutôt que pour la forme est notable et a attiré l'attention des experts en machine learning. Pour contrer ce biais, plusieurs stratégies ont été proposées, comme s'entraîner sur des images stylisées ou améliorer les données de certaines manières. Cependant, simplement augmenter la sensibilité à la forme ne garantit pas un véritable traitement de la forme, car c'est juste une métrique parmi tant d'autres.
Malgré des recherches approfondies sur pourquoi les DNN montrent un biais vers la forme, il n'y a pas encore d'explication claire. Deux principales hypothèses ont émergé :
Apprentissage par raccourci : Cette idée suggère que les DNN simplifient la tâche en se concentrant sur les caractéristiques les plus faciles à apprendre. Si d'autres caractéristiques n'offrent pas de puissance prédictive supplémentaire, elles peuvent être ignorées.
Déficiences architecturales : Cette hypothèse suppose que les DNN actuels manquent de certains composants qui permettent un traitement efficace de la forme. Certaines structures trouvées dans les systèmes biologiques, comme les connexions de rétroaction, pourraient être nécessaires.
Chacune de ces hypothèses soulève encore plus de questions. Avec l'apprentissage par raccourci, la question fondamentale change de pourquoi les réseaux favorisent la texture plutôt que la forme à pourquoi reconnaître les Textures est plus simple pour les DNN. Pendant ce temps, s'il y a des déficiences architecturales, qu'est-ce qui manque exactement dans ces réseaux qui entrave le traitement de la forme ?
Ces questions posent des défis puisque la forme et la texture ne sont pas précisément définies, surtout dans les images naturelles. Bien qu'on reconnaisse intuitivement les formes, on manque de définitions formelles qui permettraient de tester si un réseau peut vraiment traiter une forme spécifique.
Une approche pour aborder ce problème est d'utiliser des images artificielles dont les formes et textures sont générées de manière contrôlée. Par exemple, des chercheurs ont créé des images où des taches colorées forment des formes simples et ont examiné à quel point les humains et les DNN peuvent distinguer des catégories basées sur différentes caractéristiques comme la forme, la couleur ou la texture. Globalement, ce type d'étude se concentre sur la compréhension des raisons pour lesquelles les réseaux de neurones ont du mal à reconnaître les formes.
Dans une série d'expériences, des ensembles de données d'images artificielles ont été conçus où des caractéristiques simples de forme, de couleur ou de texture indiquaient la catégorie d'un objet. L'objectif était de déterminer les schémas de biais dans divers réseaux de neurones. En entraînant des réseaux sur différentes combinaisons de caractéristiques, les chercheurs ont découvert que la plupart des réseaux montraient les mêmes biais envers la couleur et la texture que ceux observés précédemment dans les images naturelles.
Expérimentation avec les réseaux de neurones
Expérience 1 : Confirmation du biais dans les réseaux de neurones
Dans la première expérience, quatre ensembles de données d'images artificielles ont été créés où chaque image montrait un seul objet sur un fond gris. L'objectif était d'évaluer si les réseaux entraînés sur ces ensembles de données démontraient la même préférence pour la couleur ou la texture plutôt que pour la forme. Par exemple, un ensemble de données présentait des rectangles colorés, où l'appartenance à une classe dépendait de la forme (horizontale ou verticale) et de la couleur (rouge, bleu, vert ou magenta).
Les chercheurs ont entraîné plusieurs Architectures de réseaux de neurones sur chaque ensemble de données et ont évalué leurs performances sur différents ensembles de tests. Ils ont examiné si les réseaux classaient correctement lorsqu'une seule caractéristique était visible, et s'ils montraient un biais vers une caractéristique quand les deux étaient disponibles.
Les résultats ont indiqué que presque tous les réseaux standards affichaient une préférence claire pour la couleur ou la texture. Bien que les réseaux aient obtenu une haute précision en s'entraînant sur les ensembles de données de couleur et de texture, ils ont mal performé lorsqu'ils ont été testés uniquement avec des données de forme. La plupart des réseaux ont montré des niveaux de performance proches du hasard, indiquant qu'ils avaient appris à s'appuyer sur la couleur ou la texture plutôt que sur la forme.
L'exception était une architecture de réseau spécifique, spcConvNet, qui a mieux performé face à des données de forme par rapport à celles de couleur ou de texture. Cela a suggéré que même dans un ensemble de données contrôlées, les réseaux montraient des biais similaires à ceux observés dans les images naturelles.
Expérience 2 : Classification des formes
La deuxième expérience s'est concentrée sur la capacité de ces réseaux à classer les images uniquement par leur forme quand aucune autre caractéristique n'était présente. Les chercheurs ont entraîné les mêmes réseaux sur des versions uniquement basées sur la forme des ensembles de données. Cela a permis un test direct entre les deux hypothèses : si les réseaux pouvaient combler leurs capacités de classification de forme ou si leur architecture manquait fondamentalement de la capacité à traiter efficacement les formes.
Les résultats ont révélé que la capacité des réseaux à apprendre une classification basée sur la forme était étroitement liée à leur architecture. Les réseaux convolutifs ont bien réussi à différencier les formes, atteignant près de 100 % de précision sur des ensembles de données uniquement basés sur la forme. Cependant, des réseaux plus simples comme les perceptrons multicouches et les transformateurs visuels ont énormément peiné avec la reconnaissance des formes, indiquant de potentielles déficiences architecturales dans ces conceptions.
Investigation des dynamiques d'apprentissage
Pour comprendre comment ces biais se développent au cours du processus d'apprentissage, les chercheurs ont examiné les dynamiques d'apprentissage d'un réseau convolutif à travers le prisme du noyau tangent neural (NTK). Le NTK décrit comment les réseaux apprennent et ajustent leurs paramètres en fonction des données d'entrée.
Pendant l'entraînement, la trajectoire d'apprentissage a montré que les DNN étaient plus alignés avec des réseaux spécialisés dans la couleur ou la texture plutôt qu'avec ceux conçus pour traiter les formes. Cette découverte a indiqué un biais dans la façon dont les mises à jour de poids étaient appliquées durant l'apprentissage, suggérant que le processus de descente de gradient poussait les réseaux à se concentrer sur des caractéristiques locales tout en négligeant les caractéristiques de forme plus larges.
Cela a conduit à une analyse de clustering, où les chercheurs ont cherché à comprendre comment le NTK se rapportait aux classes d'images. Leurs observations ont révélé que les réseaux basés sur la couleur et la texture présentaient des clusters d'images qui étaient bien alignés avec les classes, tandis que les réseaux basés sur la forme ne connaissaient pas le même degré d'alignement.
Expérience 4 : Compétition spatiale
La dernière expérience impliquait l'architecture spcConvNet, qui avait déjà montré une sensibilité à la forme. Les chercheurs ont répété l'analyse du NTK pour voir ce qui rendait ce réseau différent. Ils ont découvert que le mécanisme de compétition spatiale au sein de spcConvNet entraînait des gradients plus épars comparés aux autres réseaux convolutifs. Cette sparsité réduisait la probabilité de former des clusters de gradients d'images similaires, ce qui était un facteur significatif dans la détermination des dynamiques d'apprentissage du réseau.
Cela signifie que la structure unique de spcConvNet lui permettait de s'engager dans une classification basée sur la forme différemment de ses homologues, soutenant encore plus l'idée que les dynamiques d'apprentissage sont cruciales dans la façon dont les DNN traitent des caractéristiques spécifiques.
Conclusion
Les résultats de ces expériences éclairent pourquoi les réseaux de neurones profonds ont tendance à privilégier des caractéristiques de surface comme la couleur et la texture plutôt que des caractéristiques de forme. Bien que certaines architectures, comme les transformateurs visuels, semblent structurellement incapables d'apprendre efficacement la forme, les réseaux convolutifs peuvent apprendre la classification basée sur la forme - mais souvent ils ne le font pas en raison de biais dans les dynamiques d'apprentissage.
Les idées obtenues ici suggèrent que bien que les éléments architecturaux jouent un rôle, les algorithmes et les méthodes d'apprentissage sont cruciaux pour comprendre comment ces réseaux fonctionnent. Les prochaines étapes pour la recherche pourraient impliquer d'explorer des améliorations dans les algorithmes d'apprentissage ou d'introduire des composants inspirés de la biologie dans les modèles, ce qui pourrait aider à combler le fossé entre l'apprentissage machine et le traitement visuel humain.
En se concentrant sur ces aspects clés, les chercheurs espèrent mieux comprendre et améliorer les modèles de deep learning, les rendant plus alignés avec la manière dont nos cerveaux interprètent et traitent l'information.
Titre: Teaching deep networks to see shape: Lessons from a simplified visual world.
Résumé: Deep neural networks have been remarkably successful as models of the primate visual system. One crucial problem is that they fail to account for the strong shape-dependence of primate vision. Whereas humans base their judgements of category membership to a large extent on shape, deep networks rely much more strongly on other features such as color and texture. While this problem has been widely documented, the underlying reasons remain unclear. We design simple, artificial image datasets in which shape, color, and texture features can be used to predict the image class. By training networks to classify images with single features and feature combinations, we show that some network architectures are unable to learn to use shape features, whereas others are able to use shape in principle but are biased towards the other features. We show that the bias can be explained by the interactions between the weight updates for many images in mini-batch gradient descent. This suggests that different learning algorithms with sparser, more local weight changes are required to make networks more sensitive to shape and improve their capability to describe human vision. Author summaryWhen humans recognize objects, the cue they rely on most is shape. In contrast, deep neural networks mostly use local features like color and texture to classify images. We investigated how this difference arises, using images of simple shapes like rectangles and the letters L and T, combined with color and texture features. By testing different feature combinations, we show that some networks are generally unable to learn about shape, whereas others could learn to recognize shapes in isolation, but ignored shape if another feature was present. We show that this bias for color and texture arises from the way in which networks are trained: by averaging the learning signal over many images, the training algorithm favors simple features that are relatively similar in many images and removes sparser, more varied shape features. These insights can help build networks that are more sensitive to shape and work better as models of human vision.
Auteurs: Christian Jarvers, H. Neumann
Dernière mise à jour: 2024-03-29 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.03.25.586544
Source PDF: https://www.biorxiv.org/content/10.1101/2024.03.25.586544.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.