Comprendre l'apprentissage humain à travers les images
Des recherches montrent comment les gens classifient et prennent des décisions avec des infos visuelles.
― 8 min lire
Table des matières
- Importance de la Généralisation
- Descriptions des Tâches
- Mécanismes d'Apprentissage
- Modèles d'Apprentissage Profond
- Résultats de l'Apprentissage par Catégories
- Résultats de l'Apprentissage par Récompense
- Analyses de Similarité Représentationnelle
- Implications des Résultats
- Conclusion
- Source originale
- Liens de référence
Les humains ont une capacité unique à reconnaître et comprendre différentes caractéristiques des objets dans leur environnement. Cette compétence les aide dans diverses tâches et situations. Pour étudier comment les gens apprennent et prennent des décisions en fonction de nouvelles informations, on a réalisé deux expériences. Ces expériences se concentraient sur l'Apprentissage par catégories, où les gens regroupent des éléments en catégories, et l'Apprentissage par récompense, où ils apprennent à faire des choix qui maximisent les récompenses. On a utilisé des images réalistes comme base pour ces tâches. Les participants devaient prendre des décisions basées sur ces nouvelles images, ce qui les obligeait à généraliser à partir de ce qu'ils avaient appris dans les essais précédents.
Dans ces études, notre objectif était de comprendre à quel point les gens peuvent identifier des caractéristiques importantes de ces images et à quelle vitesse ils peuvent adapter leurs connaissances à de nouvelles situations. On a utilisé des modèles basés sur l'apprentissage profond et comparé l'efficacité de différents types de modèles à prédire les choix des participants. Nos résultats suggèrent que l'utilisation d'informations visuelles alignées avec le langage peut mieux décrire comment les gens généralisent face à de nouveaux stimuli réalistes.
Importance de la Généralisation
La généralisation est une compétence essentielle qui permet aux humains et aux animaux d'appliquer des connaissances tirées d'expériences passées à de nouvelles situations. Bien que cette capacité soit efficace, elle peut être difficile, surtout dans des environnements complexes où il y a d'innombrables façons de décrire des objets. Par exemple, prenons une pomme. Les gens peuvent reconnaître sa couleur, son goût, sa forme et d'autres attributs et utiliser ces informations pour faire des prédictions sur la qualité de la pomme ou sa signification dans différents contextes.
Pour explorer cela plus en profondeur, on a conçu des tâches pour examiner comment les gens généralisent à travers différents stimuli. Notre recherche visait à découvrir les caractéristiques qui sous-tendent cette capacité et comment différentes représentations de l'information influencent l'apprentissage.
Descriptions des Tâches
Dans nos expériences, on a utilisé deux types de tâches d'apprentissage : l'apprentissage par catégories et l'apprentissage par récompense.
Tâche d'Apprentissage par Catégories
Dans la tâche d'apprentissage par catégories, les participants recevaient de nouvelles images et devaient les classifier en l'une des deux groupes. Par exemple, ils devaient peut-être décider lequel de deux dinosaures aimait un cadeau particulier. Ils recevaient des retours après chaque choix, ce qui les aidait à apprendre les catégories sous-jacentes en fonction des caractéristiques des images.
La tâche était conçue pour que les participants doivent s'appuyer sur leur compréhension des caractéristiques qui définissaient chaque catégorie. Chaque participant rencontrait différentes images, et les règles de classification variaient, garantissant que chaque essai nécessitait une généralisation à partir de ce qu'ils avaient appris auparavant.
Tâche d'Apprentissage par Récompense
Dans la tâche d'apprentissage par récompense, les participants avaient deux images à la fois et devaient en choisir une pour maximiser leurs récompenses. Ils apprenaient la valeur de chaque option grâce aux retours après leur choix. L'objectif était de déterminer à quel point ils pouvaient ajuster leurs choix en fonction des récompenses associées à chaque image.
Les participants étaient de nouveau assignés à différentes conditions avec des règles variées déterminant les valeurs de récompense. Comme dans la tâche d'apprentissage par catégories, les participants devaient généraliser à partir de leurs expériences pour faire des choix adaptés.
Mécanismes d'Apprentissage
Historiquement, les psychologues ont étudié comment les gens apprennent par des stratégies simples d'essai-erreur, utilisant généralement des formes abstraites ou géométriques. Cependant, cette approche néglige des aspects clés de l'apprentissage dans le monde réel, où la généralisation est nécessaire. L'accent est largement mis sur la manière dont les stimuli sont représentés, ce qui devient crucial lorsqu'on traite des stimuli naturels complexes.
Dans notre étude, on a cherché à combler ces lacunes en utilisant des images réalistes qui obligent les participants à généraliser rapidement. Notre objectif était de voir à quel point ils pouvaient identifier efficacement des caractéristiques pertinentes à partir d'un nombre limité d'essais.
Modèles d'Apprentissage Profond
Pour analyser comment les participants représentaient les stimuli naturalistes, on s'est tournés vers des modèles d'apprentissage profond. Ces modèles ont réussi à prédire le comportement humain dans diverses tâches cognitives. On a examiné comment ces modèles traitent les images et le langage, en comparant leur performance à prédire les choix humains.
Les modèles entraînés sur des données visuelles et textuelles ont systématiquement mieux performé que ceux entraînés uniquement sur des données visuelles. Cette découverte met en évidence l'importance du langage comme outil dans la cognition humaine et la prise de décision.
Résultats de l'Apprentissage par Catégories
Dans la tâche d'apprentissage par catégories, on a analysé la performance des participants sur plusieurs essais. Les résultats ont montré qu'après quelques essais, les participants pouvaient classer précisément les images au-dessus du niveau de chance. Cette capacité était soutenue par un effet d'apprentissage structuré, où les participants s'amélioraient progressivement à mesure qu'ils gagnaient en expérience.
On a utilisé des analyses statistiques pour évaluer la performance et trouvé des corrélations positives significatives entre le nombre d'essais et l'exactitude. Cela montre que les participants utilisaient effectivement le retour d'information pour apprendre et s'adapter à la tâche.
On a aussi exploré quels modèles d'apprentissage profond correspondaient le mieux aux choix humains. Toutes les représentations testées ont pu prédire le comportement de manière fiable. Cependant, les modèles combinant données visuelles et linguistiques ont systématiquement surpassé les autres, démontrant leur efficacité à capturer les caractéristiques pertinentes pour cette tâche.
Résultats de l'Apprentissage par Récompense
Tout comme dans la tâche d'apprentissage par catégories, les participants dans la tâche d'apprentissage par récompense ont bien performé lors de plusieurs essais. Ils ont pu maximiser leurs récompenses en choisissant des options en fonction des différences de valeur. Cela a également indiqué un effet d'apprentissage, car l'exactitude s'est améliorée à chaque essai successif.
En utilisant une analyse de régression logistique à effets mixtes, on a vérifié comment les participants prenaient des choix en fonction des différences de récompense. Les résultats ont montré que les participants utilisaient de plus en plus efficacement cette information, confirmant la généralisation observée dans la tâche d'apprentissage par catégories.
Encore une fois, on a utilisé les mêmes représentations de modèles d'apprentissage profond pour analyser le comportement des participants. Tous les modèles ont performé au-dessus du niveau de chance, avec des modèles multimodaux montrant le meilleur pouvoir prédictif, soulignant l'importance d'intégrer les entrées linguistiques et visuelles.
Analyses de Similarité Représentationnelle
Pour comprendre pourquoi certaines représentations de modèles d'apprentissage profond ont mieux performé, on a réalisé des analyses de similarité représentationnelle. On a comparé la similarité de différentes représentations avec l'embedding de tâche qu'on a utilisé pour créer les stimuli. Nos tests ont montré que les représentations multimodales étaient plus alignées avec l'embedding que les représentations uniquement visuelles.
On a trouvé que les représentations liées au langage avaient tendance à être plus similaires à l'embedding de tâche par rapport aux représentations visuelles. Cela suggère que l'utilisation du langage avec des informations visuelles améliore la capacité des modèles à prédire le comportement efficacement.
Implications des Résultats
Notre recherche a des implications plus larges pour comprendre l'apprentissage humain dans des contextes naturalistes. On a montré que les participants pouvaient s'adapter rapidement à de nouvelles informations et utiliser leurs connaissances sur différentes caractéristiques pour prendre des décisions précises. Cela remet en question les suppositions précédentes sur les limites de l'apprentissage humain dans des environnements complexes.
On a aussi démontré que des stratégies d'apprentissage simples peuvent être efficaces dans des contextes à dimensions supérieures. Cela indique que des approches simples peuvent être appliquées avec succès à des tâches d'apprentissage plus complexes, les rendant utiles pour diverses applications en psychologie cognitive et en intelligence artificielle.
Conclusion
En résumé, nos résultats éclairent comment les humains apprennent et prennent des décisions en fonction de stimuli naturalistes. En utilisant des représentations sensorielles riches et expressives, les participants pouvaient rapidement identifier des caractéristiques pertinentes et appliquer efficacement leurs connaissances. Le succès des représentations multimodales souligne l'importance du langage dans la formation des processus cognitifs.
Notre travail ouvre de nouvelles avenues pour étudier l'apprentissage et la prise de décision dans des environnements naturalistes, ce qui pourrait améliorer notre compréhension de la cognition humaine ainsi que guider le développement de systèmes artificiels qui s'alignent plus étroitement avec les processus de pensée humains.
Titre: Evaluating alignment between humans and neural network representations in image-based learning tasks
Résumé: Humans represent scenes and objects in rich feature spaces, carrying information that allows us to generalise about category memberships and abstract functions with few examples. What determines whether a neural network model generalises like a human? We tested how well the representations of $86$ pretrained neural network models mapped to human learning trajectories across two tasks where humans had to learn continuous relationships and categories of natural images. In these tasks, both human participants and neural networks successfully identified the relevant stimulus features within a few trials, demonstrating effective generalisation. We found that while training dataset size was a core determinant of alignment with human choices, contrastive training with multi-modal data (text and imagery) was a common feature of currently publicly available models that predicted human generalisation. Intrinsic dimensionality of representations had different effects on alignment for different model types. Lastly, we tested three sets of human-aligned representations and found no consistent improvements in predictive accuracy compared to the baselines. In conclusion, pretrained neural networks can serve to extract representations for cognitive models, as they appear to capture some fundamental aspects of cognition that are transferable across tasks. Both our paradigms and modelling approach offer a novel way to quantify alignment between neural networks and humans and extend cognitive science into more naturalistic domains.
Auteurs: Can Demircan, Tankred Saanum, Leonardo Pettini, Marcel Binz, Blazej M Baczkowski, Christian F Doeller, Mona M Garvert, Eric Schulz
Dernière mise à jour: 2024-11-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.09377
Source PDF: https://arxiv.org/pdf/2306.09377
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.