Imiter les autres : un truc pour apprendre
Les gens choisissent qui imiter selon les objectifs et stratégies perçus.
― 7 min lire
Table des matières
L'Imitation, c'est super important pour Apprendre des autres. Que ce soit les enfants ou les adultes, tout le monde imite souvent ce qu'il voit pour gérer des situations nouvelles ou incertaines. Mais quand il y a plein de gens autour, juste copier tout le monde, c'est pas forcément la meilleure manière d'apprendre. C'est crucial de choisir qui imiter en fonction de qui est le plus utile dans la situation. Plusieurs facteurs influencent ce choix, selon la situation et les infos disponibles. Cet article parle de l'idée que, quand on doit choisir qui imiter, on peut penser à ce que les autres veulent ou aux Objectifs qu'ils essaient d'atteindre.
Stratégies d'apprentissage social
Des recherches ont montré qu'il y a certaines règles ou astuces que les gens et les animaux utilisent pour décider qui copier. Par exemple, à la fois les poissons et les humains ont tendance à imiter ceux qui semblent recevoir les meilleures récompenses dans une situation donnée, comme trouver de la nourriture. D'autres facteurs peuvent aussi jouer un rôle dans le choix du modèle à imiter. Par exemple, les poissons préfèrent imiter des poissons plus gros, et les chimpanzés copient souvent les individus plus âgés ou dominants. Les jeunes enfants imitent souvent les adultes plus que leurs pairs, même si ces pairs savent souvent mieux faire la tâche à accomplir. Les enfants se sentent aussi plus à l'aise pour prendre des conseils de personnes qu'ils connaissent bien.
Inférer les objectifs des autres
Les stratégies simples que les gens utilisent pour décider qui imiter ne racontent pas toujours toute l'histoire. Ces stratégies ne prennent pas en compte ce que l'imitateur ou la personne copiée pense ou ressent. Dès leur jeune âge, les gens commencent à comprendre qu'ils peuvent deviner ce que les autres veulent en observant leurs actions, ce qui fait partie de ce qu'on appelle la Théorie de l'Esprit. Cette capacité à raisonner sur ce que les autres pensent peut aider à choisir qui imiter. Il existe des stratégies d'apprentissage social qui prennent en compte cette réflexion plus profonde. Par exemple, lors de tâches de prise de décision, les gens suivent souvent les conseils des autres, en fonction de ce qu'ils croient que cette personne veut les aider ou les induire en erreur.
Une partie clé de ce raisonnement implique de déterminer ce que les autres veulent ou ce qui les motive. Ce processus est généralement utilisé pour prédire comment quelqu'un agira dans une situation donnée, mais cela peut aussi aider à décider qui vaut le coup d'imiter. Récemment, les scientifiques ont travaillé sur des modèles qui capturent ce processus, souvent en utilisant des environnements virtuels simples, comme des jeux basés sur une grille. Ces modèles simplifient les situations réelles pour étudier comment les individus se comportent et apprennent en regardant les autres.
Imitation basée sur les inférences d'objectifs
Comme les gens utilisent à la fois l'imitation sélective et des suppositions sur ce que les autres veulent, une question importante se pose : est-ce que ces suppositions aident à décider qui imiter ? En gros, est-ce que les gens ont tendance à copier ceux dont les objectifs semblent similaires aux leurs ? Pour explorer ça, on peut regarder des situations nouvelles où ils ont peu ou pas d'infos sur leurs propres objectifs et voir s'ils imitent quand même ceux qu'ils pensaient partager un objectif similaire. Est-ce que les gens peuvent utiliser ce qu'ils savent des autres pour choisir qui imiter sans comparer directement leurs propres objectifs ?
Pour tester ces idées, une série d'expériences en ligne a été réalisée. Les Participants naviguaient à travers différents niveaux dans un environnement basé sur une grille, collectant des points en ramassant des gemmes colorées tout en observant d'autres Agents (des joueurs simulés) visant à maximiser leur score. En changeant les infos disponibles à chaque niveau, les chercheurs ont encouragé les participants à imiter les agents, montrant que leurs choix reflétaient qui ils avaient décidé de copier.
Structure de l'expérience
L'expérience comprenait plusieurs phases, chacune conçue pour tester différents aspects de l'imitation et de l'inférence. D'abord, tous les participants ont traversé une phase d'apprentissage pour observer les agents et les valeurs de certaines gemmes. Ensuite, les participants ont fait face à une phase où ils ne pouvaient pas voir où étaient les gemmes mais connaissaient leurs valeurs. Là, la meilleure stratégie était de suivre les agents qui avaient précédemment collecté des gemmes correspondant à leurs propres objectifs. La phase finale impliquait de généraliser à de nouvelles gemmes, où les participants devaient appliquer ce qu'ils avaient appris dans les phases précédentes pour faire des choix dans un cadre où certaines gemmes étaient nouvelles.
Les participants ont été recrutés en ligne et rémunérés pour leur temps. Chaque participant a vécu divers niveaux qui dépendaient de quel groupe ils appartenaient dans l'expérience, examinant leurs choix et comportements dans le processus.
Prédire les choix dans différentes phases
Pendant l'expérience, les chercheurs ont fait des prédictions sur ce que les participants feraient en fonction de leur compréhension de l'inférence des objectifs. Dans la phase où les emplacements des gemmes étaient cachés, il était attendu que les participants suivent l'agent qui avait auparavant démontré qu'il préférait les gemmes qui correspondaient à leurs propres objectifs.
Dans la phase avec de nouvelles gemmes, il était prévu que les participants continuent d'imiter ce qu'ils avaient appris plus tôt, même face à des options inconnues. Dans la phase finale, l'attente était que les participants puissent identifier et imiter des agents dont le comportement était similaire au leur.
Résultats
Les résultats ont montré que les participants avaient tendance à copier les agents qu'ils croyaient avoir des objectifs similaires aux leurs. Dans la phase où les emplacements des gemmes n'étaient pas clairs, les participants suivaient largement les agents qui avaient précédemment été alignés avec leurs intérêts. Dans la phase suivante, les participants ont continué à montrer une préférence pour ces agents dans une situation où ils affrontaient de nouveaux choix.
Cependant, dans la dernière phase, face à des agents inconnus, les participants n'ont pas réussi à faire de meilleures choix d'imitation, ce qui suggère qu'ils exploraient plutôt que de suivre strictement un comportement passé.
Réponses des participants
Les participants ont aussi donné leur avis sur leurs stratégies après avoir terminé l'expérience. Beaucoup ont mentionné suivre des agents qu'ils pensaient que ça leur donnerait des scores élevés, mais peu ont noté avoir transféré leur comportement d'imitation basé sur les actions passées des agents. Ceux qui ont reconnu la stratégie d'imiter des agents similaires ont mieux performé que ceux qui ne l'ont pas fait.
D'un autre côté, plusieurs participants ont eu du mal à comprendre la tâche elle-même et ont adopté des stratégies aléatoires. Ceux qui ont exprimé de la confusion ont marqué moins que leurs pairs, soulignant le besoin d'instructions plus claires dans de futures expériences.
Conclusion
Cette recherche montre que les gens prennent souvent des décisions sur qui imiter en fonction de leurs croyances concernant les objectifs des autres agents. La capacité à identifier et à imiter ceux dont le comportement s'aligne avec le sien a des implications importantes pour l'apprentissage dans des situations sociales.
Comprendre ces mécanismes d'imitation peut aussi éclairer comment on conçoit des systèmes d'intelligence artificielle. En permettant aux machines d'imiter le comportement de manière sélective en fonction des objectifs inférés des autres, on peut améliorer leur capacité à apprendre dans des environnements complexes.
Bien que les résultats soient prometteurs, il y a encore beaucoup à apprendre sur la manière dont les gens généralisent leurs stratégies d'imitation à travers différents contextes et agents. Les futures recherches doivent explorer ces relations plus en profondeur pour mieux comprendre comment les individus naviguent dans l'apprentissage social et l'imitation dans divers cadres.
Titre: Selective imitation on the basis of reward function similarity
Résumé: Imitation is a key component of human social behavior, and is widely used by both children and adults as a way to navigate uncertain or unfamiliar situations. But in an environment populated by multiple heterogeneous agents pursuing different goals or objectives, indiscriminate imitation is unlikely to be an effective strategy -- the imitator must instead determine who is most useful to copy. There are likely many factors that play into these judgements, depending on context and availability of information. Here we investigate the hypothesis that these decisions involve inferences about other agents' reward functions. We suggest that people preferentially imitate the behavior of others they deem to have similar reward functions to their own. We further argue that these inferences can be made on the basis of very sparse or indirect data, by leveraging an inductive bias toward positing the existence of different \textit{groups} or \textit{types} of people with similar reward functions, allowing learners to select imitation targets without direct evidence of alignment.
Auteurs: Max Taylor-Davies, Stephanie Droop, Christopher G. Lucas
Dernière mise à jour: 2023-05-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.07421
Source PDF: https://arxiv.org/pdf/2305.07421
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.