Nouvelle approche de la pensée abstraite chez les machines
Une nouvelle méthode améliore le raisonnement machine dans les puzzles visuels en utilisant RPM.
― 11 min lire
Table des matières
Un des défis pour apprendre aux machines à penser de manière abstraite, c'est que les problèmes se présentent souvent sous forme de tâches complètes sans étapes plus petites pour guider l'apprentissage. Un test populaire pour ce type de réflexion s'appelle les Matrices Progressives de Raven (RPM). Dans les RPM, la tâche consiste à choisir la bonne réponse parmi plusieurs options basées sur un ensemble d'images donné. Ces images sont complexes et montrent divers objets disposés de différentes manières, rendant la tâche assez compliquée. Cet objectif unique de haut niveau peut rendre l'apprentissage difficile, et beaucoup de machines actuelles qui essaient de résoudre ces énigmes ne donnent pas beaucoup d'info sur comment elles arrivent à leurs réponses.
Dans cette étude, on présente une nouvelle façon pour les machines de gérer ces énigmes visuelles en divisant la tâche en deux parties plus petites. Au lieu de choisir directement une réponse, notre approche examine d'abord les éléments individuels des images et prédit leurs caractéristiques et comment elles sont arrangées. Ensuite, ces prédictions sont utilisées pour déterminer quelle réponse convient le mieux. On a exploré différentes méthodes pour décomposer les images en parties et comment gérer les segments des données d'entrée sans avoir besoin de beaucoup d'exemples étiquetés.
Les résultats expérimentaux ont montré que nos modèles ne se contentaient pas de mieux performer que les méthodes existantes ; ils ont aussi révélé des insights intéressants sur la façon dont les machines raisonnent à travers ces énigmes. On pense que la conception de notre méthode aide à prévenir les biais qui peuvent se produire avec certains tests RPM.
C'est quoi le Raisonnement Abstrait ?
Le raisonnement abstrait est une caractéristique clé de l'intelligence générale. Ça englobe la capacité à reconnaître des motifs et à compléter des séquences. Pour mesurer à quel point les humains peuvent le faire, John C. Raven a créé un test visuel dans les années 1930, maintenant connu sous le nom de Matrices Progressives de Raven (RPM). Une énigme RPM consiste en une grille d'images, généralement disposées en format 3x3, où chaque image contient des formes géométriques qui suivent des règles spécifiques concernant leur arrangement. La tâche est de remplir l'image manquante dans la grille en se basant sur les motifs vus dans les autres images.
Ces dernières années, les tâches RPM ont été adoptées par la communauté de l'intelligence artificielle (IA) comme référence pour tester des capacités de raisonnement similaires dans les machines. Bien que les RPM soient traditionnellement limitées à 60 tâches, de nouvelles méthodes ont vu le jour pour générer des ensembles de données plus grands pour entraîner des systèmes d'IA. Cependant, créer un ensemble de tâches varié et représentatif s'est avéré difficile et peut conduire à différents biais, comme quand un modèle ignore le contexte des images.
Décomposer la Tâche
Pour s'attaquer au problème des tâches RPM présentées comme une seule énigme, on propose de les diviser en deux parties. La première partie consiste à prédire les propriétés de l'image manquante en se basant sur les autres images de la grille. La seconde partie trouve le panneau de réponse qui correspond le mieux à ces prédictions. Cette approche étape par étape aide la machine à se concentrer sur la compréhension de l'énigme de manière plus approfondie.
Notre méthode utilise un type spécial de modèle d'apprentissage automatique appelé transformeur, qui se trouve généralement dans le traitement du langage naturel. Ce modèle parvient à prédire les caractéristiques individuelles des images sans avoir besoin d'infos explicites sur leur structure spatiale.
La première étape de notre modèle est un tokenizeur d'images, qui transforme la représentation 2D des images en une séquence de tokens. Ces tokens sont essentiellement des représentations condensées des images et permettent au modèle de les traiter plus efficacement.
Le tokenizeur peut fonctionner de différentes manières, selon comment il perçoit les images. Il existe trois variantes : l'une examine chaque panneau d'image individuellement, une autre examine toute la tâche d'un coup, et la troisième traite les panneaux par lignes. Chaque approche a ses propres avantages et impacte les résultats différemment.
Le transformeur prend ensuite ces tokens et les traite en séquence, permettant au modèle d'apprendre comment associer les caractéristiques et les relations présentes dans les images. Une fois que le transformeur a généré des tokens de sortie, un autre module, appelé le prédicteur de propriétés, associe ces tokens de sortie aux propriétés des images individuelles.
Comprendre les Propriétés et Leur Pertinence
Notre modèle définit un vecteur de propriétés pour chaque image, qui contient des infos sur les objets, leurs tailles, couleurs et types. Ce vecteur de propriétés est conçu pour capturer les caractéristiques clés qui sont pertinentes pour résoudre les énigmes RPM. Le défi réside dans l'identification des aspects du vecteur de propriétés qui sont pertinents en fonction du contexte de la tâche.
Par exemple, certains arrangements dictent quelles propriétés sont importantes, comme le nombre de formes présentes ou comment elles sont agencées. La sortie du modèle peut être ajustée pour ne tenir compte que des propriétés pertinentes lors des calculs de performance.
Pour représenter ces propriétés et les rendre faciles à traiter pour le modèle, on utilise un encodage one-hot, garantissant que les sorties prédites sont des probabilités qui s'additionnent à un. Ça facilite l'évaluation de la façon dont les prévisions du modèle correspondent aux propriétés réelles des images.
Entraîner le Modèle
Le processus d'entraînement de notre modèle se déroule en deux phases. Dans la première phase, le modèle apprend à prédire les propriétés des images en masquant aléatoirement l'un des panneaux pour se concentrer sur les autres. Ça aide le modèle à apprendre les motifs et les relations qui existent entre toutes les images.
Dans la seconde phase, le modèle est testé sur le panneau de requête tout en gardant les autres panneaux visibles. En utilisant cette approche en deux phases, le modèle peut mieux comprendre le contexte plus large de la tâche et appliquer efficacement ce savoir.
On a également expérimenté différents types de masques. Au lieu de simplement retirer des images, on a utilisé des masques entraînables qui changent pendant le processus d'entraînement. Cette flexibilité ajoutée aide le modèle à s'adapter et à améliorer ses capacités de prédiction au fil du temps.
Résultats Expérimentaux
En évaluant les modèles en fonction de leur capacité à prédire les propriétés des images, divers facteurs comme le type de tokenizeur utilisé et la stratégie de masquage ont eu un impact significatif sur les résultats. Chaque configuration a montré un niveau d'efficacité différent dans la prédiction des propriétés.
Le modèle qui tokenisait toute la tâche à la fois a mieux performé que ceux qui tokenisaient chaque panneau séparément. Cependant, le modèle qui a utilisé le tokenizeur de lignes a constamment surpassé les autres, indiquant que l'empilement de panneaux par canal permet une meilleure reconnaissance des motifs.
Nos modèles ont aussi surpassé d'autres méthodes RPM populaires, démontrant leur efficacité à traiter les biais trouvés dans les ensembles de données standards.
Faire des Choix
Après être passé par la phase de prédiction des propriétés, la prochaine étape consiste à résoudre la tâche RPM. On a développé un algorithme appelé le Choix Direct (DCM) qui aide le modèle à déterminer la meilleure réponse en se basant sur les propriétés prédites.
Dans ce processus, le modèle prédit d'abord les propriétés pour le panneau de requête. Ensuite, il évalue chaque panneau de réponse en comparant ses propriétés avec celles du panneau de requête prédit. En utilisant une fonction de distance, le panneau de réponse le plus similaire aux propriétés prédites est sélectionné comme la bonne réponse.
On a défini plusieurs métriques pour évaluer la performance de notre approche DCM, en se concentrant sur la fréquence à laquelle elle a correctement identifié la bonne réponse en analysant les propriétés correspondantes.
Résultats des Tâches de Choix
Les résultats des tâches de choix ont montré que la qualité des prédictions de propriétés influençait directement la capacité du modèle à sélectionner le bon panneau de réponse. Les modèles qui ont mieux performé dans la prédiction des propriétés ont été plus efficaces pour résoudre les tâches RPM.
Particulièrement, les modèles entraînés avec une stratégie de masquage combinée ont surpassé ceux entraînés uniquement avec un masquage aléatoire ou de requête. Ça indique les bénéfices d'une approche d'apprentissage plus complète, aidant le modèle à développer une compréhension plus large des motifs RPM.
On a comparé nos modèles à d'autres résolveurs RPM en tête et on a trouvé que les nôtres ont obtenu certains des meilleurs résultats rapportés à ce jour. Plusieurs configurations ont dépassé la performance humaine sur les tests RPM, mettant en lumière l'efficacité de notre approche en deux étapes.
Insights Visuels et Analyse des Erreurs
Un aspect intéressant de nos découvertes était la façon dont les modèles ont géré différents types de propriétés. Même si les modèles ont été entraînés avec des variables catégorielles désordonnées, ils ont semblé saisir la nature ordinale des propriétés comme la taille et la forme. Ça suggère qu'ils ont non seulement appris les propriétés, mais aussi développé une meilleure compréhension de comment certaines caractéristiques se relient visuellement les unes aux autres.
Cette capacité à interpréter les propriétés visuelles aide la capacité de raisonnement globale du modèle. En analysant les types d'erreurs commises lors des prédictions de propriétés, on a découvert que les modèles étaient plus enclins à faire de petites erreurs plutôt que des grosses. Ça suggère une compréhension nuancée des relations entre les propriétés, malgré le fait de ne pas avoir été explicitement entraînés sur la nature ordinale des attributs.
Conclusion et Directions Futures
Ce travail a montré que décomposer les tâches RPM en composants plus petits et gérables peut améliorer significativement la façon dont les machines résolvent ces énigmes visuelles. Nos modèles ont surpassé de nombreuses méthodes existantes, démontrant une approche plus transparente pour raisonner à travers des tâches visuelles complexes.
Pour aller de l'avant, on prévoit de raffiner l'aspect de prise de décision du modèle et d'envisager d'intégrer des sources d'information supplémentaires pour améliorer encore ses performances.
Les méthodes développées dans cette étude ouvrent de nouvelles possibilités pour explorer comment les machines peuvent apprendre et raisonner sur des concepts visuels abstraits. En continuant à innover dans ce domaine, on espère faire avancer les capacités de l'intelligence artificielle dans la compréhension et la résolution de tâches de raisonnement visuel complexes.
Titre: Learning Abstract Visual Reasoning via Task Decomposition: A Case Study in Raven Progressive Matrices
Résumé: Learning to perform abstract reasoning often requires decomposing the task in question into intermediate subgoals that are not specified upfront, but need to be autonomously devised by the learner. In Raven Progressive Matrices (RPM), the task is to choose one of the available answers given a context, where both the context and answers are composite images featuring multiple objects in various spatial arrangements. As this high-level goal is the only guidance available, learning to solve RPMs is challenging. In this study, we propose a deep learning architecture based on the transformer blueprint which, rather than directly making the above choice, addresses the subgoal of predicting the visual properties of individual objects and their arrangements. The multidimensional predictions obtained in this way are then directly juxtaposed to choose the answer. We consider a few ways in which the model parses the visual input into tokens and several regimes of masking parts of the input in self-supervised training. In experimental assessment, the models not only outperform state-of-the-art methods but also provide interesting insights and partial explanations about the inference. The design of the method also makes it immune to biases that are known to be present in some RPM benchmarks.
Auteurs: Jakub Kwiatkowski, Krzysztof Krawiec
Dernière mise à jour: 2024-03-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.06528
Source PDF: https://arxiv.org/pdf/2308.06528
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://tex.stackexchange.com/questions/26318/disabling-urls-in-bibliography
- https://app.diagrams.net/#G1zMb1xyY6thOC8ogF7x8hNPblCRBCVniN
- https://github.com/WellyZhang/RAVEN
- https://docs.google.com/spreadsheets/d/1lEfuO0qhWk03YNSR1ohuk5zyhR-YBDIUTmwod4m-5K8/edit?usp=sharing
- https://github.com/jakubkwiatkowski/abstract_compositional_transformer