Explorer les capacités de base en mathématiques de GPT-2
Un aperçu de comment GPT-2 gère les tâches de prédiction sur plusieurs années.
― 9 min lire
Table des matières
Les modèles de langage pré-entraînés, comme GPT-2, montrent des compétences surprenantes dans divers tâches sans avoir besoin d’un entraînement spécial. Pourtant, on ne sait pas grand-chose sur la manière dont ils acquièrent ces compétences, en particulier en mathématiques. Cet article se penche sur les capacités mathématiques de base de GPT-2. On examine spécifiquement comment il peut prédire certains résultats lorsqu'on lui donne une année dans une phrase. Par exemple, lorsqu'on lui présente une phrase comme "La guerre a duré de l'année 1732 à l'année 17", le modèle essaie de suggérer une année à deux chiffres qui ait du sens.
On va d'abord identifier le processus au sein de GPT-2 qui l'aide à faire des maths, comme comprendre qu'une année est supérieure à une autre. Ensuite, on décomposera les parties du modèle impliquées dans cette tâche et comment elles travaillent ensemble. Enfin, on va explorer si les méthodes utilisées pour cette tâche s'appliquent à d'autres problèmes mathématiques similaires.
Le défi de comprendre les modèles de langage
À mesure que les modèles de langage deviennent plus grands et plus performants, ils peuvent réaliser un éventail de tâches croissant. Ces tâches vont de la traduction de langues à la classification de textes, en passant même par des problèmes de maths. Cependant, malgré toutes ces recherches, on ne comprend toujours pas complètement comment des modèles comme GPT-2 accomplissent ces tâches, surtout en mathématiques.
Beaucoup de chercheurs ont affiné des modèles pour effectuer des tâches de maths après un pré-entraînement. Pourtant, récemment, des modèles comme GPT-2 ont montré qu'ils peuvent gérer des problèmes de maths sans cet entraînement spécial. Ça nous amène à nous interroger sur la manière dont apparaissent les compétences mathématiques dans ces modèles.
La plupart des études jusqu'à présent ont décrit ce que ces modèles peuvent faire au lieu d'expliquer comment ils obtiennent ces résultats. Certains ont examiné de plus près comment les nombres sont représentés dans ces modèles mais n'ont pas fourni d'explications claires sur la façon dont ces représentations sont utilisées en maths.
Pour explorer cela plus en profondeur, on va se concentrer sur GPT-2, en particulier la version plus petite. La taille de ce modèle nous permet d'examiner de près ses capacités mathématiques. On va chercher une petite partie de la structure de GPT-2 qui semble fonctionner spécifiquement pour les tâches de maths.
La tâche : Prédiction d'une année de fin
On va se concentrer sur une tâche appelée prédiction d'année de fin. Cette tâche implique des phrases conçues pour demander au modèle de prédire une année de fin en fonction d'une année de départ. Par exemple, si on dit "La guerre a duré de l'année 1732 à l'année 17", le modèle devrait utiliser sa compréhension pour suggérer une année de fin à deux chiffres qui ait du sens.
Pour évaluer à quel point GPT-2 réussit cette tâche, on va définir clairement nos phrases d'entrée et s'assurer qu'elles encouragent le modèle à produire les bonnes réponses. Un point clé est qu'on veut s'assurer qu'il y a toujours à la fois des choix corrects et incorrects à disposition pour le modèle.
Observations initiales
Lors des premiers tests avec GPT-2 sur cette tâche, on a vu comment il sépare les années de fin valides des invalides. Quand on lui donne une année de départ, le modèle a tendance à prédire des années de fin qui sont un peu plus élevées que l'année de départ. Ça indique que GPT-2 peut engager une forme de raisonnement de base concernant les comparaisons de grandeur.
On a fait deux types d'évaluations : qualitative et quantitative. Dans l'évaluation qualitative, on a fait fonctionner GPT-2 avec un ensemble de données contenant différents exemples et on a observé à quel point il a bien attribué des probabilités à différentes années de fin. L'évaluation quantitative a impliqué de noter les performances de GPT-2 avec des mesures spécifiques qui évaluent à quel point il a prédit correctement les bonnes années par rapport aux incorrectes.
Dans l'ensemble, les deux évaluations ont suggéré que GPT-2 a réussi à naviguer dans la tâche de comparaison de grandeurs dans le cas de la prédiction d'année de fin.
Comprendre le circuit interne
Maintenant qu'on a établi que GPT-2 peut effectuer la tâche de comparaison de grandeurs, il est temps de découvrir comment il fait ça. On va examiner les parties de GPT-2 responsables de cette capacité en analysant sa structure interne.
Dans notre analyse, on considère à la fois les têtes d'attention et les perceptrons multicouches (MLP) dans le modèle. Les têtes d'attention sont des composants qui aident le modèle à se concentrer sur différentes parties de la phrase, tandis que les MLP traitent les informations pour produire les résultats finaux.
On va chercher un circuit, qui est un petit ensemble de parties interconnectées qui fonctionnent ensemble pour accomplir la tâche de comparaison de grandeurs. En patchant différentes composantes et en observant leurs interactions, on peut identifier celles qui sont cruciales pour prédire correctement les années de fin.
Trouver le circuit
Pour trouver ce circuit, on va utiliser une méthode appelée "path patching". Cette technique nous permet de modifier les entrées à des composants spécifiques du modèle et de voir comment ces changements affectent la performance globale. En observant attentivement ces interactions, on peut repérer les parties les plus utiles du modèle pour notre tâche.
La première étape est de regarder les connexions aux sorties. Après avoir testé différents composants, on découvre que certains MLP jouent un rôle clé dans le calcul des résultats de comparaison de grandeurs. On constate que les MLP collaborent étroitement avec des têtes d'attention spécifiques qui les aident à recevoir des informations importantes à partir des années d'entrée.
Analyse détaillée des composants
Après avoir tracé les connexions importantes, on s'intéresse de plus près à chaque composant. On commence par les têtes d'attention, en comprenant comment elles contribuent à la performance du modèle. Les têtes d'attention semblent prêter attention à des informations critiques, comme identifier l'année de départ dans l'entrée.
Ensuite, on analyse les MLP, en se concentrant sur la façon dont ils utilisent les informations fournies par les têtes d'attention pour déterminer les années de fin valides. Nos découvertes montrent que certains MLP spécifient directement quelles années de sortie sont supérieures à l'année initiale, accomplissant ainsi l'opération de comparaison de grandeur de manière structurée.
Le rôle des Neurones dans les MLP
Pour approfondir notre analyse, on zoom sur des neurones individuels au sein des MLP. On découvre que même si des neurones individuels peuvent ne pas suffire à calculer l'opération de comparaison de grandeur à eux seuls, des groupes de neurones peuvent travailler ensemble pour atteindre cette fonction.
En examinant les différents neurones dans le MLP 10, on constate que les neurones les plus importants contribuent de différentes manières. Certains neurones accordent systématiquement plus de poids à certaines années, tandis que d'autres ajustent leurs réponses en fonction de l'année d'entrée. Quand on combine les sorties des neurones les plus significatifs, on peut observer un schéma qui s'aligne bien avec l'opération de comparaison de grandeur.
À travers ce processus, il devient clair que la capacité à calculer les comparaisons de grandeur n'est pas seulement une fonction des MLP eux-mêmes, mais aussi de la manière dont les neurones au sein d'eux travaillent ensemble.
Généralisation du circuit
Après avoir établi un circuit pour la prédiction d'année de fin, on doit se demander s'il s'applique à d'autres tâches similaires. Pour tester ça, on cherche d'autres tâches qui maintiennent une structure similaire où GPT-2 pourrait appliquer ses compétences acquises.
On explore divers prompts qui impliquent toujours de prédire un scénario de comparaison de grandeur mais dans des contextes différents. Ces prompts donnent des idées sur la mesure dans laquelle le circuit peut se généraliser. Étonnamment, même si le circuit fonctionne bien dans de nombreux cas, il montre aussi des moments de sur-généralisation où il prédit incorrectement un résultat de comparaison de grandeur lorsqu'il ne le devrait pas.
En gros, cette enquête démontre que même si le circuit peut gérer une variété de tâches, il ne le fait pas toujours correctement, ce qui pointe à la fois des forces et des limites dans les capacités de raisonnement de GPT-2.
Conclusion
En résumé, on a examiné les capacités mathématiques de base de GPT-2 à travers le prisme de la prédiction d'année de fin. On a identifié des composants clés au sein du modèle qui lui permettent de calculer des relations de comparaison de grandeur et comment ces composants travaillent ensemble.
Même si notre étude soulève des questions sur le fait de savoir si ces capacités proviennent de la mémorisation ou d'une connaissance mathématique plus généralisée, elle met en lumière la complexité des rouages internes des modèles de langage. Nos découvertes suggèrent que GPT-2 possède une certaine compréhension des maths, mais que cette compréhension est nuancée et peut ne pas toujours mener à des prédictions correctes.
Les insights tirés de notre analyse peuvent servir de base pour de futures recherches sur les capacités mathématiques des modèles de langage, permettant une compréhension plus profonde de comment ils traitent l'information et accomplissent des tâches qui ressemblent au raisonnement.
Titre: How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model
Résumé: Pre-trained language models can be surprisingly adept at tasks they were not explicitly trained on, but how they implement these capabilities is poorly understood. In this paper, we investigate the basic mathematical abilities often acquired by pre-trained language models. Concretely, we use mechanistic interpretability techniques to explain the (limited) mathematical abilities of GPT-2 small. As a case study, we examine its ability to take in sentences such as "The war lasted from the year 1732 to the year 17", and predict valid two-digit end years (years > 32). We first identify a circuit, a small subset of GPT-2 small's computational graph that computes this task's output. Then, we explain the role of each circuit component, showing that GPT-2 small's final multi-layer perceptrons boost the probability of end years greater than the start year. Finally, we find related tasks that activate our circuit. Our results suggest that GPT-2 small computes greater-than using a complex but general mechanism that activates across diverse contexts.
Auteurs: Michael Hanna, Ollie Liu, Alexandre Variengien
Dernière mise à jour: 2023-11-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.00586
Source PDF: https://arxiv.org/pdf/2305.00586
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.