Reconsidérer les maths comme une forme de communication
Explorer l'idée des maths comme un moyen d'exprimer les pensées humaines.
Sasha Boguraev, Ben Lipkin, Leonie Weissweiler, Kyle Mahowald
― 9 min lire
Table des matières
Les maths sont créées par des gens pour exprimer des idées et communiquer des pensées. Tout comme le langage nous aide à partager nos intentions, les maths reflètent aussi ce que les gens essaient de dire. Quand on regarde les maths, on devrait pas seulement considérer les chiffres et les symboles, mais aussi le contexte dans lequel ils ont été créés. Cette perspective peut mener à une meilleure compréhension de la façon dont les gens pensent et communiquent mathématiquement.
Traiter les maths comme une forme de communication plutôt que juste un ensemble de symboles a ses avantages. Même si c'est utile de penser aux maths en termes de règles strictes et de symboles, on peut aussi y voir une manière pour les gens de transmettre leurs idées et intentions. Ce point de vue est quelque chose que les modèles de langage peuvent aider à développer, puisqu'ils sont conçus pour comprendre et générer du langage humain.
Pour illustrer ces idées, examinons deux exemples pratiques. Le premier exemple concerne la manière dont les modèles de langage interprètent des symboles, comme le signe égal. Des recherches montrent que ces modèles peuvent générer différents Problèmes de mots en fonction de la façon dont une équation est arrangée, un peu comme une personne pourrait voir un problème. Le deuxième exemple examine comment ces modèles préfèrent organiser les Preuves de manière plus naturelle, ce qui peut différer d'autres arrangements logiques.
En reconnaissant que les maths véhiculent des messages, on peut plaider pour des systèmes d'IA qui capturent les intentions derrière les expressions mathématiques. Les maths ne sont pas juste une série d'opérations, mais une façon pour les gens de communiquer des idées.
Le Rôle des Modèles de Langage en Maths
Les modèles de langage, qui sont des programmes qui traitent et génèrent du texte semblable à celui des humains, s'appuient souvent sur des motifs et des règles de données sur lesquelles ils ont été formés. Cela signifie qu'ils ne suivent pas toujours des structures logiques rigides quand ils traitent des maths et de la logique. Au lieu de cela, ils utilisent une combinaison de mémorisation et d'inférence, ce qui les rend capables de traiter les problèmes mathématiques de manière plus détendue.
Par exemple, si quelqu'un pose une question mathématique en langage naturel, comme demander combien de grenouilles il reste après que certaines soient parties, le modèle de langage peut toujours voir un calcul à faire. Cependant, il peut ne pas toujours abstraire le problème en symboles. Ce processus ressemble à la façon dont les enfants apprennent les maths ; ils utilisent souvent des mots-clés et des phrases pour guider leur compréhension au lieu de suivre strictement des règles.
Alors que les mathématiciens expérimentés peuvent abstraire le langage et travailler avec des symboles, les personnes moins expérimentées peuvent s'appuyer davantage sur les mots qu'elles voient. Elles peuvent reconnaître des phrases comme "au total" comme des signaux pour additionner des nombres. Cela peut parfois mener à des erreurs d’interprétation, montrant que même si des approches plus simples peuvent être moins épuisantes, elles ont aussi leurs inconvénients.
De plus, ceux qui prennent le temps de décomposer un problème en éléments structurés, réfléchissent au contexte et planifient leurs méthodes tendent à mieux performer en résolution de problèmes. Cela suggère qu'on devrait prendre en compte les aspects communicatifs des maths plutôt que de se concentrer uniquement sur la traduction en symboles.
Certains peuvent argumenter que les systèmes d'IA pour les maths devraient abandonner le langage et se concentrer sur des représentations symboliques strictes. Cependant, combiner des modèles de langage avec des systèmes symboliques a montré du succès dans diverses applications. En générant des problèmes de mots à partir d'Équations et en essayant de retrouver les équations originales, ces modèles peuvent saisir le contexte et les nuances qu'un système purement symbolique pourrait négliger.
L'Hypothèse des Maths Communicatives
On introduit un concept appelé l'Hypothèse des Maths Communicatives. Cette idée suggère que puisque les maths sont faites par des gens, pour des gens, le contexte dans lequel elles sont créées et utilisées est essentiel. Les choix faits lorsqu'on écrit des équations portent du sens, tout comme une phrase peut transmettre quelque chose au-delà de ses mots littéraux.
Quand quelqu'un écrit une équation mathématique, la façon dont elle est structurée peut envoyer un message au lecteur. Cet aspect ne concerne pas seulement la justesse, mais aussi la clarté et l'intention. Le format d'une preuve mathématique ou l'ordre dans lequel les étapes sont présentées influencent la manière dont le public perçoit et comprend l'information transmise.
Des recherches en éducation mathématique ont montré que cet aspect communicatif est souvent négligé dans l'apprentissage machine et l'IA. En reconnaissant l'importance de la façon dont les maths sont communiquées, on peut encourager ceux qui conçoivent des systèmes d'IA à prendre en compte cette perspective dans leur travail.
Étude de Cas sur l'Asymétrie dans les Équations
La première étude de cas examine comment les gens interprètent les équations de manière asymétrique. Dans l'éducation mathématique, on observe que les enfants ont du mal avec certaines équations tout en se sentant à l'aise avec d'autres qui sont liées. Cela signifie que même les mathématiciens expérimentés peuvent aborder les problèmes de manière asymétrique, interprétant les expressions en fonction de leur arrangement.
Pour explorer cela, une expérience a été réalisée pour voir dans quelle mesure les modèles de langage pouvaient recréer des équations à partir de problèmes de mots qu'ils avaient générés. Les résultats ont montré que ces modèles avaient tendance à privilégier l'ordre original des équations. Ils étaient beaucoup mieux à retrouver les équations dans leur arrangement original comparé à des versions inversées. Cette découverte souligne l'importance du contexte et de la structure dans la communication des maths.
L'implication est claire : comprendre l'ordre et le format des expressions en maths est crucial pour les systèmes d'IA. Ces modèles ne se contentent pas de faire des calculs ; ils peuvent reconnaître des motifs et des structures qui sont essentiels pour une communication efficace.
Étude de Cas sur l'Ordonnancement dans les Preuves Mathématiques
La deuxième étude de cas se concentre sur les preuves mathématiques et les règles. Les preuves sont une façon de communiquer des vérités mathématiques, et il y a des attentes sur la manière dont elles devraient être présentées. La directionnalité des équations a son importance ; l'arrangement envoie des messages sur la manière dont les concepts sont liés les uns aux autres.
Pour approfondir, les chercheurs ont mené des expériences pour déterminer comment les maths devraient être ordonnées dans des Contextes formels. Ils ont présenté aux mathématiciens des équations arrangées de manière inhabituelle et ont mesuré leurs réactions. Cette étude avait pour but de découvrir les préférences naturelles qui existent dans l'écriture et le raisonnement mathématiques.
En analysant les préférences des modèles de langage, les résultats ont indiqué que ces modèles préféraient l'ordre naturel des expressions. Cela s'aligne avec ce que les mathématiciens professionnels attendent et montre que les modèles de langage sont capables de saisir ces préférences dans leurs interprétations.
La conclusion des deux études de cas suggère qu'en reconnaissant les aspects communicatifs des mathématiques, on peut créer des systèmes d'IA qui sont plus alignés avec la façon dont les humains traitent et comprennent les maths. Ces systèmes peuvent finalement aider les gens dans leurs efforts mathématiques plutôt que de simplement effectuer des tâches isolément.
La Voie à Suivre pour l'IA en Maths
On a montré que les modèles de langage peuvent apprendre et incorporer des informations supplémentaires au-delà des simples symboles. Ces études révèlent que l'information communicative est essentielle pour comprendre les maths, et ignorer ces aspects peut limiter l'efficacité des systèmes d'IA.
Alors que les mathématiciens ont été limités à utiliser des démonstrateurs de théorèmes purement symboliques, il y a un besoin d'assistants de preuve qui prennent en compte les styles humains et la compréhensibilité. Les systèmes basés sur des modèles de langage offrent la possibilité de créer des assistants mathématiques utiles qui travaillent aux côtés des humains, améliorant leur expérience plutôt que de remplacer leur intuition.
Bien que les maths générées par ces modèles ne soient pas toujours parfaites, les efforts pour améliorer leur sortie ne devraient pas sacrifier leur capacité à interpréter les maths de manière compréhensible pour les utilisateurs. Se concentrer sur les principes communicatifs dans le raisonnement mathématique peut mener à des outils plus efficaces qui soutiennent la collaboration entre l'IA et les mathématiciens humains.
En somme, le rôle des maths en tant qu'effort communicatif devrait être central dans la recherche future en IA. En embrassant les aspects humains des maths, on peut développer des systèmes qui fonctionnent vraiment pour les gens, favorisant une connexion plus profonde à la nature même de la pensée mathématique.
Titre: Models Can and Should Embrace the Communicative Nature of Human-Generated Math
Résumé: Math is constructed by people for people: just as natural language corpora reflect not just propositions but the communicative goals of language users, the math data that models are trained on reflects not just idealized mathematical entities but rich communicative intentions. While there are important advantages to treating math in a purely symbolic manner, we here hypothesize that there are benefits to treating math as situated linguistic communication and that language models are well suited for this goal, in ways that are not fully appreciated. We illustrate these points with two case studies. First, we ran an experiment in which we found that language models interpret the equals sign in a humanlike way -- generating systematically different word problems for the same underlying equation arranged in different ways. Second, we found that language models prefer proofs to be ordered in naturalistic ways, even though other orders would be logically equivalent. We advocate for AI systems that learn from and represent the communicative intentions latent in human-generated math.
Auteurs: Sasha Boguraev, Ben Lipkin, Leonie Weissweiler, Kyle Mahowald
Dernière mise à jour: 2024-10-31 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.17005
Source PDF: https://arxiv.org/pdf/2409.17005
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.