IA et preuves mathématiques : une nouvelle approche
Utiliser l'IA pour rédiger des preuves formelles pour des problèmes de maths difficiles révèle de nouvelles pistes.
Roozbeh Yousefzadeh, Xuenan Cao
― 11 min lire
Table des matières
- Le défi des preuves mathématiques
- Élargir le panel de preuves
- Évaluer les compétences d'écriture de preuves de l'IA
- Pourquoi l'IA a besoin de données de qualité
- L’Olympiade de mathématiques : un vrai casse-tête
- État actuel des jeux de données mathématiques
- Une nouvelle approche pour décomposer les preuves
- Tester GPT-4 : espérant une amélioration
- Un regard plus attentif sur les lemmes
- Rendre les preuves accessibles
- Points clés
- Explorer les directions futures
- Conclusion
- Source originale
- Liens de référence
Écrire des preuves mathématiques formelles, c'est aussi galère que de plier un drap-housse. Que tu sois humain ou ordi, ça peut vite tourner au casse-tête. Récemment, des personnes malignes se sont dit : “Eh, et si on utilisait l'IA pour nous filer un coup de main ?” Ils se sont penchés sur un type de problème mathématique spécial appelé les problèmes IMO de l’Olympiade Mathématique Internationale.
Ces problèmes vont de modérés à de véritables casse-têtes. Tu sais, ceux qui te font te gratter la tête et te demander si tu sais encore additionner. L’équipe voulait rédiger des Preuves Formelles en utilisant un outil appelé Lean, qui est un langage de programmation pour les preuves mathématiques. Ils voulaient s’attaquer à certains de ces problèmes épineux avec l’IA, et ce qu’ils ont trouvé était vraiment fascinant.
Le défi des preuves mathématiques
Les humains galèrent grave à écrire des preuves mathématiques formelles, et les ordinateurs ne sont pas non plus des génies dans ce domaine. Même certains modèles d’IA dits avancés ont du mal. Le jeu de données miniF2F, souvent utilisé comme référence pour la démonstration automatique de théorèmes, contient 20 problèmes IMO, mais il manque des preuves formelles pour plus de la moitié. Alors, pourquoi c'est si important ? Eh bien, quand un ordinateur prétend pouvoir résoudre un problème mais n’a pas de preuve solide pour le soutenir, c’est comme dire que tu es un super cuisinier alors que tu te contentes de réchauffer des pizzas congelées.
Beaucoup de modèles d'IA, comme GPT-4, ont du mal à prouver correctement ces problèmes mathématiques. Ils peuvent avoir un coup de chance de temps en temps, mais quand il s'agit des problèmes plus difficiles, c’est comme voir un petit enfant essayer de lacer ses chaussures-beaucoup d’efforts, mais pas beaucoup de succès.
Élargir le panel de preuves
Pour aider à obtenir plus de preuves formelles, l’équipe s'est attaquée à rédiger des preuves originales pour 13 des 20 problèmes IMO du jeu de données miniF2F, plus quelques extras des années récentes. Au total, ça en fait 5 150 lignes de preuves-même plus longues que certains romans ! Cet effort massif facilite l'apprentissage et l'expérimentation des futurs chercheurs avec ces problèmes.
Ils ne se sont pas arrêtés là. Ils ont aussi décomposé ces preuves en morceaux plus petits, appelés Lemmes. Pense à ces lemmes comme à des blocs de construction des preuves mathématiques. L’équipe a créé environ 900 lemmes avec environ 25 500 lignes de code Lean. Ça, c'est pas mal de blocs mathématiques ! Ces lemmes sont plus faciles à manipuler et offrent un chemin plus clair pour que les modèles d’IA puissent apprendre.
Évaluer les compétences d'écriture de preuves de l'IA
Après avoir généré ces lemmes, l’équipe a décidé de tester les compétences d'écriture de preuves de GPT-4 sur eux. Spoiler : ça ne s'est pas aussi bien passé qu'ils l'espéraient. L’IA a eu du mal à écrire des preuves correctes, ce qui était surprenant vu toute la technologie sophistiquée derrière. Ils ont utilisé diverses techniques de suggestion, y compris la suggestion zéro (lui demander d’y aller tout simplement) et le raisonnement par chaîne de pensée (le guider étape par étape). Mais malgré tout, le robot n’a pas brillé.
Ce qui était encore plus intéressant, c'est que GPT-4 a mieux performé sur des problèmes IMO plus anciens par rapport aux plus récents. Les anciens problèmes semblaient un peu plus sympathiques, comme une journée d'été calme, tandis que les nouveaux étaient plutôt comme une nuit tempétueuse-challenging et difficile à naviguer.
Pourquoi l'IA a besoin de données de qualité
Les modèles d'apprentissage machine, un peu comme une personne affamée, ont besoin de données de qualité pour s'épanouir. Plus tu leur donnes de bonnes données, mieux ils fonctionnent. Le succès de nombreux systèmes d'apprentissage machine peut souvent être attribué à une abondance de données d’entraînement de qualité. Par exemple, ImageNet a joué un rôle énorme dans la vision par ordinateur. Mais quand il s'agit de mathématiques, les ressources disponibles sont plutôt rares.
Le jeu de données miniF2F n’a pas assez de preuves de qualité pour bon nombre de ses problèmes. La plupart des modèles d’IA échouent parce qu’ils manquent d'exemples solides à partir desquels apprendre. C'est comme essayer d'apprendre à faire du vélo sans jamais avoir vu quelqu'un le faire. Quand un modèle essaie de résoudre un problème mathématique et échoue, il est difficile de dire où ça a foiré puisque ce n'est pas un bon point de référence.
L’Olympiade de mathématiques : un vrai casse-tête
L’Olympiade Mathématique Internationale présente un défi unique. Les problèmes ne sont dévoilés que le jour de l'examen, et ils deviennent plus difficiles chaque année. Donc, si un modèle d'IA veut laisser sa marque, il doit être rapide et capable de gérer l'inconnu. Utiliser des problèmes passés comme pratique ne suffit pas, car chaque année, les étudiants sont confrontés à de nouveaux défis intentionnellement compliqués.
Pour préparer une IA pour l’Olympiade de mathématiques, les chercheurs doivent utiliser des méthodes d'évaluation rigoureuses. Ils doivent vérifier si l'IA peut généraliser son apprentissage face à un nouvel ensemble de problèmes plus difficiles. Si tu essaies de gagner une médaille d’or en t'étant juste entraîné avec des choses faciles, tu risques de repartir bredouille.
État actuel des jeux de données mathématiques
Le jeu de données miniF2F est constitué de divers théorèmes mathématiques sur lesquels les étudiants sont testés. Parmi les 244 théorèmes, 20 viennent de l'IMO, et leur difficulté varie énormément. Certains nécessitent une preuve en une seule ligne, tandis que d'autres prennent des centaines de lignes. Réussir les problèmes plus faciles ne garantit pas le succès sur les plus difficiles. Donc, si un modèle prétend être bon, il faut aller au-delà des simples pourcentages.
Le champion actuel de ce jeu de données, LEGO-Prover, n'a réussi à prouver qu'un des problèmes IMO. Pendant ce temps, des méthodes comme HTPS peuvent gérer plus de problèmes mais rencontrent souvent des soucis avec des énoncés de problème simplifiés ou mal formulés. C’est comme dire que tu peux gagner une course juste parce que tu as réussi à terminer une petite course.
Une nouvelle approche pour décomposer les preuves
L’équipe a réalisé que pour de nombreux problèmes, les preuves formelles n'étaient pas disponibles au public. Donc, ils se sont attaqués à ces problèmes difficiles et ont partagé leurs preuves formelles en Lean. Ils ont décomposé chaque preuve en lemmes plus petits. Ce processus a rendu les défis complexes plus gérables, permettant aux autres de les étudier et d'apprendre.
Les lemmes varient en difficulté et couvrent une variété de sujets. Certains sont simples et directs, tandis que d'autres nécessitent une réflexion plus approfondie. Ils ont même évité les problèmes faciles que Lean pourrait prouver automatiquement. Au lieu de cela, ils se sont concentrés sur de vrais défis où les cerveaux-humains ou IA-devaient être engagés.
Tester GPT-4 : espérant une amélioration
Pour voir si GPT-4 pouvait s'améliorer, l'équipe lui a demandé de rédiger des preuves formelles pour leurs lemmes. Ils ont fourni des instructions détaillées et ont examiné les preuves informelles de GPT-4 à côté des preuves formelles. Étonnamment, même après un prompting intensif et des retours, GPT-4 a eu du mal avec l'exactitude. C'était comme expliquer à quelqu'un encore et encore comment faire un sandwich, et il finit par te servir une salade à la place.
Dans la plupart des cas, GPT-4 ne pouvait tout simplement pas fournir les bonnes réponses. L’équipe a donné des retours et lui a demandé de corriger ses erreurs, mais c'était comme essayer d'apprendre à un chat à rapporter une balle. Ils ont interagi avec GPT-4 plusieurs fois, mais après dix tours, ils ont décidé d'arrêter les frais.
Un regard plus attentif sur les lemmes
Chacun des lemmes dans le nouveau jeu de données a une preuve formelle en Lean, ce qui est crucial pour quiconque essaie d'apprendre ces problèmes. L’équipe a construit 907 lemmes avec des niveaux de difficulté allant de simples à complexes. Ces blocs de construction sont essentiels pour quiconque souhaite mieux comprendre l'écriture de preuves, car ils offrent un chemin pour s'attaquer à des problèmes mathématiques plus intriqués.
Par exemple, certains lemmes sont relativement simples, impliquant de prouver des propriétés de base des nombres. D'autres défient le résolveur à réfléchir de manière critique sur les fonctions et les relations entre les nombres. Beaucoup sont encore difficiles, même une fois décomposés, mais c’est ça la beauté des mathématiques-il y a toujours quelque chose de nouveau à apprendre.
Rendre les preuves accessibles
Les preuves formelles créées par l’équipe ont été partagées avec la communauté pour aider tout le monde à comprendre le travail nécessaire à l'écriture d'une preuve formelle. Cela peut aussi aider à identifier des erreurs dans les preuves informelles qui circulent en ligne. L’équipe vise à montrer à quel point les preuves formelles peuvent être bénéfiques et détaillées, surtout quand on se penche sur des sujets plus compliqués.
En rendant ces preuves disponibles, ils contribuent à une compréhension plus large des mathématiques. Les non-mathématiciens peuvent voir l'effort impliqué dans les preuves formelles, et les mathématiciens peuvent les utiliser pour affiner leurs approches informelles.
Points clés
Le projet aide à mettre en lumière les difficultés de formaliser des preuves et souligne l'importance des données de qualité dans l'entraînement des modèles d'IA. Même si GPT-4 a rencontré pas mal de difficultés, ce travail a jeté les bases pour de futures avancées.
L’équipe espère qu'en fournissant une richesse de preuves formelles et en travaillant à travers les lemmes, ils pourront encourager plus de succès dans le domaine de la démonstration automatique de théorèmes. Ils voient cela comme un pas en avant dans le long chemin vers la construction d'une IA capable de s’attaquer à des problèmes mathématiques de haut niveau comme ceux de l’Olympiade.
Explorer les directions futures
Bien que l’équipe ait rencontré des défis avec GPT-4, ils restent optimistes. Leur objectif de développer un modèle capable de prouver efficacement les lemmes dans leur jeu de données est toujours d’actualité. Chaque tentative, même imparfaite, sert à informer l'avenir de l'IA en mathématiques.
Le projet ouvre également des voies pour des modèles d'IA plus robustes capables de comprendre des preuves complexes et de connecter des idées de nouvelles manières. Il n'y a pas de manque de défis dans le monde des mathématiques, et l'IA peut jouer un rôle critique pour repousser ces limites encore plus loin.
Conclusion
En résumé, l'effort de rédaction de preuves formelles pour les problèmes IMO en utilisant Lean offre un grand potentiel pour le travail futur en démonstration automatique de théorèmes. Bien que le chemin soit complexe et jalonné d'obstacles inattendus, chaque étape franchie nous rapproche d'une compréhension plus profonde de la façon dont l'IA peut aider dans le monde des mathématiques.
À mesure que les chercheurs continuent à affiner leurs méthodes et à améliorer les capacités des modèles, on pourrait bientôt voir des systèmes d'IA capables de s'attaquer efficacement aux problèmes difficiles posés dans les compétitions mathématiques-ou au moins de ne pas se ridiculiser devant la communauté mathématique. Qui sait ? Un jour, on pourrait avoir une IA qui réussit l’Olympiade de mathématiques, mais d'ici là, on va devoir continuer à pratiquer ces preuves, un lemme à la fois.
Titre: A Lean Dataset for International Math Olympiad: Small Steps towards Writing Math Proofs for Hard Problems
Résumé: Using AI to write formal proofs for mathematical problems is a challenging task that has seen some advancements in recent years. Automated systems such as Lean can verify the correctness of proofs written in formal language, yet writing the proofs in formal language can be challenging for humans and machines. The miniF2F benchmark has 20 IMO problems in its testing set, yet formal proofs are available only for 7 of these problems (3 of which are written only by mathematicians). The model with best accuracy can only prove 4 of these 20 IMO problems, from 1950s and 60s, while its training set is a secret. In this work, we write complete, original formal proofs for the remaining 13 IMO problems in Lean along with 3 extra problems from IMO 2022 and 2023. This effort expands the availability of proof currently in the public domain by creating 5,150 lines of Lean proof. The goal of the paper is to pave the way for developing AI models that can automatically write the formal proofs for all the IMO problems in miniF2F and beyond. In this pursuit, we devise a method to decompose the proof of these problems into their building blocks, constructing a dataset of about 900 lemmas with 25,500 lines of Lean code. These lemmas are not trivial, yet they are approachable, providing the opportunity to evaluate and diagnose the failures and successes of AI models. We then evaluate the ability of GPT-4 in writing formal proofs for these lemmas with zero shot prompting, CoT reasoning and lemma retrieval. In evaluating the responses, we also analyze the confounding factor of LLM's ability to write the proofs in natural language vs Lean language.
Auteurs: Roozbeh Yousefzadeh, Xuenan Cao
Dernière mise à jour: Nov 27, 2024
Langue: English
Source URL: https://arxiv.org/abs/2411.18872
Source PDF: https://arxiv.org/pdf/2411.18872
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://en.wikipedia.org/wiki/Source_criticism
- https://www.neurips.cc/Conferences/2024/CallForDatasetsBenchmarks
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs
- https://www.emfield.org/icuwb2010/downloads/IEEE-PDF-SpecV32.pdf
- https://mirrors.ctan.org/macros/latex/required/graphics/grfguide.pdf
- https://neurips.cc/Conferences/2024/PaperInformation/FundingDisclosure
- https://github.com/mlcommons/croissant