Évaluer les modèles de langue avec des rébus italiens
Cette étude analyse à quel point les modèles d'IA résolvent bien les rébus italiens.
― 7 min lire
Table des matières
Les rébus, c'est des devinettes marrantes qui utilisent des images et des lettres pour cacher une phrase. Les gens doivent réfléchir par étapes pour trouver la réponse. Cette étude vise à rassembler une grosse collection de rébus en italien et à vérifier à quel point les modèles de langage modernes peuvent les résoudre. On a découvert que beaucoup de modèles de langage populaires n'étaient pas très bons avec les rébus, mais on a aussi remarqué que si on formait un modèle plus petit spécifiquement pour ça, il s'en sortait beaucoup mieux. Cependant, il semble que cette amélioration venait surtout du fait que le modèle se souvenait des réponses plutôt que de réellement les élaborer. Cet article examine les compétences nécessaires aux modèles de langage et leur capacité à suivre des instructions, en utilisant les rébus comme test.
C'est quoi les rébus ?
Les rébus, c'est plus que de simples puzzles ; ils nécessitent un mélange de connaissances, de contexte et de compétences linguistiques pour être résolus. En italien, la tradition des rébus remonte à longtemps. Ils reposent sur la combinaison d'images et de lettres d'une manière qui n'a de sens que pour ceux qui savent lire ces indices correctement. Les gens doivent suivre différentes étapes pour arriver à la réponse finale, donc résoudre un rébus demande pas mal de réflexion, ce qui est crucial dans de nombreuses situations de la vie réelle.
Le défi de résoudre des rébus
Beaucoup de jeux comme les échecs ont été utilisés pour pousser les systèmes d'IA à mieux gérer des tâches complexes. Les puzzles linguistiques sont désormais scrutés pour voir à quel point l'IA peut réfléchir et traiter des infos. Bien qu'on ait beaucoup bossé sur des outils pour les mots croisés, les autres formes comme les rébus n'ont pas reçu beaucoup d'attention, surtout dans des langues autres que l'anglais.
Les rébus demandent plusieurs étapes de raisonnement et une bonne compréhension de la langue. Comme ils mêlent images et mots, ils représentent un défi plus riche pour les systèmes d'IA. Cette recherche est une première tentative d'évaluer comment les modèles de langage avancés s'en sortent avec les rébus en italien.
Création et test de rébus verbalisés
Dans cette recherche, on a créé une nouvelle façon de transformer les rébus en puzzles uniquement textuels. En prenant des indices des rébus et des définitions de mots croisés, on a constitué une grosse collection de plus de 80 000 rébus verbalisés. On a testé plusieurs modèles de langage avancés, y compris ceux qui sont accessibles au public et ceux qui nécessitent un paiement, pour voir à quel point ils pouvaient résoudre ces puzzles.
Pour les tests, on a utilisé une méthode appelée "few-shot prompting", où on donne des exemples au modèle pour l'aider à comprendre quoi faire. On a aussi formé un modèle de langage plus petit spécifiquement sur ces rébus, et il a fini par surpasser tous les autres modèles en termes de résolution.
Résultats sur la performance des modèles de langage
On a remarqué que les modèles populaires ne s'en sortaient pas bien avec les rébus, le meilleur modèle n'ayant réussi que 24 % des réponses. En comparaison, notre modèle affiné a réussi 51 % des réponses correctes.
Une découverte majeure a été que beaucoup de modèles avaient du mal à suivre les étapes nécessaires pour résoudre les rébus. On a aussi constaté des problèmes quand ils devaient assembler des infos provenant de différentes parties du puzzle. Notre analyse a montré que la meilleure performance du modèle affiné venait en grande partie de sa capacité à se souvenir d'exemples passés.
Comment les modèles apprennent et résolvent
On a examiné de près comment l'utilisation des mots et la familiarité influençaient les Performances des modèles de langage. Si un mot était couramment utilisé dans les données d'entraînement, les modèles étaient plus précis lors des tests. On a constaté que les mots plus longs étaient souvent moins bien prédits.
En testant le modèle affiné avec des mots nouveaux qui n'étaient pas dans son entraînement, la performance chutait fortement. Ça suggère que simplement avoir plus de pratique avec des mots similaires est clé pour que le modèle performe bien. En revanche, les modèles populaires montraient une performance constante, qu'ils soient confrontés à des mots vus ou non.
Évaluation manuelle des sorties des modèles
On a aussi pris le temps de vérifier manuellement certaines des sorties générées par les modèles. Dans une évaluation, notre modèle entraîné faisait des prédictions correctes pour les étapes initiales et les solutions finales. En revanche, les autres modèles commettaient diverses erreurs en chemin, ce qui menait à de mauvaises réponses.
Fait intéressant, les résultats ont montré que même quand les modèles se trompaient, certains essayaient encore de suivre des règles linguistiques correctes au lieu de s'en tenir aux indices disponibles. Ça a conduit à des réponses qui ne collaient pas vraiment au puzzle.
Dans un autre test, un mot utilisé dans le puzzle n'a pas été vu pendant l'entraînement. Ça a entraîné de mauvaises prédictions, et les erreurs se sont poursuivies jusqu'à la phase de solution. Globalement, il était clair que tous les modèles ne géraient pas la tâche de résolution de rébus de la même manière, certains montrant plus de promesses que d'autres.
Pensées finales
Cette exploration sur la résolution de rébus a révélé beaucoup sur ce que les modèles de langage peuvent faire quand on leur donne des tâches structurées. Notre étude a mis en lumière à quel point ces puzzles sont difficiles, même pour des systèmes avancés. On a appris que même si l'affinage peut considérablement améliorer la performance d'un modèle, ça le rend aussi dépendant de la mémorisation plutôt que d'une véritable résolution de problèmes.
En regardant vers l'avenir, il y a encore beaucoup de travail à faire dans ce domaine. En élargissant les évaluations pour inclure plus de langues, différents types de puzzles et divers formats, on peut mieux comprendre ce qui fonctionne bien et ce qui ne fonctionne pas. Résoudre des rébus visuels ou plus complexes reste un défi, mais il est clair que de telles tâches aideront à évaluer comment les modèles de langage évoluent dans leur raisonnement et leurs compétences linguistiques.
En résumé, étudier les rébus nous aide non seulement à voir comment les modèles de langage interagissent avec différents types de langue, mais ça pose aussi les bases pour des avancées futures en intelligence artificielle alors qu'ils s'efforcent de comprendre et de traiter la langue de manière plus humaine.
Titre: Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses
Résumé: Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.
Auteurs: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
Dernière mise à jour: 2024-08-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2408.00584
Source PDF: https://arxiv.org/pdf/2408.00584
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://gsarti.com
- https://cs.rug.nl/~bisazza
- https://github.com/gsarti/verbalized-rebus
- https://huggingface.co/collections/gsarti/verbalized-rebus-clic-it-2024-66ab8f11cb04e68bdf4fb028
- https://www.evalita.it
- https://www.eureka5.it
- https://hf.co/spaces/FinancialSupport/open_ita_llm_leaderboard
- https://github.com/unslothai/unsloth
- https://ai.meta.com/blog/meta-llama-3/
- https://github.com/jitsi/jiwer
- https://www.enignet.it/home