Pourquoi les modèles de langage galèrent à compter les lettres
Les grands modèles de langage galèrent sur des tâches simples comme compter des lettres, ce qui remet en question leurs capacités.
Tairan Fu, Raquel Ferrando, Javier Conde, Carlos Arriaga, Pedro Reviriego
― 8 min lire
Table des matières
- Les Bases des LLMs
- Le Problème du Comptage
- Quel est le Problème avec le Comptage ?
- Le Rôle des Tokens
- Exemples des Problèmes de Comptage
- Pourquoi la Fréquence Ne Compte Pas
- La Difficulté de Compter les Lettres
- Pourquoi les Modèles Plus Grands Semblent Meilleurs
- La Tokenisation : L’Ingrédient Pas Si Secret
- Conclusion
- Source originale
- Liens de référence
Les Modèles de Langage Grande Échelle, ou LLMs, sont des programmes informatiques conçus pour comprendre et générer du langage humain. Ils sont devenus super populaires parce qu'ils peuvent faire plein de tâches compliquées assez bien, comme répondre à des questions, écrire des essais, et même avoir des conversations. Mais on pourrait penser que Compter les Lettres dans un simple mot serait un jeu d'enfant pour eux. Étonnamment, ce n'est pas le cas. Ces modèles échouent parfois à compter les lettres, même dans un mot facile comme "fraise".
Cette question a suscité des interrogations. Si ces modèles peuvent faire tant de choses qui semblent difficiles, pourquoi trébuchent-ils sur des tâches aussi basiques ? Regardons cela de manière décontractée et explorons ce qui pourrait mal tourner.
Les Bases des LLMs
Les LLMs sont formés sur d'énormes quantités de texte provenant de livres, d'articles, de sites web et bien d'autres sources. Imagine faire défiler Internet et lire tout ce que tu vois-c'est un peu ce que font les LLMs, sauf qu'ils avalent l'information à une vitesse incroyable. Ils apprennent des schémas dans le langage, ce qui leur permet de deviner ce qui vient ensuite dans une phrase ou de répondre à des questions basées sur ce qu'ils ont lu.
Quand tu demandes à un LLM une question, il ne fait pas que deviner une réponse. Au lieu de ça, il essaie de prédire le prochain mot ou la prochaine phrase en se basant sur les schémas qu'il a appris pendant sa formation. C’est un peu comme la manière dont les gens apprennent des langues, mais avec quelques différences.
Le Problème du Comptage
Tu te demandes peut-être : si les LLMs peuvent générer des textes compliqués, pourquoi ne peuvent-ils pas compter les lettres correctement ? Eh bien, il s’avère que lorsque ces modèles analysent un texte, ils ne se concentrent pas forcément sur les lettres individuelles. Au lieu de cela, ils ont tendance à penser en "tokens". Les tokens peuvent être des Mots entiers, des parties de mots, ou même juste quelques lettres. Par exemple, le mot "fraise" pourrait être décomposé en trois tokens : "fr", "ai", et "se".
Le problème surgit parce que la façon dont les LLMs sont entraînés les aide plus à identifier des mots et des phrases qu'à compter les lettres individuelles à l'intérieur de ces mots. Comme ils voient les lettres comme faisant partie d’un tableau plus grand, les compter devient une tâche délicate.
Quel est le Problème avec le Comptage ?
Des recherches ont été menées pour comprendre pourquoi les LLMs ont ce souci de comptage. Il semble que même si les LLMs peuvent reconnaître des lettres, ils galèrent quand on leur demande de les compter réellement. Dans une expérience, différents modèles ont été évalués pour voir à quel point ils pouvaient compter la lettre "r" dans "fraise". Beaucoup de modèles ont mal compté. Certains ont simplement deviné des chiffres incorrects, tandis que d'autres ont juste rapporté qu'ils ne pouvaient pas trouver les lettres du tout.
Fait intéressant, cette confusion n’est pas due à la fréquence à laquelle les mots apparaissent dans leurs données d’entraînement. En fait, la fréquence d’un mot ou d’une lettre n’a pas un grand impact sur la capacité de comptage du modèle. C’est plus une question de la difficulté de la tâche de comptage, surtout quand les lettres se répètent, comme dans le cas de "fraise".
Le Rôle des Tokens
Comme mentionné précédemment, les LLMs utilisent des tokens pour analyser le texte. Imagine que tu apprennes une nouvelle langue, et au lieu de te concentrer sur les lettres, tu ne prêtes attention qu’à des mots entiers. C’est un peu ce que font les LLMs. Ils s’appuient sur des tokens pour prédire des phrases, mais en faisant cela, ils perdent de vue les lettres individuelles qui composent ces tokens.
La tokenisation peut être compliquée. Si le modèle voit comment "fraise" est décomposé en tokens, il se peut qu'il ne connecte pas complètement le fait que la lettre "r" apparaît plus d'une fois. Cela peut mener à des erreurs de comptage ou à des oublis complets.
Exemples des Problèmes de Comptage
Pour mieux illustrer ce problème, regardons un exemple amusant. Disons que tu demandes à un LLM de compter combien de fois la lettre "e" apparaît dans le mot "abeille". Un humain bien entraîné peut facilement voir que la réponse est deux. Cependant, le modèle peut se retrouver confus et dire que c’est un ou même zéro parce qu'il n'a pas reconnu que "e" fait partie d'un token ou d'un élément de mot répété.
Une situation similaire se produit avec des mots plus longs ou plus compliqués. Quand des lettres apparaissent plusieurs fois, il devient encore plus difficile pour les modèles de les compter correctement. Le modèle pourrait juste balancer une supposition ou se bloquer, non pas parce qu'il ne peut pas reconnaître les lettres, mais parce qu'il n'arrive pas à les additionner correctement.
Pourquoi la Fréquence Ne Compte Pas
Tu pourrais penser que si une lettre ou un mot apparaît plus souvent dans les données d'entraînement d'un modèle, ce serait plus facile à compter. Étonnamment, ce n'est pas le cas. Les chercheurs n'ont trouvé aucun lien clair entre la fréquence d'apparition d'un mot ou d'une lettre dans les données d'entraînement et la capacité du modèle à les compter correctement. Donc, avoir une lettre qui apparaît mille fois ne garantit pas que le modèle la comptera bien.
Cela signifie que les erreurs de comptage ne viennent pas d'un manque d'exposition aux mots. Au lieu de ça, il semble que le challenge réside dans la manière dont cette exposition est traitée. Les modèles n'ont tout simplement pas les compétences de comptage pour correspondre à leur compréhension du langage.
La Difficulté de Compter les Lettres
On dirait que les LLMs ont le plus de mal à compter les lettres qui apparaissent plusieurs fois. Ils gèrent souvent bien les mots avec des lettres uniques. En revanche, quand les lettres se répètent, les choses commencent à dérailler. Si un mot contient plusieurs instances de la même lettre, les modèles semblent perdre le fil.
Pour illustrer cela davantage, prenons "ballon." Il a deux “l” et deux “o.” Pour la plupart des gens, compter ces lettres est facile. Pour les LLMs, cependant, cela peut devenir une tâche compliquée. Ils peuvent identifier les lettres correctement mais échouer à calculer les totaux corrects.
Pourquoi les Modèles Plus Grands Semblent Meilleurs
Fait intéressant, les modèles plus grands tendent à mieux performer que les plus petits en matière de comptage des lettres. Les modèles plus grands ont plus de paramètres et de capacités, ce qui leur permet de mieux comprendre et gérer des tâches complexes, même s'ils trébuchent encore sur le comptage des lettres.
Cependant, il est essentiel de noter que, même si la taille compte, cela ne résout pas entièrement le problème de comptage. Même les grands modèles font encore leur part d'erreurs, surtout avec des mots qui contiennent des lettres répétées.
La Tokenisation : L’Ingrédient Pas Si Secret
La façon dont les tokens sont traités joue un rôle important dans les problèmes de comptage auxquels sont confrontés les LLMs. Différents modèles utilisent différents schémas de tokenisation, ce qui peut affecter leur performance dans diverses langues et contextes. Ces différences peuvent mener à des résultats variés en matière d'erreurs de comptage.
Par exemple, un modèle peut utiliser un schéma de tokenisation qui décompose un mot en parties plus petites, ce qui pourrait compliquer le processus de comptage. Si un token contient une lettre qui apparaît plusieurs fois, le modèle peut seulement le traiter comme une seule instance, menant à des comptages inexacts.
Conclusion
En résumé, les LLMs ont fait beaucoup de chemin, réussissant à faire des choses incroyables avec le langage. Cependant, ils trébuchent encore sur des tâches simples comme compter les lettres. Cette situation particulière résulte de divers facteurs, notamment leur dépendance à la tokenisation, la complexité du comptage des lettres répétées, et le fait que la fréquence n’a pas beaucoup d’importance dans ce contexte.
Bien qu'ils puissent avoir la connaissance pour reconnaître des mots, leurs compétences de comptage laissent beaucoup à désirer. Cette situation nous rappelle que même les technologies les plus avancées peuvent avoir leurs ratés. La prochaine fois que tu demanderas à un modèle de langage de compter des lettres, prépare-toi à une réponse inattendue-parce que compter, il s'avère que ce n'est pas aussi simple que ça en a l'air !
Et qui sait ? Peut-être qu'un jour ces modèles comprendront comment compter. D'ici là, il vaut mieux laisser le comptage aux humains. Après tout, nous sommes les véritables experts quand il s'agit de jongler avec ces petites lettres embêtantes !
Titre: Why Do Large Language Models (LLMs) Struggle to Count Letters?
Résumé: Large Language Models (LLMs) have achieved unprecedented performance on many complex tasks, being able, for example, to answer questions on almost any topic. However, they struggle with other simple tasks, such as counting the occurrences of letters in a word, as illustrated by the inability of many LLMs to count the number of "r" letters in "strawberry". Several works have studied this problem and linked it to the tokenization used by LLMs, to the intrinsic limitations of the attention mechanism, or to the lack of character-level training data. In this paper, we conduct an experimental study to evaluate the relations between the LLM errors when counting letters with 1) the frequency of the word and its components in the training dataset and 2) the complexity of the counting operation. We present a comprehensive analysis of the errors of LLMs when counting letter occurrences by evaluating a representative group of models over a large number of words. The results show a number of consistent trends in the models evaluated: 1) models are capable of recognizing the letters but not counting them; 2) the frequency of the word and tokens in the word does not have a significant impact on the LLM errors; 3) there is a positive correlation of letter frequency with errors, more frequent letters tend to have more counting errors, 4) the errors show a strong correlation with the number of letters or tokens in a word and 5) the strongest correlation occurs with the number of letters with counts larger than one, with most models being unable to correctly count words in which letters appear more than twice.
Auteurs: Tairan Fu, Raquel Ferrando, Javier Conde, Carlos Arriaga, Pedro Reviriego
Dernière mise à jour: Dec 19, 2024
Langue: English
Source URL: https://arxiv.org/abs/2412.18626
Source PDF: https://arxiv.org/pdf/2412.18626
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://research.google/blog/all-our-n-gram-are-belong-to-you/
- https://norvig.com/ngrams/
- https://platform.openai.com/tokenizer
- https://github.com/aMa2210/LLM_CounterLettersWithoutFT
- https://norvig.com/mayzner.html
- https://huggingface.co/spaces/Qwen/QwQ-32B-preview
- https://www.acm.org/publications/proceedings-template
- https://capitalizemytitle.com/
- https://www.acm.org/publications/class-2012
- https://dl.acm.org/ccs/ccs.cfm
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://www.acm.org/publications/taps/describing-figures/