Évaluer la capacité des modèles de langue à suivre les changements

Table des matières

Source originale
Liens de référence

Suivre comment les choses changent dans un texte ou une conversation, c'est super important pour piger le sens de ce qui se dit. Mais, y a pas eu beaucoup de recherche pour voir à quel point les gros Modèles de langage peuvent suivre ces changements. Cette étude se penche sur la capacité de ces modèles à dire l'état final d'un objet à partir de son état initial et d'une série d'actions qui l'affectent.

On a testé des modèles populaires comme Flan-T5, GPT-3 et GPT-3.5 pour voir s'ils pouvaient suivre ces changements. Nos résultats montrent que seul le modèle GPT-3.5, qui a été entraîné sur plein de textes et de code, peut suivre efficacement l'état des Objets. On voulait aussi voir si des modèles plus petits axés sur le texte pouvaient apprendre cette compétence, donc on a affiné T5 sur divers ensembles de données. Même si les modèles ont eu du mal avec des tâches plus complexes, ceux qui ont été affinés peuvent souvent bien suivre les objets, même avec peu de chevauchement entre les données d'Entraînement et d'évaluation. Dans l'ensemble, ça indique que les modèles de langage peuvent apprendre à suivre les changements, mais que s'entraîner uniquement sur du texte ne rend pas cette capacité évidente.

Pour comprendre les changements dans un texte en cours, plusieurs compétences sont nécessaires :

Reconnaître de nouvelles entités : Savoir quand de nouvelles choses sont introduites. Par exemple, un bol est un nouvel item, mais dire "le dernier mélange" n'introduit rien de nouveau.
Lier des expressions aux entités : Assurer que différents termes renvoient au même objet. Par exemple, "un mélange léger" et "le dernier mélange" c'est la même chose.
Suivre les changements : Garder un œil sur comment l'état de chaque objet change au fil du texte. Par exemple, quand des œufs sont mélangés dans le bol, leur état a changé.

Il y a déjà plein de jeux de données et de modèles qui visent à évaluer ces compétences. Des recherches précédentes ont montré que des modèles comme BERT peuvent reconnaître certains liens entre termes. D'autres ont découvert que certains modèles peuvent dire quand une phrase nominale introduit un nouvel objet, même si ça n'a pas encore été totalement exploré.

La capacité des gros modèles de langage à suivre les changements d'état n'est pas largement évaluée. Il y a eu quelques évaluations indirectes. Par exemple, une étude a montré que GPT-2 pouvait prédire des mouvements d'échecs valides basés sur une description des mouvements précédents. Bien que cela suggère que le modèle pourrait suivre le jeu, ça n'a pas confirmé sa capacité à suivre les changements d'état dans la langue quotidienne.

Pour combler ce manque de recherche, on a créé une tâche pour évaluer la capacité des modèles de langage à suivre les changements d'objets. On s'est concentré sur des modèles comme GPT-3, GPT-3.5 et Flan-T5 sans les affiner. Nos résultats indiquent que seul GPT-3.5, qui inclut à la fois du texte et du code dans son entraînement, peut accomplir cette tâche efficacement. En plus, on a trouvé qu'un modèle plus petit, T5, pouvait apprendre à suivre les changements après affinage, même quand il était confronté à des descriptions différentes dans l'entraînement et l'évaluation.

Conception de la tâche et ensemble de données

Suivre des objets ne devrait pas dépendre du wording spécifique utilisé. Un modèle capable devrait suivre les objets peu importe comment ils sont décrits. Ce besoin d'indépendance pose des défis pour évaluer ces compétences parce que les données d'entraînement ne devraient pas permettre au modèle de deviner l'état d'un objet juste sur des mots individuels. De plus, un modèle entraîné uniquement sur du texte a peut-être appris des résultats communs, comme le fait que des œufs finissent généralement dans un bol. Donc, toute évaluation du suivi d'entités devrait respecter quatre principes principaux :

Les États sondés ne doivent pas ressembler à des motifs probablement trouvés dans les données d'entraînement.
Les mots ou phrases ne devraient pas prédire l'état d'un objet sans tenir compte de tout le contexte.
Si des données sont utilisées pour des démonstrations, les données d'entraînement et d'évaluation devraient avoir peu de chevauchement.
Les données de démonstration ne devraient pas permettre à la tâche d'être résolue juste en remplissant des cases dans un modèle.

Les ensembles de données naturalistes comme des recettes ou des textes scientifiques ne satisfont souvent pas ces principes. Donc, on a créé un ensemble de données qui répond à ces exigences. Notre ensemble de données consiste en des scénarios avec des boîtes pouvant contenir des objets, qui peuvent être ajoutés, retirés ou déplacés. Chaque scénario inclut un état initial suivi d'une série de changements. On s'est assuré que des opérations valides étaient sélectionnées sur la base de l'état actuel.

On a créé une tâche structurée où, étant donné une description de l'état initial et un ensemble d'opérations, le contenu de chaque boîte doit être correctement identifié à la fin. Chaque scénario inclut des questions sur le contenu des boîtes, formulées comme un test à trous, qui est familier aux modèles de langage.

Expérience 1 : Démonstration en contexte

Dans la première expérience, on a fourni aux modèles quelques exemples de la tâche. Cette approche nous a permis d'évaluer leur capacité sans donner trop d'indications. On a utilisé des modèles connus pour apprendre de telles démonstrations, spécifiquement GPT-3 et GPT-3.5, ainsi que Flan-T5.

Les invites pour les modèles incluaient une description de la tâche, deux exemples, un état initial et des phrases incomplètes à compléter par le modèle. On a aussi évalué les modèles par rapport à un basique qui choisissait des objets au hasard selon le contexte.

Nos découvertes de cette expérience montrent que GPT-3.5 a constamment surpassé le baseline aléatoire. Bien que l'exactitude ait diminué à mesure que plus d'opérations étaient appliquées, il a toujours bien performé même après plusieurs changements. En revanche, Flan-T5 répétait souvent l'état initial et semblait ignorer les opérations suivantes.

Dissociation forme-signification

On a également examiné si les modèles pouvaient suivre des entités quand on leur donnait des descriptions différentes des exemples de démonstration. Nos résultats ont montré que même quand les descriptions étaient disjointes, GPT-3.5 maintenait une bonne performance, indiquant sa capacité à suivre les changements sans se baser sur un wording spécifique.

S'entraîner sur du code encourage le suivi

La différence de performance entre les modèles nous a poussés à analyser les facteurs qui pourraient être responsables. On a découvert que les modèles entraînés à la fois sur du texte et du code étaient plus susceptibles de bien performer dans le suivi d'entités. Ça suggère que s'entraîner sur du code fournit des signaux utiles qui aident les modèles à comprendre comment suivre efficacement les objets et leurs états.

Expérience 2 : Affinage

On a encore exploré si des modèles plus petits comme T5 pouvaient aussi apprendre à suivre les états d'entités grâce à un entraînement supervisé. On a conçu diverses approches qui bloquaient les raccourcis potentiels, nous permettant d'évaluer les modèles correctement.

Nos résultats ont indiqué qu'un modèle T5 affiné pouvait apprendre la tâche efficacement, bien performé dans des situations avec des noms d'objets nouveaux et des séquences de changements plus longues. Dans l'ensemble, le processus d'affinage a permis à T5 de généraliser sa capacité de suivi, même dans des scénarios difficiles.

Discussion générale

Notre travail visait à évaluer si les modèles de langage peuvent suivre les changements d'état. Nos expériences ont révélé que les modèles basiques sans formation spécialisée n'ont pas cette capacité, mais ceux entraînés à la fois sur du texte et du code montrent des compétences de suivi d'entités. On a également trouvé que des modèles plus petits peuvent apprendre cette capacité de suivi grâce à l'affinage.

L'efficacité des données d'entraînement mixtes suggère que suivre les états changeants est important dans la programmation et la compréhension du langage naturel. De plus, ça met en lumière la nécessité de méthodes d'évaluation appropriées qui ne laissent pas les modèles se fier à des motifs superficiels.

Les limites de notre travail comprennent la dépendance aux données comportementales, ce qui rend difficile d'établir des liens de cause à effet et les attentes potentielles de performances élevées qui dépassent les capacités normales de mémoire humaine.

On pense que notre tâche est justifiée vu les capacités des modèles qu'on a évalués. Les modèles Transformer peuvent utiliser l'ensemble de leur séquence d'entrée, permettant un suivi quand des descriptions claires sont données. Nos résultats pourraient s'appliquer à d'autres langues, mais d'autres recherches sont nécessaires pour le confirmer.

En fournissant une approche structurée pour étudier le suivi d'entités, nos découvertes contribuent à comprendre comment les modèles de langage traitent le sens au fil du temps. L'avenir des modèles de langage dépend de l'affinement de leurs méthodes d'évaluation et de la compréhension de leurs capacités sous-jacentes.

Évaluer la capacité des modèles de langue à suivre les changements

Cette étude examine à quel point les modèles de langage comprennent les changements au fil du temps dans le texte.

Conception de la tâche et ensemble de données

Expérience 1 : Démonstration en contexte

Dissociation forme-signification

S'entraîner sur du code encourage le suivi

Expérience 2 : Affinage

Discussion générale

Liens de référence

Sujets référencés

Évaluer la capacité des modèles de langue à suivre les changements

Cette étude examine à quel point les modèles de langage comprennent les changements au fil du temps dans le texte.

#Conception de la tâche et ensemble de données

#Expérience 1 : Démonstration en contexte

#Dissociation forme-signification

#S'entraîner sur du code encourage le suivi

#Expérience 2 : Affinage

#Discussion générale

Liens de référence

Sujets référencés

Conception de la tâche et ensemble de données

Expérience 1 : Démonstration en contexte

Dissociation forme-signification

S'entraîner sur du code encourage le suivi

Expérience 2 : Affinage

Discussion générale