Améliorer la sensibilité au contexte dans les modèles de langue
Des recherches montrent des méthodes pour améliorer la conscience du contexte dans les modèles de langage pour des réponses plus pertinentes.
Yihan Wang, Andrew Bai, Nanyun Peng, Cho-Jui Hsieh
― 6 min lire
Table des matières
Les grands modèles de langage (GML) sont des outils puissants qui apprennent la langue à partir d'une large gamme de textes. Mais pour les rendre encore meilleurs à suivre des instructions, ils ont souvent besoin d'un entraînement supplémentaire sur des paires d'instructions-réponses spécifiques. Cet entraînement s'appelle le "supervised fine-tuning" (SFT). Cependant, il s'avère que ce processus de fine-tuning peut parfois perturber des compétences que le modèle avait déjà apprises lors de son entraînement initial.
Un gros souci qui se pose est la perte de conscience contextuelle. Ça veut dire que le modèle a du mal à rassembler et à utiliser les infos pertinentes fournies par les utilisateurs dans leurs demandes. La conscience contextuelle est cruciale pour bien performer dans de nombreuses tâches dans le monde réel, comme répondre à des questions basées sur des infos de fond. Dans notre recherche, on a découvert que cette chute de la conscience contextuelle se produit quand le modèle est fine-tuné avec un modèle de chat. Ce modèle est utilisé pour guider comment le modèle doit interagir avec les utilisateurs, mais ça biaise involontairement le modèle, le faisant prêter moins attention au contexte donné par les utilisateurs.
Le Problème des Modèles de Chat
Pendant le fine-tuning d'instructions, un modèle de chat est introduit, ce qui segmente la conversation en invites utilisateurs et réponses du modèle. Même si ça aide à établir des rôles conversationnels, ça crée aussi un biais qui impacte négativement l'attention que le modèle porte à l'entrée de l'utilisateur. On a constaté que quand on utilise le modèle de chat, le modèle performe moins bien dans des tâches où il doit extraire des détails spécifiques du contexte de l'utilisateur.
Dans nos tests, on a utilisé une méthode appelée le test "Needle-in-a-Haystack" (NIH) pour voir à quel point les modèles pouvaient récupérer des infos clés à partir de longs textes peu pertinents. Quand on a appliqué le modèle de chat, on a remarqué une chute de performance. On avait l'impression que le modèle passait trop de temps à se concentrer sur le modèle de chat lui-même plutôt que sur le contexte de l'utilisateur. C'était vrai pour les petits et grands modèles, suggérant que le souci vient de la conception du processus de fine-tuning plutôt que des modèles eux-mêmes.
Le Mystère de l'Allocation d'Attention
On a remarqué que quand on utilise le modèle de chat, le modèle alloue moins d'attention à l'entrée de l'utilisateur, ce qui est un gros problème pour les tâches qui dépendent du contexte. Le modèle de chat déplace l'attention du modèle et biaise ses réponses en fonction de la façon dont il a été entraîné. Ça peut faire en sorte que le modèle se repose trop sur ce qu'il a appris lors de son entraînement initial plutôt que sur ce que les utilisateurs demandent réellement. Donc, si le modèle croit à tort qu'il peut répondre à une question sans regarder le contexte, il pourrait inventer des choses. C'est ce qu'on appelle "Hallucination" en termes d'IA-quand le modèle fournit des réponses qui ne sont tout simplement pas vraies.
Deux Solutions au Dilemme
D'après nos findings, on a trouvé deux stratégies pour améliorer la conscience contextuelle.
1. Orientation de l'Attention
La première approche consiste à donner un petit coup de pouce à l'attention du modèle pendant le processus de réponse. Imagine que tu es dans un café bondé à essayer d'entendre ton ami au milieu du brouhaha. Si tu te concentres uniquement sur sa voix, tu pourrais rater ce qu'il dit si ce n'est pas assez fort. En renforçant l'attention du modèle sur les entrées des utilisateurs, on peut l'aider à "entendre" ce que les utilisateurs disent plus clairement. Ça peut se faire pendant la phase de réponse du modèle, mais ça peut aussi affecter involontairement d'autres aspects de ses capacités.
2. Indicateurs de Dépendance Contextuelle
La deuxième méthode est plus proactive. On peut fournir des indicateurs pendant la phase d’entraînement pour aider le modèle à reconnaître quand il doit porter une attention supplémentaire au contexte. Comme ça, le modèle apprend à ajuster son focus en fonction de si l'entrée a besoin de plus de contexte ou pas. Pense à ça comme un petit drapeau qui dit : "Hé, ce morceau est important !" Cette approche semble marcher mieux globalement parce qu'elle permet au modèle de garder ses capacités générales intactes tout en améliorant la conscience contextuelle.
Tester Nos Idées
On a mis nos deux approches à l'épreuve avec divers modèles dans des tâches réelles qui dépendent beaucoup du contexte. Nos résultats ont montré que les modèles entraînés avec des indicateurs de dépendance contextuelle performaient mieux dans les tâches nécessitant de l'attention au contexte que ceux entraînés sans eux. En fait, les modèles qui utilisaient nos indicateurs spéciaux non seulement ont amélioré leur conscience contextuelle mais ont aussi maintenu leur capacité à suivre des instructions efficacement.
L'Importance de l'Évaluation
Notre recherche souligne un point crucial : il est essentiel d'évaluer à quel point les modèles gardent leur conscience contextuelle après avoir subi un fine-tuning d'instruction. Ignorer ça peut mener à des modèles qui semblent plus intelligents qu'ils ne le sont vraiment, simplement parce qu'ils ont été entraînés à répondre à des invites sans vraiment comprendre le contexte.
Conclusion
En résumé, bien que les grands modèles de langage soient impressionnants, ils peuvent rencontrer des défis lors du fine-tuning pour des tâches spécifiques. La perte de conscience contextuelle est l'un de ces défis, surtout lorsque des modèles de chat sont utilisés qui distraient le modèle des infos fournies par l'utilisateur. En mettant en œuvre l'orientation de l'attention et les indicateurs de dépendance contextuelle, on a ouvert la porte à de meilleures méthodes d'entraînement, permettant aux modèles de maintenir leur performance sur une variété de tâches tout en étant plus à l'écoute des besoins des utilisateurs. Tout est question d'aider ces modèles à mieux écouter dans un monde bruyant. Espérons qu'ils ne commencent pas à parler par-dessus nous !
Titre: On the loss of context-awareness in general instruction fine-tuning
Résumé: Pre-trained Large Language Models (LLMs) require post-training methods such as supervised fine-tuning (SFT) on instruction-response pairs to enable instruction following. However, this process can potentially harm existing capabilities learned during pre-training. In this paper, we investigate the loss of context awareness after SFT, where context awareness is defined as the ability to extract and understand information from user-provided context and respond accordingly. We are the first to identify and show that the loss of context awareness, as reflected by the performance drop in the Needle-in-a-Haystack test, occurs in instruction fine-tuned LLMs when the chat template is applied to input prompts. We identify that the performance decline is partially caused by an attention bias toward different roles learned during conversational instruction fine-tuning. We validate our hypothesis by visualizing changes in attention allocation after the chat template is applied and manually steering the attention heads. Based on these observations, we propose a metric to select context-dependent examples from general instruction fine-tuning datasets. We then apply conditional instruction fine-tuning with a context-dependency indicator, enabling the model to learn context awareness from these selected examples. Empirical experiments on four context-dependent downstream tasks and three pre-trained LLMs of different sizes show that our method effectively mitigates the loss of context awareness without compromising general instruction-following capabilities. Given our findings, we strongly advocate for careful benchmarking of context awareness after instruction fine-tuning.
Auteurs: Yihan Wang, Andrew Bai, Nanyun Peng, Cho-Jui Hsieh
Dernière mise à jour: 2024-12-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2411.02688
Source PDF: https://arxiv.org/pdf/2411.02688
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.