Améliorer les modèles de langue avec des connaissances externes
Apprends comment les connaissances externes améliorent la précision et la fiabilité des modèles linguistiques.
Zhiyuan Chang, Mingyang Li, Xiaojun Jia, Junjie Wang, Yuekai Huang, Qing Wang, Yihao Huang, Yang Liu
― 5 min lire
Table des matières
- Qu'est-ce que la connaissance externe ?
- Le problème de la connaissance imparfaite
- Le concept de chaîne de preuves
- Comment ça marche, la CoE
- Trouver la bonne connaissance
- Construction d'échantillons pour les tests
- Évaluation des performances
- Résultats clés
- Améliorer l'usage
- Conclusion
- Source originale
- Liens de référence
Dans le monde tech d'aujourd'hui, les grands modèles de langage (LLMs) commencent à être au top quand il s'agit de répondre aux questions et de fournir des infos. Mais attention, les LLMs n'ont pas toujours les dernières nouvelles ou les infos les plus précises. C'est là que la connaissance externe entre en jeu. Cet article vise à décomposer le concept de connaissance externe dans les LLMs, les défis qu'ils rencontrent, et comment ils peuvent s'améliorer sans trop se perdre dans des mots compliqués.
Qu'est-ce que la connaissance externe ?
La connaissance externe désigne les infos qui viennent de sources en dehors du modèle de langage lui-même. Au lieu de s'appuyer uniquement sur ce sur quoi ils ont été formés, les LLMs peuvent puiser dans des bases de données, des sites web ou d'autres ressources. Cependant, toute la connaissance externe n'est pas à mettre au même niveau. Certaines peuvent être obsolètes, inutiles, ou même complètement fausses. C'est un peu comme essayer de trouver ton resto préféré sur Google Maps et finir par atterrir ailleurs complètement !
Le problème de la connaissance imparfaite
Le principal souci avec la connaissance externe, c'est qu'elle peut parfois être "imparfaite." Pense à un jeu de téléphone où le message se déforme à chaque passage. Ces infos imparfaites peuvent mener à des réponses incorrectes ou confuses, et c'est loin d'être ce que les utilisateurs veulent.
Il y a deux types principaux de bruit dans la connaissance externe :
-
Infos inutiles : Ce genre de connaissance peut avoir l'air bien sur le papier mais n'aide pas vraiment à répondre à la question. C'est comme amener une banane à une fusillade-totalement hors sujet !
-
Désinformation : C'est le vrai trouble-fête. Ça embrouille le modèle, le poussant à donner de fausses réponses. C’est comme recevoir de fausses directions pour aller chez un pote-frustrant et souvent embarrassant.
Le concept de chaîne de preuves
Pour s'attaquer au problème de la connaissance imparfaite, les chercheurs se sont inspirés du monde juridique. Ils ont introduit quelque chose appelé la "Chaîne de Preuves" (CoE). Tout comme la loi exige des preuves claires et fiables pour faire un cas, les LLMs ont besoin de preuves qui soient non seulement pertinentes, mais aussi interconnectées. Ça veut dire que si une info soutient une autre info, ça forme une base solide pour répondre aux questions avec précision.
Comment ça marche, la CoE
En pratique, l'approche CoE consiste à identifier des connaissances qui répondent à deux critères clés :
-
Pertinence : L'info doit directement se rapporter à la question posée. Pense à une flèche bien ciblée qui touche le centre !
-
Interconnexion : Les morceaux de connaissance doivent se soutenir mutuellement, un peu comme une équipe bien coordonnée qui travaille ensemble.
Quand les LLMs peuvent trouver des connaissances qui s'inscrivent dans ce cadre CoE, ils deviennent beaucoup plus efficaces pour fournir des réponses précises.
Trouver la bonne connaissance
Les chercheurs ont élaboré des méthodes pour aider les modèles à distinguer entre la bonne et la mauvaise connaissance externe. Ils recherchent l'intention (ce que la question demande vraiment), les mots-clés (les éléments importants), et les relations (comment ces éléments se connectent). Si la connaissance correspond à ces éléments, elle a plus de chances d'être fiable.
Construction d'échantillons pour les tests
Pour tester cette idée, les chercheurs ont créé des paires de questions-réponses en utilisant des ensembles de données établis. Ils ont construit deux types d'échantillons de connaissance : ceux qui s'inscrivaient dans le cadre CoE et ceux qui ne le faisaient pas. Comme ça, ils pouvaient évaluer comment les LLMs se débrouillaient avec différents types de Connaissances externes.
Évaluation des performances
Les chercheurs ont ensuite voulu voir comment différents modèles pouvaient répondre à des questions en utilisant des connaissances CoE par rapport à des connaissances imparfaites. Ils ont découvert que les modèles utilisant CoE étaient beaucoup mieux pour surmonter les infos inutiles. En gros, quand du bruit était ajouté, les LLMs qui utilisaient CoE restaient plus précis que ceux qui ne l’utilisaient pas.
Résultats clés
-
Amélioration de la précision : Les LLMs utilisant le cadre CoE ont montré une augmentation significative des réponses précises, même face à une montagne d'infos inutiles.
-
Fidélité aux réponses : Quand des infos incorrectes étaient ajoutées, les modèles avec CoE s'en sortaient encore mieux pour maintenir les bonnes réponses.
-
Robustesse contre les conflits : Les modèles utilisant CoE étaient beaucoup plus performants pour naviguer dans les conflits d'infos qu'ils recevaient. Ça veut dire qu'ils pouvaient faire la différence entre ce qui était correct et ce qui était trompeur.
Améliorer l'usage
Une approche intéressante a été d'incorporer CoE dans une technique appelée Génération augmentée par récupération ou RAG. C'est comme avoir un assistant qui non seulement va chercher l'info, mais s'assure aussi que c'est le bon truc. En utilisant des stratégies CoE, les chercheurs ont constaté qu'ils pouvaient encore améliorer la précision des LLMs, les rendant plus intelligents et efficaces.
Conclusion
En gros, comprendre et utiliser efficacement la connaissance externe peut vraiment améliorer les performances des LLMs. En appliquant des concepts comme la Chaîne de Preuves, les modèles peuvent trier le bruit et fournir aux utilisateurs les infos précises et pertinentes dont ils ont besoin. Rappelle-toi juste que, comme toutes les bonnes choses, ça demande un peu de temps et d'efforts pour bien faire les choses ! Alors, la prochaine fois que tu poses une question à un LLM, sache qu'il y a tout un monde d'efforts en coulisses, pour assurer que tu reçoives la meilleure réponse possible-et peut-être quelques rires aussi en chemin !
Titre: What External Knowledge is Preferred by LLMs? Characterizing and Exploring Chain of Evidence in Imperfect Context
Résumé: Incorporating external knowledge into large language models (LLMs) has emerged as a promising approach to mitigate outdated knowledge and hallucination in LLMs. However, external knowledge is often imperfect. In addition to useful knowledge, external knowledge is rich in irrelevant or misinformation in the context that can impair the reliability of LLM responses. This paper focuses on LLMs' preferred external knowledge in imperfect contexts when handling multi-hop QA. Inspired by criminal procedural law's Chain of Evidence (CoE), we characterize that knowledge preferred by LLMs should maintain both relevance to the question and mutual support among knowledge pieces. Accordingly, we propose an automated CoE discrimination approach and explore LLMs' preferences from their effectiveness, faithfulness and robustness, as well as CoE's usability in a naive Retrieval-Augmented Generation (RAG) case. The evaluation on five LLMs reveals that CoE enhances LLMs through more accurate generation, stronger answer faithfulness, better robustness against knowledge conflict, and improved performance in a popular RAG case.
Auteurs: Zhiyuan Chang, Mingyang Li, Xiaojun Jia, Junjie Wang, Yuekai Huang, Qing Wang, Yihao Huang, Yang Liu
Dernière mise à jour: Dec 17, 2024
Langue: English
Source URL: https://arxiv.org/abs/2412.12632
Source PDF: https://arxiv.org/pdf/2412.12632
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.