Simple Science

La science de pointe expliquée simplement

# Informatique # Calcul et langage

Les modèles de langage deviennent plus intelligents avec la mémoire

Un nouveau système de mémoire aide les modèles de langue à fournir des infos précises.

Mingda Chen, Yang Li, Karthik Padthe, Rulin Shao, Alicia Sun, Luke Zettlemoyer, Gargi Gosh, Wen-tau Yih

― 8 min lire


Les modèles de langage IA Les modèles de langage IA améliorent la précision. dans les modèles linguistiques. améliorent la vérification des faits De nouvelles méthodes de mémoire
Table des matières

Les grands modèles de langage (LLMs) sont comme des calculateurs fancy pour les mots. Ils peuvent générer du texte qui sonne super, mais parfois, ils mélangent les faits et la fiction. Ce problème s'appelle "hallucination", et non, ça n'implique pas de voir des choses qui n'existent pas - du moins, pas dans le sens traditionnel. Ça veut dire que ces modèles peuvent parfois inventer des infos qui ne sont pas vraies.

Le défi de l'hallucination

Imagine demander à un modèle de te parler d'une personne célèbre, et il affirme avec certitude qu'elle est née sur Mars. C'est marrant, mais pas vraiment factuel. Ce souci a poussé pas mal de chercheurs à bossé pour rendre ces magiciens des mots plus fiables. Ils ont trouvé des méthodes astucieuses pour aider les modèles à utiliser de vraies infos tout en restant utiles et engageants.

Une méthode s'appelle Génération augmentée par récupération (RAG), ça sonne bien, mais c'est juste une technique où le modèle tire des infos de sources fiables pour créer ses réponses. C'est comme demander à un pote des faits avant qu'il te donne son avis sur un film. Cependant, RAG a ses limites et parfois, ça galère à suivre le rythme des conversations en temps réel ou des textes longs.

Entrez la mémoire de travail explicite

Pour régler ces problèmes, une nouvelle approche appelée "Mémoire de Travail Explicite" a fait son apparition. Imagine ça comme un assistant sympa qui s'assoit à côté du modèle pendant qu'il écrit. Il collecte des faits sur internet et les vérifie pendant que le modèle tape. Comme ça, si le modèle part dans un délire, l'assistant peut le remettre sur les rails en fournissant des corrections en temps réel.

Ce mécanisme permet au modèle d'intégrer des infos factuelles tout en générant du texte, ce qui réduit les risques de dire des bêtises. La mémoire se met à jour avec des infos vérifiées par des vérificateurs de faits et des ressources en ligne, ce qui rend les réponses produites plus fiables.

Comment ça fonctionne

Voilà comment ça se passe : pendant que le modèle génère du texte, il fait des pauses de temps en temps - un peu comme prendre un souffle. Pendant ces pauses, il consulte sa mémoire pour avoir des conseils. S'il se rend compte qu'il a fait une erreur, il revient en arrière, se corrige et reprend l'écriture. Pense à un étudiant qui consulte ses notes en écrivant une dissertation pour s'assurer qu'il ne raconte pas de bobards.

Cette mémoire de travail explicite peut rassembler des informations de différentes sources, comme des bases de données de connaissances générales ou des sources qui fournissent des faits spécifiques. Le modèle peut compter sur ces deux sources séparément - une pour la vue d'ensemble et une pour les détails. C'est un peu comme avoir un meilleur pote qui sait tout sur les généralités et un bibliothécaire bien lu en attente pour les petits détails.

Tests et résultats

Dans les tests, cette nouvelle méthode a montré des résultats prometteurs. Elle a surpassé les modèles précédents en générant du contenu long, précis et fiable. Ça veut dire que quand on lui demande de raconter une histoire, de fournir des infos ou de répondre à des questions, elle peut le faire en réduisant considérablement les erreurs.

Différents jeux de données ont été utilisés pour mesurer les performances du modèle. Ces jeux de données incluaient des questions de vérification des faits qui exigeaient que les réponses générées contiennent des informations exactes et vérifiables. Les résultats étaient encourageants, montrant des améliorations dans les scores de Factualité.

En termes simples, si le modèle traditionnel obtenait un C+ en factualité, la nouvelle version est passée à un A solide.

Facteurs influençant la performance

Fait intéressant, la conception de ce système de mémoire explicite joue un rôle clé dans l'efficacité globale. Plusieurs facteurs contribuent à son succès, comme la fréquence de mise à jour de la mémoire et la qualité des informations extraites. Si le modèle surcharge sa mémoire avec des faits obsolètes, il peut tout de même générer des réponses incorrectes ou non pertinentes.

C'est donc un équilibre à trouver. Trop de mémoire et ça devient encombré d'infos inutiles, mais trop peu et ça rate des occasions d'améliorer sa factualité.

Trouver le bon équilibre

Lors des tests avec différents nombres d'unités de mémoire (où chaque unité stocke une certaine quantité d'infos), les chercheurs ont découvert qu'il existe un juste milieu pour le nombre d'unités que le modèle devrait utiliser. S'il y en a trop, le modèle peut perdre le fil de ce qui est actuel ou pertinent ; s'il y en a trop peu, il risque de rater des infos utiles.

En plus, la forme ou le type de ces unités de mémoire compte. Des morceaux d'infos plus petits semblent mieux fonctionner que des plus gros. C'est probablement parce que les unités plus courtes permettent au modèle de mieux se concentrer sur une seule info à la fois. Imagine essayer de manger une pizza entière d'un coup versus la prendre morceau par morceau – c'est beaucoup plus facile avec des morceaux plus petits !

Les formats de feedback comptent

Pour recueillir des retours des vérificateurs de faits, le modèle peut utiliser différents formats. Certains formats incluent une liste de revendications qui sont factuelles ou non, accompagnées de passages de soutien. Utiliser une gamme variée de types de feedback semble aider le modèle à s'améliorer encore plus.

Cependant, ce n'est pas toujours qu'une question de plus d'infos. Parfois, moins c'est plus. Des retours qui disent juste au modèle ce qu'il ne doit pas inclure peuvent mener à des malentendus. C'est comme dire à un gamin : "Ne pense pas à un éléphant rose" - il va quand même l'imaginer !

Le rôle de la confiance

Une autre fonctionnalité cool de ce système, c'est qu'il peut évaluer sa propre confiance pendant qu'il génère du texte. S'il se sent incertain sur un fait, il peut faire une pause et rafraîchir sa mémoire si nécessaire. C'est différent de l'approche traditionnelle à intervalle fixe, qui peut mener à des performances médiocres en vérifiant des informations aux mauvais moments.

La clé, c'est de savoir quand rafraîchir. Le modèle utilise divers indicateurs de confiance pour décider. S'il est un peu nerveux à propos d'un détail, il peut tirer des retours d'appui et se remettre sur les rails.

L'importance des sources de qualité

Avec les vérifications internes, le succès du modèle dépend aussi beaucoup de la qualité des sources externes. En accédant à l'info, puiser dans des bases de données de récupération de haute qualité, comme une vaste bibliothèque de connaissances, fait une grosse différence. Une meilleure source égale de meilleures réponses.

Par exemple, testé avec différentes sources de récupération, il a montré que des bases de données variées fournissent un ensemble de connaissances plus riche, renforçant encore la précision factuelle.

Conclusion

Dans le monde en constante évolution des modèles de langage, l'introduction de la mémoire de travail explicite représente un pas significatif vers un modèle plus fiable. Avec sa capacité à faire des pauses, à rafraîchir et à intégrer des retours en temps réel, il peut générer du texte qui est non seulement créatif mais aussi factuel.

Imagine que la génération de texte long s'est transformée d'un solo en un duo, avec un partenaire dédié qui garde les faits à l'œil et garantit l'exactitude. En conséquence, les lecteurs peuvent recevoir des infos en toute confiance, sachant que c'est ancré dans la réalité plutôt que dans des histoires fictives.

Alors, la prochaine fois que tu demandes à un modèle de langage une question, souviens-toi que, derrière les coulisses, il peut être en train de vérifier ses notes et de double-vérifier ses faits, travaillant dur pour te donner la meilleure réponse possible. Qui aurait cru qu'un tas d'algorithmes pouvaient être si assidus ?

Source originale

Titre: Improving Factuality with Explicit Working Memory

Résumé: Large language models can generate factually inaccurate content, a problem known as hallucination. Recent works have built upon retrieved-augmented generation to improve factuality through iterative prompting but these methods are limited by the traditional RAG design. To address these challenges, we introduce EWE (Explicit Working Memory), a novel approach that enhances factuality in long-form text generation by integrating a working memory that receives real-time feedback from external resources. The memory is refreshed based on online fact-checking and retrieval feedback, allowing EWE to rectify false claims during the generation process and ensure more accurate and reliable outputs. Our experiments demonstrate that Ewe outperforms strong baselines on four fact-seeking long-form generation datasets, increasing the factuality metric, VeriScore, by 2 to 10 points absolute without sacrificing the helpfulness of the responses. Further analysis reveals that the design of rules for memory updates, configurations of memory units, and the quality of the retrieval datastore are crucial factors for influencing model performance.

Auteurs: Mingda Chen, Yang Li, Karthik Padthe, Rulin Shao, Alicia Sun, Luke Zettlemoyer, Gargi Gosh, Wen-tau Yih

Dernière mise à jour: Dec 23, 2024

Langue: English

Source URL: https://arxiv.org/abs/2412.18069

Source PDF: https://arxiv.org/pdf/2412.18069

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires